说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732
全网监测海量数据按需发布监测预警
实时把握舆情动态精准追溯信息源头
随着科技的进步和发展,互联网在现代社会中,广泛被人们认可和重视。网络营销也掀起了一次高潮。在所有网络推广方法中,搜索引擎是大家谈论多的,于是我们的推广之旅也将从这里开始。
确实,搜索引擎是网络推广中的一个非常强大的武器,如果我们想很灵活的掌控它,那么我们首先必须先了解它。
我们要了解它是如何工作、如何分类、如何查询等一系列问题,而且搜索引擎像人一样各不相同,所以对于如此特别重要的引擎来说,我们还需要了解它的个性。
1、两个基本的词汇:搜索引擎(SearchEngine)是通过运行一个软件,该软件在网络上通过各种链接,自动获得大量站点页面的信息,并按照一定规则进行归类整理,从而形成数据库,以备查询。这样的站点(获得信息==>整理建立数据库==>提供查询)我们称之为“搜索引擎”。而所使用的软件一般叫做“Spider”、“crawlers”等。分类目录(Directory):通过“人工方式”将站点进行分类而建立数据库,以提供查询,这样的站点叫着“分类目录”。典型的搜索引擎如AltaVista、Excite、HotBot、Inktomi等,而重要的分类目录是 Yahoo。
实际上无论“搜索引擎”还是“分类目录”,目标都一样:获得网站资料,建立数据库提供查询。只不过使用的方法不同。
“搜索引擎”因为依靠软件自动进行,因此,其数据库的容量非常庞大,但是伴随着查询结果往往不够;而“分类目录”由于依靠人工分类,查询得到的信息要准确些,但收集的内容非常有限。
我们平时把这两类统称为“搜索引擎”,在下面的讨论中我们将以“自动”的搜索引擎为主,至于“人工”的如Yahoo,我将会在“中文Yahoo”中单独讨论。
2、主要的搜索引擎:
七个主要的搜索引擎及各自包括的页面数:引擎AltaVistaNorthernLightInktomiExciteLycosInfoseekWebCrawler页面数(百万页)1501251105550452(以上数据为1999年2月1日统计值)
3、搜索引擎的主要工作:
步是“Spider”软件访问一个站点,并通过其中的链接阅读该站点的页面,而且“Spider”会不时的自动回访该站点以检查变化情况;该 “Spider”获得的站点信息形成一个巨大的网络信息库,如同整个网络上已经访问站点的备份,当然记录的不是所有的内容;这也是我们所说的数据库。第二步是查询服务。这是通过查询软件实现的,当你输入查询内容,该软件会在其数据库中找到相关内容,然后按照“它的”规则进行排序。
4、搜索引擎在查询时是如何排名的:
这个主要的是根据一个站点的内容与查询词的关联程度,但是一个站点的内容搜索引擎又是如何确定的呢?
——标题(Title)、关键词(Keywords)、描述(Description)、页面开始部分的内容以及这些内容本身之间的关联程度。而且现在绝大部分搜索引擎都支持MetaTag。
另一个主要因素是一个站点在整个网络上的关联程度,也是说一个站点在网络中其他站点出现的次数(LinkPopularity)。
虽然不同的搜索引擎有各自的“游戏规则”,但是请记住“关联程度”这个词,包括站内和站外的(整个网络)。
接下来我们来谈一谈搜索引擎的原理是什么?
搜索引擎的原理基本分做三步:
步:从互联网上搜集信息
网络蜘蛛Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
第二步:整理信息、建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页所在网址链接、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
第三步:在索引数据库中搜索排序、接受查询
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。
,由页面生成系统将搜索结果的链接地址、页面内容摘要等内容,组织起来返回给用户。网络蜘蛛(spider)一般按照各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率,要定期重新访问所有网页,更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况会以更新的形态,反映到用户搜索查询的结果中。
说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732