说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732
全网监测海量数据按需发布监测预警
实时把握舆情动态精准追溯信息源头
搜索引擎系统概述
本次培训内容主要包括搜索引擎系统概述、搜索引擎系统、搜索引擎分析系统、搜索引擎索引系统和搜索引擎查询系统六大板块。搜索引擎的服务方式可以分为三种:目录式搜索引擎、全文搜索引擎和元搜索引擎。
搜索引擎系统
目前万维网的结构是一个蝴蝶结结构,位于蝴蝶结两端的分别是目录型网页和权威型网页,目录型网页是蜘蛛爬取的入口,即种子站点,它拥有大量的导出链接,而导入链接却比较少。我们网站中的一些内容页便是权威型页面,它们拥有很多的导入链接,却鲜有导出链接。剩下的蝴蝶结的主体便是互联网多数的页面。
蜘蛛的爬行抓取策略分为广度抓取和深度抓取,广度抓取是先抓取层级比较低比较重要的目录页等,然后再去抓取下一层级的。而深度抓取便是沿着一个分类进行深层次的抓取,直到这个分类全部抓取结束,然后继续抓取下一分类。
Robots协议是写给蜘蛛看的标准,可以规定蜘蛛哪些页面可以抓取哪些不可以抓取。
搜索引擎分析系统
互联网上的页面是由动态页面和静态页面组成的,静态页面指的是html页面,html预言是超文本标记语言,它是由形形的标签组成的。
因为中文不像英文单词一样中间有空格,所以中文搜索引擎需要应用中文分词技术P(S)=P(W1W2W3……Wn)=P(W1)*P(W2|W1)*P(Wt|W1W2……Wt-1),互联网是喜欢原创的东西的,为了避免大量的抄袭文章的出现,搜索引擎会运用Shingle查重算法。链接是一个网站对另一个网站的信任投票,PR算法:PR(A) = (1-d)+ d(PR(t1)/C(t1)+ … + PR(tn)/C(tn))。
搜索引擎索引系统
索引分为正排索引和倒排索引,正排索引是把互联网中的文章编号,然后运用分词技术,统计出每篇文章中有哪些关键词。倒排索引是在正排索引的基础上,将关键词编号,然后统计出这些关键词对应了哪些文章。这样当我们在搜索引擎上检索关键词的时候,搜索引擎便可以轻松的将包含这些关键词的文章页面返回给我们。
搜索引擎查询系统
当我们在搜索引擎当中查询一个词的时候,搜索引擎会调用布尔模型算法返回包含我们查询词的页面,这些页面是经过权重计算(内容+链接+用户点击)排序过的,呈现出的结果包括url、标题、描述、快照日期和图片。
中心思想
搜索的本质的将杂乱无章的信息通过合理的分类整合变得有序,并通过用户的需求按照内容质量的程度呈现给用户。搜索引擎会预先抓取互联网上的网页建立网页库,然后运用正排索引和倒排索引建立一个索引库,用户在搜索引擎查找信息时,再通过查询系统呈现给用户。
做seo的目的是将网站优化的更合理,排到更好的位置将更好的内容呈现给用户。我们应该从原理层面去理解搜索引擎,掌握它的每一个环节,这样才能够将工作做得更好。
心得
做搜索引擎优化不仅要知其然还必须要知其所以然,只有真正明白了搜索引擎原理,我们才能更好的做好SEO。
百度更喜欢原创的内容,我们要明白何为原创,这要理解分词技术和去重算法,不然即使是你自己写的一篇文章,也可能会被搜索引擎误判为抄袭。关键词出现的频率和位置,以及相关词的密度,都是影响一篇文章质量的重要因素。
发外链有三重意义,一是为网站获得更多的信任投票,而且只有与网站内容相关的网站的外链才能够传递更高的权重。二是为蜘蛛提供更多的入口,有利于蜘蛛抓取网站更多更的内容。是为用户提供一个入口,用户可能会通过点击链接而进入网站。
百度是一家商业机构,它拥有自己的盈利模式,而这一切的基础便是搜索引擎良好的用户体验,百度是十分重视用户体验的,所以无论搜索引擎的算法如何变,都会是围绕着用户体验为中心的。我们只有围绕着用户体验进行优化,才能使我们的网站更加符合百度的标准,而不会因为过度优化被百度降权。比如网站的扁平化设计,更利于蜘蛛的抓取,更加利于百度的收录,而从另一方面来说扁平化的设计也更利于简化用户的搜索流程,更利于用户找到自己所需的内容。
推荐阅读
说明:如果您有任何疑问或想咨询其他业务请拨打电话 400 685 0732