发新帖

信息过量抓取有限:谈搜索引擎相关性技术

6060 25
核心提示:相干性,是引擎优化中的重点,主如果由引擎的特点决定的。起首Web网页数量已经达到上十亿的范围,其次,引擎用户自身的检索专业才能平日很有限。




                                
相干性,是引擎优化中的重点。然则对于相干性的引擎工作道理,信赖大年夜部分的引擎优化ER对于都缺乏懂得。然则只须要我们主流引擎技巧的偏向,你就可以知道引擎时代的脉搏。


相干度排序技巧的产生主如果由引擎的特点决定的。起首,现代引擎可以或许拜访的Web网页数量已经达到上十亿的范围,哪怕用户只是个中很少的一部分内容,基于全文技巧的引擎也能返回成千上万的页面。即便这些结不雅网页都是用户所须要的,用户也没有可能对所有的网页浏览一遍,所以可以或许将用户最感兴趣的结不雅网页放于前面,势必可以加强引擎用户的知足度。其次,引擎用户自身的检索专业才能平日很有限,在最为广泛的关键词检索行动中,用户一般只是键人几钢词语。例如,Spink等曾对Excite等引擎的近300位用户做过实验查询拜访,发明人均输入的检索词为3.34个。国内部分学者也有类似的结论,发明90%阁下的用户输入的中文检索单字为2~6个,并且2字词居多,约占58%,其次为4字词(约占18%)和3字词(约占14%)。


过少的检索词事实上无法真正表达用户的检索需求,并且用户平日也不去进行复杂的逻辑构造,只有相当氨赡用户进行布尔逻辑检索、限制性检索和高等检索等办法,仅有5.24%的检索式中包含有布尔逻辑算符。国内的部分学者的研究结不雅也注解,约40%的用户不克不及精确应用字段检索或二次检索,80%阁下的用户不克不及精确应用高等检索功能,甚至还发明用户缺乏动力去进修复杂的检索技能,多半用户都寄欲望于引擎可以或许主动地为他们构造有效的检索式。因为缺乏以前联机检索中经常具备的检索人员,是以,用户实际的检索行动与用户幻想的检索行动存在事实上的差距,检索结不雅的不知足也是不奇怪的。恰是因为这个特点,引擎就必须设法将用户最想要的网页结不雅尽可能地放到网页结不雅的前面,这就是网页相干度排序算法在引擎中为什么异常重要的原因。


现阶段的相干度排序技巧重要有以下几种:一是基于传统信息检索技巧的方法,它重要应用关键词本身在文档中的重要程度来对文档与用户萌芽请求的相干度做出测量,如应用网页中关键词出现的频率和地位。一般而言,检索出的网页文档中含有的萌芽关键词个数越多,相干性越大年夜,并且此关键词典区分度越高;同时,萌芽关键词如不雅涌如今诸如标题字段等重要地位上,则比涌如今正文的相干度要大年夜。二是超链分析技巧,应用此技巧的代表性引擎有Google和Baidu等。和前者比拟,它以网页被承认的重要程度作为检索结不雅的相干度排序根据。大年夜设计思惟上看,它更重视第三方对该网页的承认,如具有较大年夜链入网页数的网页才是获得广泛承认的重要网页,而根据关键词地位和频率的传统办法只是一种网页自我承认的情势,缺乏客不雅性。最后还有一些其他方法,如由用户自由定义排序规矩的自定义方法。北京大年夜学的天网FTP引擎就采取这种排序方法,它可以让用户选择诸如时光、大年夜小、稳定性和距离等具体排序指标来对结不雅网页进行相干度排序。再如收费排名模式,它作为引擎的一种重要赚钱手段,在具有收集门户特点的大年夜型引擎中广为应用,但于担心影响结不雅的客不雅性,这种方法不是它们的主流排序方法,而仅仅作为一个弥补显示在付费栏目中。

精彩评论25

ez2r3   学习于  2016-7-2 04:34:55
这篇seo文章很不错
SEO优化   学习于  2016-7-2 03:56:51
楼主是优化界超人
网站SEO优化   学习于  2016-7-2 04:23:44
好帖就是要顶
SEO服务   学习于  2016-7-2 04:37:22
顶顶多好,多学点优化技巧
SEO优化   学习于  2016-7-2 04:29:29
不错不错这下会优化网站了
上海美女郑利   学习于  2021-3-3 10:10:16
丽江seo网站优化公司
人鱼线   学习于  2021-3-4 00:39:12
上海公司网站优化电话
美人如画   学习于  2021-3-5 10:25:14
鹤岗公司网站优化哪里好
申通   学习于  2021-3-5 18:46:46
武汉网站排名优化公司