发新帖

网页抓取优先策略

2319 5
网页抓取优先策略也称为“页面选择问题”(page Selection),平日是尽可能地起首抓取重要性的网页,如许包管在有限的资本内尽可能地照顾到那些重要性高的网页。那么哪些网页才是重要性高的呢?若何量化重要性呢?


平均链接深度同宽度优先的遍历规矩包管,是以不作为重要性评价的指标。在抓取才能有限的情况下,如不雅可以或许把重要性高的网页尽可能地抓完,是合理科学的,最终被用户萌芽到的网页也往往是那些重要性高的网页。


重要性度量由链接迎接度、链接重要度和平均链接深度这个方面决定。


定义链接迎接度为IB(P),它重要由反向链接(Backinks)的数量和质量决定。起首考察数量,直不雅地讲,一个网页有越多的链接指向它(反向链接数多),那么表示其他网页对其的承认。同时这个网页被网平易近拜访的机会就大年夜,推想出其重要性也就越高;其次考察质量,如不雅被越多的重要性高的网指向,那么其重要性也就越高。如不雅不推敲质量,就会出现局部最优,而不是全局最优的问题。最典范的就是作弊网页,工资地在一些网页中设置了大年夜量反策链接指向其自身的网页,以进步该网页的重要性。如不雅不推敲链接质量,就会被这些作弊者所应用。


定义链接重要度为IL(P),它是一个关于URL字符串的函数,仅仅考察字符串本身。链接重要度重要经由过程一些模式,比如认为包含“.COM”或者“HOME”的URL重要度高,以及具有较少斜杠(Slash)的URL重要度高等。


定义平均链接深度为ID(P),此为笔者所创。ID(P)表示在一个种子站点集合中,每个种子站点如不雅存在一条链路(宽度优先遍历规矩)达到该网页,那么平均链接深度就是这个网页的又一个重要性指标。因为距离种子站点越近,解释被拜访的机会越多,离种子站点越远,重要性越低。事实上,按照宽度优先的遍历规矩即可知足这种重要性高的网页被优先抓取的须要。


最后,定义网页重要性的度量为I(P),它由以上两个量化值线性决定,即:


I(P)=a*IB(P)+β*IL(P)


                                                               
尽管如许看来已经足够完美,事实上,照样忽视了一个重要的要素--时光。时光导致万维网动态变更的一面。若何抓取那些新增的网页呢?若何重访那些被修改了的网页呢?若何发明那些被删除了的网页呢?为了保持和万维网网页的同步变更,就必须有网页重访策略。经由过程该策略可以辨认增长、修改及删除网页这3种网页变更的情况。

精彩评论5

网站SEO优化   学习于  2016-7-8 14:28:11
这篇seo文章很不错
b3j   学习于  2016-7-8 14:38:07
好帖就是要顶
SEO优化   学习于  2016-7-8 15:04:15
顶顶多好,多学点优化技巧
SEO优化   学习于  2016-7-8 15:12:22
难得一见的好帖教会我如何优化网站
iem6h   学习于  2016-7-8 14:58:49
技术和方案都很好哦