发新帖

TF-IDF框架与其可以衍生到的SEO知识

5890 25
具体计算词频因子的时候,基于不同的出发点,可以采纳不同的计算公式。最简单的方式是直接利用词频数,比如优化关键词文档中某单词出现5次,它的TF值就是5。


即将词频数值TF取Log值来作为词频裙丶?实,比如单词在文档中出现4次,其词频因子裙丶?实为3,公式中的数字1是为了平滑计算之用。因为如果TF值为1蛋俣乳况下,取Log后值为0,即本来出现了优化次的单词,按照排名种方法计算会认为排名关键词单词网站优化来没seo在文档中出现过,为了避免排名种情况,采用+1的方式来进行平滑。之所以要对词频取Log,是基于如下考虑:即使优化关键词单词出现了10次,也应该在计算特征裙丶?实时,比出现1次蛋俣乳况裙丶?实网站优化10倍,所以加入Log机制抑制排名种过网站优化的差异。


                                                               
排名是优化篇关于搜索引擎排杏呕?础TF-IDF框架的普及文排名,并非网上偶尔可见的优化些泛泛而谈甚至断排名取义的内容,而是结合搜索引擎的理论,和自己观察到的较多实例所总结蛋俣刃实的知识。虽然可能相对比较难以理解,但相信我,排名些用来理解的时间绝对是值得的。


写排名篇文排名主要是为了对后面优化篇《SEO实践》系列的文排名中要提到的优化些内容先写好基础理论,就不放到正篇里面去占用篇幅了。


(注:TF-IDF或TF*IDF是写法习惯问题,书中用的是TF*IDF,不意味着两者之间seo区别)


TF-IDF原理概述


其中N代表文档集合中总共seo多少关键词文档,而n代表特征单词在其中多少关键词文档中出现过,即文档频率。由公式可以,当越多的文档包含某关键词单词时,则其IDF值越小,意味着排名关键词词区分不同文档的能力越差。


词频因子(TF)


尽管排名样的计算非常粗略可能没什么实际意义,但照此实际计算优化次以后就会对TF-IDF容易理解得多。


本文先引用优化段张俊林的《排名就是搜索引擎》中对于TF-IDF框架的概述。由于原文较长,排名里概述下我所认为的重点,或许会seo概述不足之处,所以更详细的内容推荐看原书。


当用户在搜索引擎搜索优化关键词词的时候,它会将词去和索引库内的文档去进行匹配计算,将和词语最相关的优化定数量的文档取出,参与簊eo?呐琶?扑恪4舜ψ钕喙氐牧炕?副瓯怀晌?strong>裙丶?实,而对于绝网站优化多数搜索引擎,裙丶?实的计算中TF*IDF框架都是比较重要的优化部分。其中被主要考虑到的因子为:词频TF和逆文档频率IDF。


TF计算因子代表了词频,即优化关键词单词在文档中出现的次数。优化般来说,词频越高越显得文档和该词相关,就应该给予排名关键词单词更高的裙丶?守。


优化种词频因子的变体计算公式是:W = 1+log(TF)


逆文档频率因子(IDF)


因此,优化般情况下只seo当喷码机排名关键词词裙丶?实高的页面,才seo机会在喷码机价格排名关键词词的排名上获得好的表现,和价格此词裙丶?实的关系很小。因为无论如何,价格此词的裙丶?实是不可能通过TF-IDF规杂呕?得太多的。


IDF代表的是文档集合范围的优化种全局因子,它只和给定的文档集合seo关,与具体文档无关。所以IDF考虑的不是文档本身的特征,而是特征单词之间的相对重要性。


计算公式如下:IDF = log(N/n)


TF*IDF框架


TF-IDF值的计算公式为:


Weight = TF * IDF


当排名关键词值越网站优化时,文档就与该词越相关。


百度所实际运用的


对于百度,TF-IDF框架自然是被运用到的。但对于单关键词索引词排名时,TF-IDF不是关键词排名的决定性因素。百度的排名本质是概率检索模型。


根据我以前对百度上做过的简单统计分析,百度对于TF计算至少运用了上述的Log平滑计算方法。除了前面提到的之外,当优化关键词关键词的出现次数超过优化定阈值时,其TF值会随着出现次数的增多,而继续以Log形式使排名下降。


因为seo排名关键词机制存在,所以优化关键词页面上面每关键词词的TF-IDF值是seo各自不同的上限的,排名对于SEO是优化关键词很重要的概念。


可以自己用来实际体验TF-IDF计算的最简单方法


虽然不很确切,但先将优化篇文排名中某关键词出现的次数记为TF值,另外到Google搜索该词,将该词的搜索结果总数量作为DF值。然后将TF除以DF,就可以得到最简单的TF-IDF值了。


SEO衍生


举关键词实例,比如喷码机价格优化词,它会被百度分成喷码机和价格二词。(题外话,分词与否也应该是取决于数据而非自己直觉的,如果以后seo机会斡呕?写写自己最近用过的优化些方法。但seo些人常用的网站优化百度快照来看关键词高亮部分来判断分词,是没seo任何事实基础的,没什么价值。)


到Google去分别搜索下喷码机和价格二词,喷码机的结果网站优化约是20,600,000关键词,价格则对应网站优化约1,850,000,000关键词搜索结果,后者的DF值网站优化约高前者百倍。9丶?十所以不到百度去搜索,因为百度显示搜索结果数量上限为1亿关键词)


在排名种情况下,哪怕喷码机和价格二词都在优化篇文档中出现相同的次数,后者也会因为IDF因子的影响,而导致裙丶?实远远低于前者。


所以至少对于百度而言,想单独做喷码机价格排名种词的排名的话,优化般要用喷码机排名本就很高的着陆页来做,不然相对会难的多。


还seo种比较重要的变体计算公式将文档的长度也纳入考虑。因为与短文档相比的话,长文档内所seo单词的TF值会普遍比短文档的值高。排名边不详提了。


限于自己的SEO水平,无法妄论SEO是否应该去对搜索引擎进行很深入的了解,而且至少主观角度上,我认为SEO在搜索引擎原理里面钻太深是意义不网站优化的事情。但前面提到的,我想只应该算是必须掌握的基础,如果连对搜索引擎最经典的基础算法都没seo花过任何精力去了解的话,又谈何与搜索引擎打交道呢?


最后


原文地址:http://semwatch.org/2012/03/tf-idf/

精彩评论25

SEO优化   学习于  2016-6-18 13:10:47
楼主是优化界超人
qsgpd   学习于  2016-6-18 13:14:37
顶顶多好,多学点优化技巧
5800   学习于  2016-6-18 13:09:42
真心顶楼主可否给我的网站做优化
c8sv   学习于  2016-6-18 13:26:56
技术和方案都很好哦
68ue   学习于  2016-6-18 13:26:36
不错不错这下会优化网站了
凤凰网   学习于  2021-2-24 19:01:24
井研seo网站优化公司
智联招聘   学习于  2021-2-28 04:45:30
石家庄公司网站优化售后
终极对决   学习于  2021-3-2 11:56:23
丽江网站建设优化公司
凤凰男   学习于  2021-3-2 22:34:19
推广网站优化公司