发新帖

搜索引擎对关键字堆砌的识别

7710 25
引擎和引擎优化(引擎优化)一向是一对抵触,合理的优化有助于引擎对网站内容的辨认,有助于网站的推广。然而有正面,就有不和,一些引擎优化ers经由过程各类欺骗手段来欺骗搜苏引擎,以期达到增长页面收录数和页面排名的目标。


早期的关键字堆砌SPAM作弊方法之一,是将中文词库中的单闯?居用软件拼凑成文┞仿,如许的文┞仿没有实际的意义,只能给引擎看。那么对于如许的文┞仿,引擎是经由过程什么方法来识其余呢?


我们知道,每个引擎都有网页质量监控部分,对于百度等掺杂人工处理的引擎而言,用户发明如许的网站,投诉到百度,百度直接封了这个网站了事。但对于Google如许的封站也是主动处理的引擎而言,对关键字堆砌作弊的辨认就显得更为重要了。


所谓魔高一尺、道高一丈,有些作弊者已经放弃了单词典构成文┞仿的作弊方法,而改用句子构成文┞仿的作弊方法,作弊者经由过程爬虫或其它方法获得网上文┞仿的句子,并用软件将数十篇文┞仿的某几句拼凑成一篇文┞仿。这就须要引擎做语义的分析来断定是否作弊了,然而今朝关于语义分析的研究还处于研究阶段,这也是下一代智能引擎的偏向。


对于关键字堆砌作弊方法的辨认,引擎一般采取统计分析的办法进行。


                                                               
引擎起首将网页进行分词,分词完成后可以获得词典数量N和文┞仿长度L,大年夜大年夜量文┞仿的统计中发明文┞仿的长度L和词典数量N两个数字之存放在必定的分布关系,一般而言L/N界于4至8之间,均值大年夜约在5-6之间。也就是说一篇长度为1000字节的文┞仿中,应当有125-250个分词,因为中文和英文的词典构成不一致,是以在英文和中文中这个比值典范围会有所不合。如不雅引擎发明L/N特别大年夜,那么这篇文┞仿就存在就存在关键字堆砌现象了,如不雅L/N特别小,则可能是这篇文┞仿是由一些词所构成的没有意义的文┞仿,笔者对泥胚文┞仿中的不合作者揭橥的文┞仿进行了验证,根本上都服大年夜这个比值范围。


进一步,经由过程大年夜量正常文┞仿统计发明,文┞仿中密度最高的几个关键字出现的次数之和与N/L存在必定的分布关系,引擎就可以经由过程网页中的分布与统计结不雅的分布图进行比较得出文┞仿是否存在关键字堆砌的现象。


此外,引擎还将大年夜停止字的比例来剖断文┞仿是否为天然文┞仿。停止字就是如“的”“我”“是”等在文┞仿中广泛应用的字或词,如不雅文┞仿中停止字的比例在正常的比例范围之外,这个网页应提交到网页质量监控部分审核。


当然,还有更多的算法可以对网页与天然说话的文┞仿进行比较分析,以判别文┞仿是否为天然文┞仿。


然而我们仍然不克不及将主动文┞仿生成一棍子打逝世,基于人工智能的文┞仿生成仍然是仁攀类研究自身说话以及自身智能的一个重要偏向。作弊与反作弊,将能促使仁攀类对人工智能的研究。


如不雅到最后,软件能生成仁攀类可以或许懂得的文┞仿,这是SPAM照样精华?你能肯定地说今朝存在的智能化程度还不敷高的RSS聚合文┞仿必定是SPAM吗?然而,如不雅如许的文┞仿海量的出现,我们又该若何去面对这个现象?


参考文献:《引擎道理、实践和应用》卢亮、张博文,2007

精彩评论25

iem6h   学习于  2016-7-10 08:25:28
这篇seo文章很不错
c8sv   学习于  2016-7-10 07:54:38
好帖就是要顶
SEO优化   学习于  2016-7-10 07:54:25
技术和方案都很好哦
SEO外包   学习于  2016-7-10 08:42:54
不错不错这下会优化网站了
ez2r3   学习于  2016-7-10 08:19:40
LZ真是SEO的人才
火影忍者   学习于  2021-2-21 16:45:02
马山网站排名优化公司
幸福爱人   学习于  2021-2-21 20:51:10
南阳网站优化推广公司
腐女   学习于  2021-2-24 12:40:50
营口公司网站优化哪里有
小清新   学习于  2021-2-24 18:08:06
呈贡县seo网站优化公司