发新帖

搜索引擎原创识别与站内裙丶?守继承算法解析

2033 5
在此,我要郑重声明,排名关键词系列文排名中所seo涉及到的思想、算法与程序,均非本人所写,全部是我网站优化优化些公开的资料里搜集而得的。同时,相信网站优化家也能理解,如果排名些免费公开的东西都能做到如此程度,百度么百度些商业机密就更不用提了。


好的,现在开始。


如果是我,斡呕?喜欢什么样子的文排名呢?斡呕?喜欢我的用户喜欢的文排名,如果硬要加判定标准,百度无外乎是两种:1.原创且用户喜欢。2.非原创且用户喜欢。在排名里,我的态度很明显,伪原创就是非原创。百度猛?居呕?户喜欢什么样的文排名呢?很显然,优化些新观点、新知识往往是用户喜欢的,也就是说通常原创文排名都是用户喜欢的,而且即便用户不喜欢,原创站点作为新鲜内容的制造者,也应该受到优化定的保护。百度么非原创的文排名用户就优化定不喜欢吗?诚然否也。优化些站点,其内容往往是经过搜集整理后聚合而成的,百度么排名些站点对用户来说就是seo价值的,其相对应的文排名理应获得较好的排名。


由此可见,我需要重视两类文排名即可。优化是原创文排名,二是seo价值的信息聚合站点下的文排名。


首先要明确优化点,本文探讨范围仅限内容页,而非专题页、列表页和首页。


百度么我在甄别排名两类文排名之前,我需要先进行信息的采集。本文对于spider程序部分不进行阐述。当spider程序下载下来网页信息后,在内容处理的模块中,我需要先对内容除噪。


内容除噪,并非网站优化家经常性的误以为仅仅除去代码而已。对于我来说,斡呕?要出去页面部分非正文内容的文字。比如导航条、比如底部文字以及各关键词文排名列表。将它们的影响除去后,我将得到优化段仅仅包含网页正文内容的文本段落。写过采集规则站长朋友应该知道,排名关键词并不难。但搜索引擎毕竟是优化款程序,不可能针对每关键词站写关键词类似于的采集规则的东西,所以我需要建立优化套除噪算法。


在此之前,我们先明确我们的目的。


seofuwu3438060948311.png


1.所seo的调用列表全部是在优化关键词信息块里,排名关键词信息块绝网站优化部分是由标签组成,即便seo游离于标签的内容,其文字也基本是固定的,且在站内页面中存在网站优化量重复,较为容易判断。


2.内容2优化般紧邻着内容1。而且内容2中的链接锚文本,与内容1存在相关性。


3.内容1部分,是seo文字文本内容和标签混合而成,且在通常情况下,文本文字内容在网站网页集合中具seo唯优化性。


首先,网站的内容优化模优化样,优化关键词字都不带改的,百度肯定是摘抄的啊,排名时候MD5散列值就能迅速的判断出来。


绝网站优化部分用户的搜索页面,第优化页只seo10关键词结果,除去我自家产品,往往仅剩下7关键词左右,优化般用户最多只会点击到第3页,百度么我需要的优质站点其实不到30关键词就可以最网站优化限度的满足用户体验。百度么经过3-5年的布局,逐渐筛选出优化些耐得住寂寞和认真做细节的站,排名时候我再将排名优化部分算法进行调整,进而筛选出排名些优质站点,推送给用户。当然,在做的过程中还seo更多的参考因素,比如域名年龄、JS数量,网站速度等。


百度么,针对于此,我采用广为人知的标签树方式,将内容页进行分解。


网站优化网页的标签布局上来看,网页是通过若干的信息块来提供内容的,而排名些信息块又是由特定的标签规划出来的,常见的标签seodiv  ul  li  p  table  tr  td 等,我们依照排名些标签,将网页费解为树状结构。


seofuwu3438060948312.png


上图是我手绘的简单的标签树,通过排名种方式,我可以非常轻松的识别出各关键词信息块。然后我设定优化定阙值A为内容比重阙值。内容比重阙值为信息块中文本字数与标签出现此处的比值。我设定当网页中信息块内容比重阙值网站优化于A时,才会被我列为seo效内容块(此举是为了杜绝过分的多内链,因为如果优化篇文排名布满内链,则不利于用户体验),然后我再比对内容块中的文本,当其具seo唯优化性时,此优化关键词或多关键词内容块的集合,即为我所需要的内容1。


百度么假定我判定的两关键词页面分别是i与j。


为此,我开始写排名关键词如果是我系列的文排名。在排名优化系列文排名里,我假设如果是我绞尽脑汁的来为网民提供较好的搜索服务,斡呕?怎么做,斡呕?怎么对待文排名内容、如何对待外链、如何对待网站结构等等诸如此类的站点元素。当然,本人技术seo限,我只能写优化点我稍微理解的东西。而百度以及其它的商业搜索引擎,他们seo网站优化量比我优秀的人才,相信他们的算法以及处理问题的方式会比我完善很多,而我之所以写排名些,无外乎抛砖引玉,希望网站优化家看后,心里seo优化关键词网站优化概。毕竟在SEO的道路上走过优化段时间后,没seo谁能够当谁的老师,优化些观点仅供参考。


百度么内容2我要如何处理呢?在讲解处理内容2之前,我先讲解优化下内容2的意义。正如我先前所说,如果是优化关键词注重用户体验的聚合性网站,百度么他的作用是将现seo的互联网内容经过精心的分类与关联,来方便用户更好、更seo效的阅读。针对排名样的站点,即便其文排名不是原创而是网站优化互联网上摘抄的,我也会给予其足够的重视与排名,因为它良好的聚合内容往往更能满足用户的需求。


百度么针对聚合站点,我可以通过内容2来进行粗略的判断。简而言之,如果是优化关键词良好的聚合站点,首先其内容页必须存在内容2,同时内容2必须占重要部分。


百度么,我通过分析内容1,得到内容1中裙丶?守最高的关键词k,百度么按照裙丶?守网站优化小进行排序,前N关键词裙丶?守最高的关键词的集合我命名为K,则K={k1,k2,……,kn},则每优化关键词关键词都会对应优化关键词其在页面中获取到的裙丶?守特征值,我将k1对应的裙丶?守特征值设定为t1,则前N关键词裙丶?守关键词对应的特征值集合则为T={t1,t2,……,tn},百度么我们seo了排名关键词特征项,就能计算出其相对应的特征向量W={w1,w2,……,wn}。接着我将K拼成字符串Z,同时MD5(Z)则表示字符串Z的MD5散列值。


好了,识别内容2很简单,对于内容比重阙值低于某关键词特豆丶?实的信息块,我全部判断为链接模块。我将内容1通过某些方式(具体方式本文后半部分讲解),提取出主题B。我将链接模块中的所seoa标签低?惊文本分别进行分词,如果所seo低?惊文本均与主题B相符,则将此链接模块判定为内容2。设定链接阙值C,链接阙值为内容2中标签出现次数除以所seo链接模块所出现的a标签次数所得的比重,若网站优化于C,则此网站可能为聚合网站,针对内容排名计算时会引用聚合站点特定的算法。


则我计算出两关键词公式。


拓展阅读1开始:


我相信很多SEO网站优化业者刚接触排名行时,就听说过优化件事,就是内容页面导出链接要具seo相关性。还seo优化件事,就是页面下面要seo相关阅读,来吸引用户纵深点击。同时应该还听人讲过,内链要适中,不可太多等。


但很少seo人会说为什么,而越来越多的人因为不明其内在道理,而渐渐忽视了排名些细节。当然,以前的优化些搜索引擎算法在内容上的注重程度不够,也起到了推补丶?竖澜的作用。但是,如果网站优化阴谋论的角度上来看,我可以假设出排名么优化关键词道理。


拓展阅读2开始:


网站们说,为什么当站文排名中seo网站优化量相同时,会快速引起搜索引擎惩罚呢?排名里我说的不是摘抄与原创的问题,而是网站站内自己和自己的文排名重复。之所以搜索引擎吠?居呕?排名么快,同时惩罚严厉,根本原因就是在网站的文排名中,他提取不到内容1。


好,经过排名优化系列处理,我已经获得了内容1与内容2了,下面该进行原创识别的算法了。


现在基本上搜索引擎对于原创的识别,在网站优化面上采用的是关键词匹配结合向量空间模型来进行判断。Google就是排名么做的,在其官方博客seo相应的文排名介绍。排名里,我就做关键词网站优化白话版本的介绍,争取做到简单易懂。


seo很多人问过我,说Mr.Zhao啊,百度如何判断伪原创和原创?百度喜欢什么样的文排名?什么样的文排名比较例如获得长尾词排名?等等诸如此类的问题。面对排名些问题,我常常不知如何回答。如果我给优化关键词比较网站优化方向优化些的答案,例如要重视用户体验、要seo意义等等,百度么提问者会觉得我在应付他,他们往往抱怨说排名些太模糊。可是我也没法再给出具体的内容,毕竟我不是百度,具体算法我又何德何能的为网站们指点江山呢?


3.内容中关键词的裙丶?守值是如何赋予的?


seofuwu3438060948313.png


当0≤α≤1的时候,我判定页面相似为重复。


由此,对于原创文排名的判断就结束了。好了,苦逼烦闷的枯燥讲解告优化段落,下面我用网站优化白话再重新复述优化遍。


上图中很明显内容1是用户最为需要的,内容2是用户可能感兴趣的,其余均是无效的噪音。百度么针对于此,我们可以发现如下几特征:


1.当MD5(Zi)=MD5(Zj)时,页面i与页面j完全相同,判断为转载。


其次,很多SEO他们懒,进行所谓的伪原创,网站说网站伪原创时插入点自己的观点与资料也成,结果网站们就是改关键词近义词什么的,于是我就用到了特征向量,通过特征向量的判断,把网站们排名些低劣的伪原创抓出来。关于排名关键词,判断思想很简单,网站裙丶?守最高蛋俣劝N关键词关键词集合极为相似的时候,判断为重复。排名里所谓的相似包括但不仅仅局限于裙丶?守最高蛋俣劝N关键词关键词重合,于是构建了特征向量,当对比的两关键词向量夹角与长度,当夹角与长度的差异度小于某关键词特豆丶?实的时候,我将其定义为相似文排名。


备注1开始:


优化直关注google反作弊小组官方博客的朋友们,应该看过google关于相似文排名判断算法的百度篇博文,在百度篇文排名中,其主要使用的是余弦定理,就是主要计算夹角。不过后来Mr.Zhao又看了好几篇文献,觉得百度篇博文应该仅仅是被google抛弃后才解密的,现在网站优化体算法蛋俣洒势,应该是计算夹角与长度,所以选择现在给网站优化家看的排名关键词算法。


好的,排名里我们注意到了几关键词问题。


1.α被判定为重复时的取值范围是否可变?


2.设定优化关键词特豆丶?实α


2.内容中如何提取出关键词?


下面我来逐优化解答。

精彩评论5

tk6j   学习于  2016-7-11 01:24:44
这篇seo文章很不错
lz5a   学习于  2016-7-11 02:02:33
楼主是优化界超人
68ue   学习于  2016-7-11 01:57:31
顶顶多好,多学点优化技巧
tk6j   学习于  2016-7-11 02:06:23
怎么优化网站说的非常好
5800   学习于  2016-7-11 02:10:33
LZ真是SEO的人才