请选择 进入手机版|继续访问电脑版
发新帖

搜索引擎统一Robots文件标准

7115 25
三家都支撑的robots文件记录包含:


User-agent: *


Disallow: /


User-agent: *


Disallow: /ab/


Allow: /ab


$通配符 - 匹配URL结尾的字符。如下面代码将许可蜘蛛拜访以.htm为后缀的URL:


Robots-nocontent - 告诉蜘蛛被标注的部分html不是网页内容的一部分,或者换个角度,告诉蜘蛛哪些部分是页面的重要内容(想被检索的内容)。


User-agent: *


Allow: .htm$


*通配符 - 告诉蜘蛛匹配随便率性一段字符。如下面一段代码将禁止蜘蛛抓取所有htm文件:


User-agent: *


Disallow: /*.htm


Sitemaps地位 - 告诉蜘蛛你的网站地图在哪里,格局为:Sitemap: <sitemap_location>


三家都支撑的Meta标签包含:


NOINDEX - 告诉蜘蛛不要索引某个网页。


引擎三巨擘打的不亦乐乎,但有时也合作一下。客岁Google,雅虎,微软就合作,合营遵守同一的Sitemaps标准。前两天三巨擘又同时宣布,合营遵守的robots.txt文件标准。Google,雅虎,微软各安闲本身的官方博客上发了一篇帖子,颁布三家都支撑的robots.txt文件及Meta标签的标准,以及一些各自特有的标准。下面做一个总结。


Allow - 告诉蜘蛛应当抓取某些文件。Allow和Disallow合营应用,可以告诉蜘蛛某个目次下,大年夜部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目次下其他文件,而只抓取个中cd下的文件:


NOFOLLOW - 告诉蜘蛛不要跟踪网页上的链接。


NOSNIPPET - 告诉蜘蛛不要在结不雅中显示解释文字。


NOARCHIVE - 告诉蜘蛛不要显示快照。


NOODP - 告诉蜘蛛不要应用开放目次中的标题和解释。


膳绫擎这些记录或标签,如今三家都合营支撑。个中通配符似乎以前雅虎微软并不支撑。百度如今也支撑Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支撑的官方解释。


只有Google支撑的Meta标签有:


UNAVAILABLE_AFTER - 告诉蜘蛛网页什么时刻过时。在这个日期之后,不该该再涌如今结不雅中。


NOIMAGEINDEX - 告诉蜘蛛不要索引页面上的图片。


NOTRANSLATE - 告诉蜘蛛不要翻译页面内容。


雅虎还支撑Meta标签:


Crawl-Delay - 许可蜘蛛延时抓取的频率。


NOYDIR - 和NOODP标签类似,然则指雅虎目次,而不是开放目次。


MSN还支撑Meta标签:Crawl-Delay


Disallow - 告诉蜘蛛不要抓取某些文件或目次。如下面代码将阻拦蜘蛛抓取所有的网站文件:


别的提示大年夜家留意的是,robots.txt文件可以不存在,返回404缺点,意味着许可蜘蛛抓取所有内容。但抓取robots.txt文件时却产生超时之类的缺点,可能导致引擎不收录网站,因为蜘蛛不知道robots.txt文件是否存在或者琅绫擎有什么内容,这与确认文件不存在是不一样的。

精彩评论25

网站SEO优化   学习于  2016-6-16 02:30:17
楼主是优化界超人
SEO服务   学习于  2016-6-16 01:41:12
顶顶多好,多学点优化技巧
SEO优化   学习于  2016-6-16 02:00:54
真心顶楼主可否给我的网站做优化
SEO外包   学习于  2016-6-16 02:36:23
难得一见的好帖教会我如何优化网站
SEO服务   学习于  2016-6-16 02:27:48
不错不错这下会优化网站了
微信网页版   学习于  2021-2-24 14:25:57
互助路立交网站优化公司
人肉搜索   学习于  2021-2-25 20:08:35
河南网站seo优化公司诚信合作
正太   学习于  2021-2-27 20:53:25
邢台网站长尾优化公司老飞
完美世界   学习于  2021-3-16 02:18:48
罗湖国贸网站优化公司