robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
为什么要做robots
- 搜索引擎蜘蛛抓取时,抓取的第一个文件
- 保护网站隐私信息,防止信息泄露 网站后台,用户信息等等
- 屏蔽垃圾页面和重复页面(低质量页面;做了伪静态,屏蔽动态链接;屏蔽死链)
- 注意:robots 要认真对待,用robots屏蔽全站,是可以不让蜘蛛抓取网站内容,但在开放抓取后,网站收录会有段时间收录慢。
robots语法规则
搜索引擎蜘蛛
- Baiduspider 百度蜘蛛
- Googlebot 谷歌机器人
- Sosospider 搜搜蜘蛛
- 360 spider 360蜘蛛
robots语法规则
- Disallow: 禁止抓取(屏蔽抓取,不允许抓取)
- Allow: 允许抓取(允许抓取,遵从最详细的规则(屏蔽目录文件,但是允许抓取其中的图片))
- *:通配符(匹配0或者多个任意字符)
- $:终止符(以***结尾,例如: Disallow: /*.js$)
- 注意:英文状态下的符号;冒号后要有空格;首个字母要大写;/ 网站根目录(网站所有)
常见写法
- 屏蔽整站不让某个蜘蛛抓取(User-agent: Baiduspider Disallow: /)
- 不允许所有蜘蛛抓取(User-agent: * Disallow: /)
- 不让蜘蛛抓取某个文件里的内容(User-agent: Baiduspider Disallow: /baidu 禁止访问 /baidu.html /baiduleyu.html baidu/index.html;User-agent: Baiduspider Disallow: /baidu/ 禁止访问 /baidu/里的所有文件夹)
- 不让蜘蛛抓取某个文件夹下的某个内容,或者不让蜘蛛抓取某个文件夹,但又抓取里面某个文件(User-agent: * Disallow: /baidu/leyu.js;User-agent: * Disallow: /baidu/ Allow: /baidu/leyu.js)
- 屏蔽js css(一般以js结尾)(User-agent: * Disallow: /*.js$ ;User-agent: * Disallow: /*.css$ )
- 动态路径(规律?)(User-agent: * Disallow: /*?* )
- 模板目录(User-agent: * Disallow: /templets/ )
- 插件目录(User-agent: * Disallow: /plus/ )
提交与检测 robots
- 写好后上传网站根目录
- 百度搜索资源平台https://ziyuan.baidu.com/robots
- 站长工具https://tools.aizhan.com/robots/
相关推荐阅读 https://ziyuan.baidu.com/college/courseinfo?id=267&page=12#h2_article_title30
本站技术原创文章,是由作者:常春 创作,如若转载请注明原文及出处:http://www.aiyouseo.com/seo/799.html