Robots爬虫协议规则及校验

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

为什么要做robots

  1. 搜索引擎蜘蛛抓取时,抓取的第一个文件
  2. 保护网站隐私信息,防止信息泄露 网站后台,用户信息等等
  3. 屏蔽垃圾页面和重复页面(低质量页面;做了伪静态,屏蔽动态链接;屏蔽死链)
  4. 注意:robots 要认真对待,用robots屏蔽全站,是可以不让蜘蛛抓取网站内容,但在开放抓取后,网站收录会有段时间收录慢。

Robots爬虫协议规则及校验

robots语法规则

搜索引擎蜘蛛

  • Baiduspider 百度蜘蛛
  • Googlebot 谷歌机器人
  • Sosospider 搜搜蜘蛛
  • 360 spider 360蜘蛛

robots语法规则

  • Disallow: 禁止抓取(屏蔽抓取,不允许抓取)
  • Allow: 允许抓取(允许抓取,遵从最详细的规则(屏蔽目录文件,但是允许抓取其中的图片))
  • *:通配符(匹配0或者多个任意字符)
  • $:终止符(以***结尾,例如: Disallow: /*.js$)
  • 注意:英文状态下的符号;冒号后要有空格;首个字母要大写;/ 网站根目录(网站所有)

常见写法

  • 屏蔽整站不让某个蜘蛛抓取(User-agent: Baiduspider Disallow: /)
  • 不允许所有蜘蛛抓取(User-agent: * Disallow: /)
  • 不让蜘蛛抓取某个文件里的内容(User-agent: Baiduspider Disallow: /baidu 禁止访问 /baidu.html /baiduleyu.html baidu/index.html;User-agent: Baiduspider Disallow: /baidu/ 禁止访问 /baidu/里的所有文件夹)
  • 不让蜘蛛抓取某个文件夹下的某个内容,或者不让蜘蛛抓取某个文件夹,但又抓取里面某个文件(User-agent: * Disallow: /baidu/leyu.js;User-agent: * Disallow: /baidu/  Allow: /baidu/leyu.js)
  • 屏蔽js css(一般以js结尾)(User-agent: * Disallow: /*.js$ ;User-agent: * Disallow: /*.css$ )
  • 动态路径(规律?)(User-agent: * Disallow: /*?* )
  • 模板目录(User-agent: * Disallow: /templets/ )
  • 插件目录(User-agent: * Disallow: /plus/ )

提交与检测 robots

  • 写好后上传网站根目录
  • 百度搜索资源平台https://ziyuan.baidu.com/robots
  • 站长工具https://tools.aizhan.com/robots/

相关推荐阅读 https://ziyuan.baidu.com/college/courseinfo?id=267&page=12#h2_article_title30

 

本站技术原创文章,是由作者:常春 创作,如若转载请注明原文及出处:https://www.aiyouseo.com/seo/799.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注