“盗”亦有道，关于robots协议robots.txt

245 阅读 0 评论 162 点赞

我是靠谱客的博主忧心钻石，这篇文章主要介绍“盗”亦有道，关于robots协议robots.txt，现在分享给大家，希望可以做个参考。

robots.txt

robots协议（全名为“网络爬虫排除标准”）（Robots Exclusion Protocol）网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

对于robots协议如何遵守，当前较为普遍的观点是：

对于小程序这样爬取量少的小型爬虫，可以无视robots协议。（我们编程爱好者知道这一点就足够了）

一般对于像搜索引擎这样，对全网进行爬取的大型爬虫，如果无视robots协议是有法律风险的。

robots协议一般位于网站的根目录之下，我们要查看某个网站的robots协议，可以在该网站的根目录的url后面加"/robots.txt"。

例如：（以下是几个知名网站的robots协议地址）

http://www.baidu.com/robots.txt

http://www.qq.com/robots.txt

http://www.sina.com/robots.txt

如果网站没有robots协议，就说明其默许任何爬虫对其网站信息进行爬取（这样也有好处，可以便于所有搜索引擎将你的网站上的信息提供给每一个人）

如何理解robots协议的内容？

我们访问一个含有robots协议的网页，

User-agent: 后面是所限制的爬虫的名称，如果是一个"*"号，则表示针对所有爬虫

而后面的Disallow则是限制的内容，"/"表示根目录

我们访问链家网的robots协议（如下）：

User-agent:	Baiduspider
Allow:/

User-agent:	Googlebot
Allow:/

User-agent:	360Spider
Allow:/

User-agent:	haosouspider
Allow:/

User-agent:	bingbot
Allow:/

User-agent:	msnbot
Allow:/

User-agent:	msnbot-media
Allow:/

User-agent:	Sosospider
Allow:/

User-agent:	Sogou News Spider
Allow:/

User-agent:	Yahoo! Slurp China
Allow:/

User-agent:	Yahoo!
Allow:/

User-agent:	YoudaoBot
Allow:/

User-agent:	YodaoBot
Allow:/

User-agent:	Sogou News Spider
Allow:/

User-agent:	bingbot
Allow:/

User-agent:	YisouSpider
Allow:/

User-agent:	ia_archiver
Allow:/

User-agent:	EasouSpider
Allow:/

User-agent:	JikeSpider
Allow:/

User-agent:	EtaoSpider
Allow:/

User-agent:*
Disallow:/

什么意思呢？意思就是以上列举的爬虫是“友好爬虫”，链家网对这些爬虫允许其爬取所有资源，而对于非友好爬虫，则禁止其爬取任何资源（但是小程序除外，可以无视robots协议，只要不把数据用作商业用途即可）

转载于:https://www.cnblogs.com/Shiko/p/10827585.html