我是靠谱客的博主 忧心钻石,这篇文章主要介绍“盗”亦有道,关于robots协议robots.txt,现在分享给大家,希望可以做个参考。

robots.txt

robots协议(全名为“网络爬虫排除标准”)(Robots Exclusion Protocol)网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

对于robots协议如何遵守,当前较为普遍的观点是:

对于小程序这样爬取量少的小型爬虫,可以无视robots协议。(我们编程爱好者知道这一点就足够了)

一般对于像搜索引擎这样,对全网进行爬取的大型爬虫,如果无视robots协议是有法律风险的。

robots协议一般位于网站的根目录之下,我们要查看某个网站的robots协议,可以在该网站的根目录的url后面加"/robots.txt"。

例如:(以下是几个知名网站的robots协议地址)

http://www.baidu.com/robots.txt

http://www.qq.com/robots.txt

http://www.sina.com/robots.txt

如果网站没有robots协议,就说明其默许任何爬虫对其网站信息进行爬取(这样也有好处,可以便于所有搜索引擎将你的网站上的信息提供给每一个人)

如何理解robots协议的内容?

我们访问一个含有robots协议的网页,

User-agent: 后面是所限制的爬虫的名称,如果是一个"*"号,则表示针对所有爬虫

而后面的Disallow则是限制的内容,"/"表示根目录

我们访问链家网的robots协议(如下):

 

复制代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
User-agent: Baiduspider Allow:/ User-agent: Googlebot Allow:/ User-agent: 360Spider Allow:/ User-agent: haosouspider Allow:/ User-agent: bingbot Allow:/ User-agent: msnbot Allow:/ User-agent: msnbot-media Allow:/ User-agent: Sosospider Allow:/ User-agent: Sogou News Spider Allow:/ User-agent: Yahoo! Slurp China Allow:/ User-agent: Yahoo! Allow:/ User-agent: YoudaoBot Allow:/ User-agent: YodaoBot Allow:/ User-agent: Sogou News Spider Allow:/ User-agent: bingbot Allow:/ User-agent: YisouSpider Allow:/ User-agent: ia_archiver Allow:/ User-agent: EasouSpider Allow:/ User-agent: JikeSpider Allow:/ User-agent: EtaoSpider Allow:/ User-agent:* Disallow:/

什么意思呢?意思就是以上列举的爬虫是“友好爬虫”,链家网对这些爬虫允许其爬取所有资源,而对于非友好爬虫,则禁止其爬取任何资源(但是小程序除外,可以无视robots协议,只要不把数据用作商业用途即可)

 

转载于:https://www.cnblogs.com/Shiko/p/10827585.html

最后

以上就是忧心钻石最近收集整理的关于“盗”亦有道,关于robots协议robots.txt的全部内容,更多相关“盗”亦有道,关于robots协议robots内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(70)

评论列表共有 0 条评论

立即
投稿
返回
顶部