前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >爬虫的盗亦有道Robots协议

爬虫的盗亦有道Robots协议

作者头像
小小咸鱼YwY
发布2019-07-24 16:44:35
发布2019-07-24 16:44:35
41400
代码可运行
举报
文章被收录于专栏:python-爬虫python-爬虫
运行总次数:0
代码可运行

爬虫的规定

Robots协议

网站开发者对于网络爬虫的规范的公告,你可以不遵守可能存在法律风险,但尽量去遵守

Robots协议:在网页的根目录+robots.txt

Robots协议的基本语法:

代码语言:javascript
代码运行次数:0
复制
#注释,*代表所有,/代表根目录
User-agent:* #user-agent代表来源
Allow:/ #代表运行爬取的内容
Disallow:/ #代表不可爬取的目录,如果是/后面没有写内容,便是其对应的访问者不可爬取所有内容

并不是所有网站都有Robots协议

如果一个网站不提供Robots协议,是说明这个网站对应所有爬虫没有限制

类人行为可以不参考robots协议,比如我们写的小程序访问量很少,内容也少但是内容不能用于商业用途

总的来说请准守Robots协议

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019-07-01 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 爬虫的规定
    • Robots协议
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档