首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python爬虫之robots协议案例

Python爬虫之robots协议案例

作者头像
desperate633
发布于 2018-08-22 07:46:03
发布于 2018-08-22 07:46:03
7190
举报
文章被收录于专栏:desperate633desperate633

网络爬虫有时候也会引发很多的问题

  • 由于编写的爬虫的性能和其他原因,可能会对Web服务器带来巨大的资源开销
  • 服务器上的数据有产权归属网络爬虫获取数据后牟利将带来法律风险
  • 网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个人隐私

所以,一般部分网站会给出限制网路爬虫的协议,这就是robots协议。

  • 来源审查:判断User‐Agent进行限制 检查来访HTTP协议头的User‐Agent域,只响应浏览器或友好爬虫的访问
  • 发布公告:Robots协议 告知所有爬虫网站的爬取策略,要求爬虫遵守

robots协议的全名为Robots Exclusion Standard,网络爬虫排除标准 作用: 网站告知网络爬虫哪些页面可以抓取,哪些不行 形式: 在网站根目录下的robots.txt文件

案例

image.png

image.png

意思就是 对于所有的user-agent: 不可以访问一下url Disallow: /?* Disallow: /pop/.html Disallow: /pinpai/.html?* 对于其他几个user-agent是禁止爬虫的,我们看一下就是一淘这些淘宝的搜索引擎,也难怪京东和淘宝哈哈哈

实际中如何遵守robots协议

  • 网络爬虫: 自动或人工识别robots.txt,再进行内容爬取
  • 约束性: Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险

image.png

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017.05.17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
反爬虫我从 Robots.txt 配置开始
基本上,所有公开你能访问到的网站都有 Robots.txt。可能只是你没有注意到而已,比如淘宝的:https://www.taobao.com/robots.txt、百度网盘的:https://pan.baidu.com/robots.txt。
业余草
2019/06/20
3.2K0
Robots.txt – 禁止爬虫
robots.txt用于禁止网络爬虫访问网站指定目录。robots.txt的格式采用面向行的语法:空行、注释行(以#打头)、规则行。规则行的格式为:Field: value。常见的规则行:User-Agent、Disallow、Allow行。
全栈程序员站长
2022/07/07
2.2K0
编写爬虫竟然成了“面向监狱编程”,就是因为不懂Robots协议(爬虫协议)
编写Python爬虫很容易,不过要想安全地编写Python爬虫,就需要了解更多的至少,不光是技术上的,还有法律上的,Robots协议就是其中之一,如果不了解Robots协议,抓取了不该抓取的东西,可能会面临牢狱之灾哦!
蒙娜丽宁
2021/03/29
1.1K0
robots协议
robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据(Metadata,又稱元資料)。
h3110_w0r1d
2024/02/19
7120
Robots协议探究:如何好好利用爬虫提高网站权重
站长们通常希望百度、Google 这样的大型搜索引擎来抓取网站内容,但又很厌恶其他来路不明的网络爬虫抓取自己的信息。
德顺
2019/11/13
1.7K0
Robots协议探究:如何好好利用爬虫提高网站权重
教你如何编写第一个爬虫
2019年不管是编程语言排行榜还是在互联网行业,Python一直备受争议,到底是Java热门还是Python热门也是一直让人争吵的话题。
AI科技大本营
2020/02/24
1.2K0
教你如何编写第一个爬虫
爬虫的"盗亦有道"-Robots协议
网络爬虫的君子协议 执着 网络爬虫的尺寸 小规模,数量小,爬去速度不敏感,requests库 中规模,数据规模较大,爬取速度敏感scrapy库 大规模,搜索引擎,爬取速度关键定制开发 爬取网页 玩转网
若与
2018/04/25
2.2K0
爬虫的"盗亦有道"-Robots协议
一文搞懂SEO优化之站点robots.txt
建站后千万别忘记配置 robots.txt 爬虫规则,对于搜索引擎发现你的站点非常重要,除了主动到搜索引擎平台提交网站之外,也要主动告诉搜索引擎网站里都有哪些网页?哪些希望被抓取?哪些不希望被抓取?
村头的猫
2025/06/10
2200
一文搞懂SEO优化之站点robots.txt
robots协议
<div id="cnblogs_post_body" class="blogpost-body"><h3><strong>什么是robots.txt?</strong></h3> <p>robots.txt是一个纯文本文件,是爬虫抓取网站的时候要查看的第一个文件,一般位于网站的根目录下。robots.txt文件定义了爬虫在爬取该网站时存在的限制,哪些部分爬虫可以爬取,哪些不可以爬取(防君子不防小人)</p> <p>更多robots.txt协议信息参考:www.robotstxt.org</p> <p>在爬
py3study
2020/01/16
7180
Python入门网络爬虫之精华版
首先列举一下本人总结的相关文章,这些覆盖了入门网络爬虫需要的基本概念和技巧:宁哥的小站-网络爬虫
IT派
2018/08/10
1.2K0
scrapy爬虫出现Forbidden by robots.txt[通俗易懂]
先说结论,关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决。 使用scrapy爬取淘宝页面的时候,在提交http请求时出现debug信息Forbidden by robots.txt,看来是请求被拒绝了。开始因为是淘宝页面有什么保密机制,防止爬虫来抓取页面,于是在spider中填入各种header信息,伪装成浏览器,结果还是不行。。。用chrome抓包看了半天感觉没有影响简单页面抓取的机制(其他保密机制应该还是有的,打开一个页面时,向不同服务器递交了很多请求,还设定了一些不知道干啥的cookies),最后用urllib伪造请求发现页面都能抓取回来。于是上网查了一下robot.txt是什么,发现原来有个robot协议,终于恍然大悟: 我们观察scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件:
全栈程序员站长
2022/09/05
8310
解读百度就“违反Robots协议”向360巨额索赔:一场数据争夺战
搅局者360面临的巨额诉讼官司即将开庭。百度起诉奇虎360违反“Robots协议”(又称机器人协议或爬虫协议)抓取、复制其网站内容的不正当竞争行为,并索赔1亿元人民币。这个官司在今年2月便已立案,或许由于Robots协议太棘手,等了大半年才开庭。 Robots抓取案根源是百度数据优势 笔者在今年1月6日便率先发现360内测360百科,大量词条从界面风格、到词条属性、到扩展阅读几乎保持一致。当时我推测360搜索在2013年的发展方向或将是:在产品线上,360搜索完全走百度的模式——从新闻、网
罗超频道
2018/04/27
1.1K0
Python3网络爬虫实战-23、使用U
利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析,本节我们来简单了解一下它的用法。
py3study
2020/01/03
7030
robots.txt_Robots.txt:互联网幕后的一瞥「建议收藏」
Here’s an exercise: open a new tab and type in the URL of your favorite website. Add /robots.txt to the end and hit enter.
全栈程序员站长
2022/08/31
6520
彻底了解Python爬虫是什么?
前段时间我妈突然问我:儿子,爬虫是什么?我当时既惊讶又尴尬,惊讶的是为什么我妈会对爬虫好奇?尴尬的是我该怎么给她解释呢?
查理不是猹
2022/01/14
8570
给自己的网站加上robots.txt!(来自飞龙临天的整理投稿)
robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容。
勤奋的思远
2021/02/23
1.4K0
Python爬虫入门这一篇就够了
所谓爬虫,就是按照一定的规则,自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网,我们的爬虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息。
py3study
2020/01/15
9590
简单的robots协议
什么是robots协议? robots协议是网站和搜索引擎之间的协议,你可以在文件中规定哪些文件不想给搜索引擎爬取到,又或者那些可以给爬取到,每次搜索引擎爬取内容的时候,都会看当前网站有没有robots.txt的文件,如果有,将robots.txt文件内指定可以访问或者不可以访问的页面保留或者过滤掉。robots.txt存在与网站的根目录,如果网站名叫做http://www.test.com/,robots文件存在于根目录的话,可以通过http://www.test.com/robots.txt访问robo
vFREE
2021/12/20
1.1K0
简单的robots协议
爬虫协议 Tobots
Robots 协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots.txt 是搜索引擎访问网站的时候要查看的第一个文件。
丹枫无迹
2019/09/11
8100
爬虫的规定
类人行为可以不参考robots协议,比如我们写的小程序访问量很少,内容也少但是内容不能用于商业用途
小小咸鱼YwY
2020/01/17
5820
相关推荐
反爬虫我从 Robots.txt 配置开始
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档