Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >爬虫系列:爬虫所带来的道德风险与法律责任

爬虫系列:爬虫所带来的道德风险与法律责任

原创
作者头像
太后
修改于 2021-10-12 10:01:43
修改于 2021-10-12 10:01:43
1.3K0
举报
文章被收录于专栏:短信接收服务短信接收服务

使用网络爬虫做数据采集也应该有所不为。国内外关于网络数据保护的法律法规都在不断的制定与完善中,这篇文章主要从道德风险和法律责任两方面来分析爬虫做数据采集所带来的问题。

道德层面:

网络爬虫如果不严格控制网络采集的速度,会对被采集网站服务器造成很重的负担。恶意消耗别人网站的服务器资源,甚至是拖垮别人网站是一件不道德的事情。

我作为一个站长,也经常遭到爬虫的无节制抓取,下面分享我自己的案例:

在2018年11月5日左右,网站遭到了大量爬虫疯狂抓取,当天下午,服务器告警频发,首先是 CPU 100%,之后是网络跑满。

爬虫对服务器的负担
爬虫对服务器的负担

之后我对爬虫 IP 加入防火墙才最终将资源利用率降下来,14:50 之后可以看到资源利用率已经降下来了。

这里 CPU 利用率达到100%,用户访问网站的表现就是:访问速度非常缓慢,经常刷不出来。

这里是我作为一个站长分享自己被爬虫抓取的经历,希望爬虫开发者多站在别人的角度考虑问题。

上面说完了道德方面的问题,下面我们再来看看法律方面的责任。

法律层面:

  • 涉嫌不正当竞争:
代码语言:txt
AI代码解释
复制
咪咕音乐公司以阿里音乐公司利用互联网爬虫技术实施“盗链”等不正当竞争方式侵害其合法权益为由提起诉讼
代码语言:txt
AI代码解释
复制
[杭州阿里巴巴音乐科技有限公司、咪咕音乐有限公司不正当竞争纠纷管辖民事裁定书](https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=b6681a4dac564cb1a297ac2c0034d43e)
  • 著作版权问题:
代码语言:txt
AI代码解释
复制
未经版权方确认,利用爬虫抓取版权方作品
代码语言:txt
AI代码解释
复制
[福州六维网络科技有限公司、蓝牛仔影像(北京)有限公司侵害作品信息网络传播权纠纷二审民事判决书](https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=b6b52a71c2574826999dab3b0094919b)
  • 非法收集公民个人信息:
代码语言:txt
AI代码解释
复制
非法获取公民个人信息
代码语言:txt
AI代码解释
复制
[孟凡健、马国峰、翟万鹏等诈骗罪二审刑事判决书](https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=256c1b1d9c6f4f0e8867acea004aee1e)
  • 非法获取计算机信息系统数据:
代码语言:txt
AI代码解释
复制
侵入计算机信息系统,获取计算机系统内存储的大量数据
代码语言:txt
AI代码解释
复制
[呙某某非法获取计算机信息系统数据、非法控制计算机信息系统二审刑事裁定书](https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=8f5cee17e0454f49a3dcaba6018065c3)
  • 破坏计算机系统:
代码语言:txt
AI代码解释
复制
利用爬虫破坏计算机系统
代码语言:txt
AI代码解释
复制
[王博一文、黄业兴破坏计算机信息系统二审刑事裁定书](https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=085bf292d4144546bcaea90e01245712)

以上整理了利用爬虫所触犯的法律法规,具体案例就不展开了,可以点击链接了解详细案情。

以上整理了爬虫可能触犯的法律,下面看看 robots.txt 协议对爬虫的约束:

从法理上来说,网站的服务协议和 robots.txt 是很有趣的。如果一个网站允许公众访问接入,那么网站管理员对软件可以接入什么和不可以接入什么的限制是不合理的。如果网站管理员对“你用浏览器访问没有问题,但是你用自己写的程序访问它就不行”,这就不太靠谱了。

如果你了解搜索引擎优化(SEO)或搜索引擎技术,那么你可能听说过 robots.txt 文件。如果你想在任何大型网站上找到 robots.txt 文件,可以在网站根目录 https://www.pdflibr.com/robots.txt 找到。

robots.txt 文件是在 1994 年出现的,那时搜索引擎技术刚刚兴起。从整个互联网寻找资源的搜索引擎, 像 Alta Vista 和 DogPile,开始和那些把网站按照主题进行分类的门户网站公司竞争激烈,比如像 Yahoo! 这样的门户网站。互联网搜索规模的增长不仅说明网络爬虫数量的增长,而且也体现了网络爬虫搜集信息的能力在不断变化。

虽然我们今天认为这种能力是十分平常的,但是当自己网站文件机构深处隐藏的信息变成搜索引引擎首页上可以检索的内容时,有些管理员还是非常震惊。于是,robots.txt 文件,也被称为机器人排除标准(Robots Exclusion Standard),应运而生。

  • robots.txt 的语法没有标准格式。他是一种业内惯用的做法,但是没有人可以阻止别人创建自己版本的 robots.txt 文件(并不是说如果它不符合主流标准,机器人就可以不遵守)。它是一种被企业广泛认可的习惯,主要是这么做很直接,而且企业也没有动力去发展自己的版本,或者去尝试去改进它。
  • robots.txt 文件并不是一个强制性约束。他只是说“请不要抓取网站这些内容”。有很多网络爬虫库都支持 robots.txt 文件(虽然这些默认设置很容易修改)。另外,按照 robots.txt 文件采集信息比直接采集信息麻烦得多(毕竟,你需要采集、分析,并在代码逻辑中处理页面内容)。

机器人排除标准得语法很直接。和 Python 语言一样,注释都是用 # 号,用换行结尾,可以用在文件的任意位置。

文件第一行非注释内容是 User-agent:,注明具体那些机器人需要遵守规则。后面是一组 Allow: 或 Disallow:,决定是否允许机器人访问网站该部分内容。星号(*)是通配符,可以用于 User-agent:,也可以用于 URL 链接中。

如果一条规则后面跟着一个与之矛盾的规则,则按照后一条规则执行。例如:

代码语言:txt
AI代码解释
复制
# Welcome to me robots.txt file!
代码语言:txt
AI代码解释
复制
User-agent: *
代码语言:txt
AI代码解释
复制
Disallow: *
代码语言:txt
AI代码解释
复制
User-Agent: Googlebot
代码语言:txt
AI代码解释
复制
Allow: *
代码语言:txt
AI代码解释
复制
Disallow: /private

在这个例子中,所有机器人都被禁止访问任何内容,除了 Google 的网络机器人,他被允许访问网站上除了 /private 位置的所有内容。

是否按照 robots.txt 文件的要求写网络爬虫是由你自己决定的,当爬虫毫无节制地采集网站的时候,强烈建议你遵守。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
️️ 爬虫技术初探:如何安全高效地采集网络信息
在数据驱动的时代,网络信息采集已成为数据分析、市场研究和竞争情报不可或缺的一部分。本篇博客深入探讨了网络爬虫技术的基础知识、实践技巧及其在保护隐私和遵守法律框架下的应用方法。从基础的爬虫构建到高级的反反爬虫策略,无论你是编程新手还是资深开发者,都能在这篇文章中找到有价值的信息。我们将通过Python示例代码,详细介绍如何安全高效地采集网络数据,同时确保遵守网站的robots.txt协议和不侵犯用户隐私。 关键词:网络爬虫、数据采集、Python爬虫教程、反爬虫策略、网络信息采集。
猫头虎
2024/04/07
3300
️️ 爬虫技术初探:如何安全高效地采集网络信息
今日头条的 ByteSpider,怎么就成了小网站的“噩梦”?
2019 上半年,今日头条正式公布开始做搜索引擎。本来单纯的以为头条和微信一样,做的是垂直搜索或者站内搜,没想到做的是抓取全网内容的全新搜索引擎。
数据森麟
2019/11/21
2.6K0
爬虫入门到放弃04:爬虫=犯罪?对不起,我对钱没有兴趣!
我们身处大数据时代,数据趋于透明化、公开化,我们是否就可以拿着数据为所欲为?几年前很多人向往着"车厘子自由",同样在也有很多人也追求着技术自由。时至今日,我们可以在合法的范围内自由应用技术,那么对于爬虫的合法化,到底有哪些的法律可以来界定?
叫我阿柒啊
2021/06/10
7020
百度一 29 岁程序员因使用CURL命令“篡改数据”被判有期徒刑一年九个月,并没收所有违法所得
近日,中国裁判文书网公布了一起非法控制计算机信息系统、给赌博网站“大开方便之门”的案件,涉及金额达374万元。
龙哥
2021/05/07
8390
百度一 29 岁程序员因使用CURL命令“篡改数据”被判有期徒刑一年九个月,并没收所有违法所得
抓取数据可能会吃官司?请看好你家的爬虫!
历时两年的微博与脉脉之争终于有了结果:法院认定脉脉非法抓取、使用微博用户信息行为构成不正当竞争,一审判决脉脉停止不正当竞争行为,并赔偿原告经济损失等220余万元。两年前我有关注到微博与脉脉的数据之争,这在口水战每天都发生的互联网圈本来不算什么大事。但这次法院判决结果,还是挺出人意料的。毫不夸张地说,这一事件给互联网公司敲响了关于用户数据保护的警钟。 一个常规的数据抓取纠纷 先简单说一下微博和脉脉之争的来龙去脉。 2014年8月公开闹掰:微博宣布停止脉脉使用的微博开放平台所有接口,理由是“脉脉通过恶意抓取行
罗超频道
2018/04/27
1.2K0
程序员日均写7行代码被开除,公司:正常员工每天200行
来源:扩展迷EXTFANS 根据前不久CSDN发布的《2021-2022中国开发者调查报告》显示,大部分程序员平均每天会写200行左右的代码。 那么代码的数量能衡量一个程序员的水平吗? 事实上,用代码的多少来评估程序员的业务能力是否达标,并不是客观的。 在此前的一起劳动争议案件中,一科技公司的算法工程师便在试用期被公司开除。 而起因则是公司认为他的编程能力不足,主要表现在代码写的太少。 判决书显示,李某某于2020年11月2日入职中科尚易公司,岗位为机器视觉算法工程师。试用期为三个月,试用期工资为360
程序猿DD
2022/10/10
1.7K0
程序员日均写7行代码被开除,公司:正常员工每天200行
链家40岁员工删除公司9T数据,被判7年
根据中国裁判文书网的消息,原链家网(北京)科技有限公司数据库管理员韩冰因犯破坏计算机信息系统罪一审被判处有期徒刑七年,二审维持原判。
深度学习与Python
2021/01/21
6120
安全软件应遵循的三大竞争原则
张钦坤  腾讯研究院副秘书长 田小军  腾讯研究院法律研究中心研究员   近年来,安全软件与其他互联产品之间的不正当竞争案件层出不穷。笔者曾统计我国自2002年至今的126件互联网不正当竞争案件,安全软件与普通软件案件纠纷占纠纷案件总数的31.48%,较多出现的情形是软件之间的干扰和冲突,具体表现为冲突提示和安装失败、强制卸载等其他严重影响相关经营者权益、消费者利益及市场竞争秩序的情形。有关法院在裁判过程中,结合对互联网竞争特点的分析,以及对《反不正当竞争法》一般条款的理解,形成了针对安全软件的三
腾讯研究院
2018/03/09
9760
【K哥爬虫普法】老铁需要车牌靓号吗?判刑的那种
2014年至今,被告人李文环使用“爬虫”软件,大量爬取全国各地及凉山州公安局交警支队车管所公告的车牌放号信息,之后使用软件采用多线程提交、批量刷单、验证码自动识别等方式,突破系统安全保护措施,将爬取的车牌号提交至“交通安全服务管理平台”车辆报废查询系统,进行对比,并根据反馈情况自动记录未注册车牌号,建立全国未注册车牌号数据库。李文环之后编写客户端查询软件,由李文环通过QQ、淘宝、微信等方式,以300-3000元每月的价格,分省市贩卖数据库查阅权限。其中将软件卖给李某2,非法选取凉山州车牌三个(WQQ777、WQJ777、WQX999);将软件卖给李某1,非法选取凉山州车牌1个(WQD777)。被告人吴杰明知李文环使用非法手段获取未注册车牌信息,而购买抢号软件、查库软件,非法选取四个成都市车牌号码(A5432F、A6543J、A4777、DAS456)。
K哥爬虫
2023/01/12
6290
【K哥爬虫普法】老铁需要车牌靓号吗?判刑的那种
《爬虫写得好,铁窗关到老》教你把握爬虫的法律边界!㊫
最近的IT公司违法案件越来越多,看了很多因为爬虫,数字货币,博彩网站外包等被抓的事情,给大家提个醒,打工注意不能违法,写代码背后也有法律风险。
不吃西红柿
2022/09/19
7180
华为员工利用 Bug 越权访问机密卖给第三方,获利1.6万元,被判有期徒刑一年!
在数字化浪潮中,企业、员工的管理工作也朝着智能化、云化等方向发展。对于上班族来说,入职第一天基本基本穿梭在各个权限的申请与开放之中。
AI科技大本营
2022/05/19
7840
华为员工利用 Bug 越权访问机密卖给第三方,获利1.6万元,被判有期徒刑一年!
【k哥爬虫普法】程序员183并发爬取官方网站,直接获刑3年?
深圳市快鸽互联网科技有限公司 2014 年成立,早期做互联网金融,2017 年转型做互联网科技公司,主营业务是“助贷”,也就为按揭贷款购房的客户提供赎楼及债务置换贷款等服务。
K哥爬虫
2023/01/12
7460
【k哥爬虫普法】程序员183并发爬取官方网站,直接获刑3年?
如何给爸妈解释什么是“爬虫”?
前段时间我妈突然问我:儿子,爬虫是什么?我当时既惊讶又尴尬,惊讶的是为什么我妈会对爬虫好奇?尴尬的是我该怎么给她解释呢?
数据森麟
2019/09/27
6310
如何给爸妈解释什么是“爬虫”?
你的爬虫会送你进监狱吗?
随着大数据的火热,数据相关行业竞争不仅“蒸蒸日上”,爬虫之间的战争也越发地激烈。一篇《你的爬虫会送老板进监狱吗?》在程序猿圈子里被大量转载,甚至有的程序员因为非法获取数据的新闻从而放弃了这一行当。那么,爬虫是什么,它会是悬在程序员头上的达摩克利斯之剑吗?
崔庆才
2019/05/06
3.5K0
你的爬虫会送你进监狱吗?
有组织的捅马蜂窝违法了吗
今天的朋友圈被《我承认,我们是有组织攻击马蜂窝的》刷屏了。自媒体「小声比比」作者梓泉和「乎睿数据」的三名技术人员组成的「四人豪华犯罪团伙」,通过爬虫技术结合大数据分析,披露马蜂窝 2100 万条用户评论数据中的 1800 万条为造假数据,被马蜂窝以名誉权纠纷为由状告法院。
猫哥学前班
2018/11/06
1.2K0
有组织的捅马蜂窝违法了吗
【k哥爬虫普法】非法入侵计算机信息系统,获取1500万余条个人信息!
2018年1月至7月期间,呙某兴通过SQL注入漏洞以及编写爬虫脚本的方式,侵入计算机信息系统,获取计算机系统内存储的大量数据,其中涉及到个人信息的数量约为1500万余条,该将其获取的个人信息通过QQ销售给“Versace”、“同花顺”、“FF”、“糖果”等人,从中获利约54万余元。
K哥爬虫
2023/01/12
7010
【k哥爬虫普法】非法入侵计算机信息系统,获取1500万余条个人信息!
五年官司终败诉,万亿爬虫大军蠢蠢欲动
这算得上是爬虫斗争历史上具有里程碑意义的一个裁决。本周一,美国法院裁定,数据分析公司 HiQ 控诉 LinkedIn 案维持原判,并且认定从公共网站收集个人资料完全合法。
深度学习与Python
2022/06/11
4730
五年官司终败诉,万亿爬虫大军蠢蠢欲动
“大数据”模式的法律风险
原标题:“大数据”模式的法律风险 ——评今日头条事件 作者:谢君泽 继今年6月《广州日报》起诉“今日头条”并达成和解协议之后,近日又传出“今日头条”被围剿的消息。6月24日搜狐高调起诉“今日头条”侵犯著作权和不正当竞争。同时,国家版权局宣布对“今日头条”立案调查。至此,作为新闻数据的聚集者与加工者的“今日头条”,命运堪忧!然而,该事件对笔者的思考不仅于此,“大数据”模式的法律风险才是更值得关注的问题! “大数据”模式 所谓“大数据”模式,其实是将巨量的数据资料通过撷取、分析,从而提取有价值的规律性信息,以
大数据文摘
2018/05/21
1.7K0
Python爬虫的法律边界(二)小爬怡情,大爬over!
数据抓取的门槛越来越低,会点程序,或使用网络工具都可以薅点数据,新入行了不少爬虫选手,但是对抓取使用数据的法律风险可能缺少认识。尤其是从去年的《网络安全法》实施开始,被新闻公开报道的相关法律诉讼已有好几起。
一墨编程学习
2019/05/13
1.4K0
Python爬虫的法律边界(二)小爬怡情,大爬over!
爬虫究竟是合法还是违法的?
之前朋友圈和各大公号传播了一篇文章《 只因写了一段爬虫,公司 200 多人被抓!》,讲述程序员因写爬虫而被刑侦的事件。很多爬虫工程师看了之后感觉人心惶惶的,当时大家讨论最热是:爬虫究竟是合法还是违法的?
崔庆才
2019/10/30
1.4K0
爬虫究竟是合法还是违法的?
推荐阅读
相关推荐
️️ 爬虫技术初探:如何安全高效地采集网络信息
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档