数据抓取的门槛越来越低,会点程序,或使用网络工具都可以薅点数据,新入行了不少爬虫选手,但是对抓取使用数据的法律风险可能缺少认识。尤其是从去年的《网络安全法》实施开始,被新闻公开报道的相关法律诉讼已有好几起。
有人会争议互联网本质是鼓励分享,很多UGC的网站内容还是用户贡献的,网络公开数据应该都可以使用。
我也希望是这样,但现实不是这样。
所以抓取数据前你最好看下被抓对象的知识产权申明,如果你是公司职员也关心下公司让你抓取数据的用途,多少了解下潜在风险。
以下是几个典型的爬虫选手爱光顾的网站知识产权申明。
经常抓点评数据的小哥们看下,上述是点评网的知识产权申明:用户发布的商店点评,评论,图片知识产权属于大众点评,未经许可,任何使用都是非法。
上述是微博的申明,未经书面许可,任何抓取微博内容都是非法抓取。爬虫老哥们有哪一个没抓过微博的?
上述是穷游网的知识产品申明,用户发布的旅游攻略所有权是穷游网的。
上述是比较典型的几个UGC网站,做点评的,做社交的,做攻略的。创业公司数据冷启动时,有几个没有抓过他们家的数据?
这个潜在风险是存在的,就看你有没被对方顶上。
以下是几个法院判决案例:
大众点评诉讼百度地图非法使用点评数据,百度败诉,赔钱。
来自网易新闻
酷米客状告车来了非法抓取他家的公交信息,车来了败诉,车来了老板被三年刑期缓刑。
来自金融界百家号
新三板上市公司“数据堂”,公司业务是数据标注和数据交易,他家也是大量抓取数据。后涉嫌倒卖用户数据,公司高管被起诉。
从上面可以看出:
大公司斗法输了赔钱,小公司输了是人身自由。
还是那句,爬虫有风险,开爬要谨慎。
什么样的行为容易踩雷:
法院的定罪依据条例有哪些:
以下是一些引起争议的话题,我以问答对的形式展开。
问:百度,谷歌是世界最大的爬虫工厂,他们为什么没遭殃呢?
答:这涉及商业利益,用户在搜索引擎点击链接后,流量会引回被抓取网站,某方面来说是一个双赢。对方没被必要去搞百度。
谷歌在欧洲其实遇到了一些问题,欧洲一些新闻媒体认为谷歌抓取他们的内容,谷歌应该向他们支付费用。
今日头条之前把抓取的新闻内容留在自己网站上,而不是跳转回对方网站,这其实是违法的,所以也遭遇了十几起的诉讼,这主要还是商业利益问题。现在内容创业你抓取的内容,最好只提供摘要,全文链接要跳回对方网站。
问:公司让我抓的,跟我没关系?
答:错!上图。
《刑法》第285条解释,对公司处罚金,直接主管和直接人员也game over。
所以公司的损失是钱,你和项目主管的损失可能是人身自由。
问:互联网是公开的,UGC内容为什么不能用?
答:上面说UGC网站的知识产权已经申明清楚了,而我们在注册这些网站账号时,你也就默认认可了这个协议,这是受法律认可的。
问:robots.txt能限制爬虫吗?
答:不能。那只是一个不成文的约定,一没有法律效应,二也没有强制作用。道德感强点的也许会遵守robots.txt规定。就算你在robots.txt里写明了不允许搜索引擎爬虫抓取,搜索公司照样若如无人之地来光顾你的网站。
而且,现在一些搜索公司的爬虫已经不会把user-agent都写成Spider字样了,有的user-agent都是正常浏览器的头信息,有兴趣的,可以看下你家网站web服务器的访问日志IP记录。
问:提供爬虫工具的有风险吗?
答:有!上图。
还是《刑法》第285条,提供工具的,一样有上述风险。比如网络上某某爬虫软件,可以直接帮助抓取很多网站数据,万一使用数据的人干出惊天大案,这有连带责任。
但上述都是商业公司的商业竞争行为,相互斗法,个人爬虫爱好者的风险较小。但随着数据安全,网络安全,用户隐私方面的法律越来越健全,很容易踩雷。
但你要遵守一个规则:小爬怡情,大爬over。
还是那句:不要直接商用抓取的数据,不要涉及用户隐私数据,
在老板让你抓数据前,先把这篇文章留给他看下。
注:所写文章的初衷是希望爬虫选手们了解抓取和运用数据的潜在风险。
注:若你涉及相关上述法律问题,请咨询专业的知识产权律师,上文不是专业建议。
如果你依然在编程的世界里迷茫,不知道自己的未来规划,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的!交流经验! 自己是一名高级python开发工程师,从基础的python脚本到web开发、爬虫、django、人工智能、数据挖掘等,零基础到项目实战的资料都有整理。 送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,这里是python学习者聚集地
点击:python技术分享