核心提示:近日,三秦都市报记者调查发现,随着大数据概念的兴起,一些非法抓取数据的产业也应运而生。这些黑色产业链背后是个人隐私的泄露,这些数据被各种贩卖后,成为骗子们精准诈骗的资源。
三秦都市报—三秦网讯 (文图 记者 张晴悦)“编程老手,承接项目”“数据采集全国城市所有行业”“任何网站的数据都能抓取”……在某些搜索引擎和二手交易平台上,像这种提供大数据抓取服务的商家有很多。从判决书、论文到外卖、电影、购物信息,从房产、贷款到大学生个人信息,这些商家们神通广大,均称只要付钱就可以提供抓取服务。
近日,三秦都市报记者调查发现,随着大数据概念的兴起,一些非法抓取数据的产业也应运而生。这些黑色产业链背后是个人隐私的泄露,这些数据被各种贩卖后,成为骗子们精准诈骗的资源。而多个专门非法抓取数据的公司,也被警方进行了刑事打击。
抓取一份简历 只要两毛多钱
在某二手交易平台上,输入“数据采集”“大数据采集”进行搜索,界面会显示“没有搜索到您想要的宝贝——无法搜索XX(平台名称)违规信息,换个关键词搜索试试”。而根据页面提示稍加调整关键词,输入“大数据信息采集”“爬虫数据”“网络爬虫”,就会出现五花八门的搜索结果——“Python爬虫定制、数据分析”“编程老手,承接项目”“数据采集全国城市所有行业”……
8月15日,记者在该二手交易平台了解到,“数据采集全国城市所有行业”,并非只是一句口号——网络爬虫服务大有无孔不入之势:从知网、万方等知识传播共享平台,到猫眼电影、豆瓣等兴趣平台,从满足人们餐饮需求的美团、饿了么,到提供住房服务的我爱我家、链家,从社交广场微博到国民电商平台淘宝,甚至百度地图数据、股票数据、校园数据,在该平台上都能找到踪迹。无论是何种门类,“只要是网站上的公开数据”,卖家们都能根据买家需求,编写爬虫软件、提供软件定制服务。根据买家不同的需求和需求数量,卖家会决定最终的成交价格,导出的数据通常以Excel表格形式呈现。
记者随机与一位自称按需定制的卖家进行交谈,该卖家表示,其所提供的线上服务覆盖面甚广——“精准获客,海量客户资源,一键查询,找老板、找法人、找白领、找业主;二手房业主,租房房东,全网实时更新真实个人房源;精准定位,指定位置附近高质量用户;企业信息、供应商信息,实时更新一键采集”。以上服务通过购买月卡、半年卡或者年卡实现,收费标准为50元/月、210元/半年及388元/年,购买服务卡后,在对应期限内可以无限次使用数据查询功能。
提供大数据抓取服务的信息,在网上随处可见
为了规避风险,有相当一部分卖家在其业务介绍界面中,反复强调信息来源的公开性,“只抓取网站上的公开信息”,“不抓取个人信息,身份证不抓,手机号不抓”,“我们不生产数据,我们只是数据的整理搬运工”。
只有当你加了卖家私聊时,他们才会显示自己真正的手段。多名卖家称,“可以破解加密网站,但是反爬机制太强的网站不能提供服务”。记者发现,所有的数据都被标好了价格,一份简历的收费标准0.25元,一份判决书低至1毛钱,一篇论文不到1块钱。
插上电就可获取周围用户信息
除了线上抓取手机信息外,该二手交易平台还有很多卖家提供线下服务,售卖线下设备。通过这些设备,只要插上电,就可以轻松获取周围一公里内的电话号码。而一台最高配的设备,也只需1980元。
一位卖家告诉三秦都市报记者,通过他们的设备,不仅能获取电话号码,还可以根据电话号码获得号码归属人在不同APP上停留的时间,依此进行数据分析,进而形成个人画像。卖家通过微信以录屏的形式,向记者展示了其所销售的设备,并详细解释了该设备的操作方式,“一部手机做后台,一个设备去采集,十分精准”。
随后,卖家还将名为“聚客宝”的分析平台界面展示给记者。在该界面中,记者发现,其所提供的人物画像,包括电话号码归属者的性别、学历、收入、子女、车产、特定时期、常用网络、手机价位、婚姻、房产,甚至连备孕/孕期在该界面上都有所显示。
卖家还告诉记者,可以根据以上信息和营销需求,点对点联系客户,精准投放。该卖家也提供一款名为“人脉大师”的软件服务,宣传视频上称该“神器”具有“爆粉功能”:全自动添加附近好友。卖家对记者解释称,“使用这一软件,可主动被动地添加抓取到信息的周围人为好友。主动是你主动地去加你想加的人,被动是裂变式加好友,服务费是198元/年。”
数据多被用来实施精准诈骗
看到这里你可能想问,为什么会有人要千方百计抓取别人的数据?花钱拿到这些数据能干什么?警方侦破的一系列非法抓取数据案,也许能给你答案。
近日,浙江绍兴警方就侦破了一起非法抓取数据的大案。警方发布的消息显示,该团伙涉嫌非法窃取用户个人信息30亿条,涉及百度、腾讯、阿里巴巴、京东等全国96家互联网公司产品,被称为“史上最大规模”的数据窃取案。
今年4月,号称中国最大的简历大数据公司“巧达科技”被北京警方查获。之前,巧达科技宣称,他们拥有简历2.2亿份以上、通讯录10亿以上、ID组合100亿上。通过这些数据,他们计算出了8亿以上中国人的多种数据。
殊不知,这些数据都是通过非法手段抓取来的。警方披露的信息显示,与正规招聘网站的简历由用户自己上传不同,巧达科技的简历数据库,全部是通过非法手段抓取而来的。巧达科技通过技术手段,绕过招聘网站服务器防护策略,窃取存放在服务器上的用户数据,然后将从不同网站窃取来的信息,进行重新合并,排列比对,最后形成完整的简历和用户画像。
去年年底,北京海淀法院还审结了一起利用“爬虫”技术侵入计算机信息系统抓取数据的刑事案件。法院经审理查明,上海某公司的多名被告,于2016年至2017年间采用技术手段,抓取北京某公司服务器中存储的视频数据。该上海公司还破解了北京某公司的防抓取措施进行数据抓取。最后该上海公司的多名负责人均获刑。
通常,这些数据除了被买家买来进行用户精准营销,不断骚扰用户,更多的则到了骗子手中。最近浙江金华警方就侦破了一起这样的案件,西安的刘某和深圳的咸某等多人,被当地警方抓获。
据警方调查,该团伙就是通过搭建钓鱼类网站收集用户信息,最后通过网站后台,导出上述具有贷款意向的客户精准信息,贩卖给诈骗嫌疑人实施诈骗。该小作坊式的团伙就非法获取了190多万条公民信息,受害人涉及全国20多个省份。
目前尚无专门法律和规范
非法抓取数据曾引发过各种问题。金杜律师事务所上海分所合伙人瞿淼,在其公开发表的文章中谈论这一问题时称,网络爬虫在技术方面,过于野蛮的爬虫可能造成网站负荷过大(尤其多线程爬虫),从而导致网站瘫痪、不能访问等。这一点最高人民法院信息中心主任许建峰,今年5月在接受媒体采访时也有提及:“中国裁判文书网目前每天的访问量,可以达到几千万的量级,其中还包括数据爬虫的攻击,我们的中心服务器承受着巨大压力。”
在内容方面,网络爬虫可能导致网站所有人丧失对自己网站数据的控制权,例如有的数据是网站所有人不愿被他人获取的;或者有的网站为一些数据来源付出了较大代价,却可能因为网络爬虫,轻易大量被他人获取。此外,在结果方面,网络爬虫还可能造成他人数据被不正当地复制、使用。网站数据如果涉及他人个人信息,还可能因网络爬虫,导致数据大量被他人未经数据主体同意而获取,从而伤害其利益。
瞿淼还说,目前我国还没有专门针对爬虫技术的法律或者规范。一般而言,爬虫技术本身并无违法违规之处。但是,随着数据产业的发展,数据爬取犹如资源争夺战一般越发激烈白热。数据爬取带来的各种问题和顾虑日渐增加。而“爬”与“反爬”的技术对抗,会像军备竞赛一般永无休止,成为所有行业主体的痛。而爬与反爬之间的对抗赛,还存在无法避免的误伤率,导致正常用户的困扰。
就此,陕西莱顿律师事务所何睿律师表示,2017年6月1日起正式实施的《中华人民共和国网络信息安全法》第二十二条明文规定,网络产品、服务具有收集用户信息功能的,其提供者应当向用户明示并取得同意。第四十四条规定,任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。
他认为,网络爬虫存在多种法律风险,从一些判例来看,网络爬虫会构成不正当竞争、构成侵犯信息网络传播权,更严重的可能涉及多种刑事罪名。何律师表示,刑法上,网络爬虫则会构成侵犯公民个人信息罪、非法获取计算机信息系统数据罪、构成非法侵入计算机信息系统罪等罪名。
[编辑:范为民]
领取专属 10元无门槛券
私享最新 技术干货