首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据

今天聊聊「大数据」相关的话题,最近关于爬虫的新闻比较多,被监管的大部分都是涉及到个人隐私数据的大数据公司,这里不得不了解下数据脱敏、数据加密。

数据脱敏

据百科,数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。

比如,在涉及商业性敏感数据的情况下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户姓名、客户地址等个人敏感信息都需要通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。

脱敏规则有哪些?

对于姓名,随机显示一个汉字,其他隐藏为星号。比如,王**,或者*洪*。

身份证号、手机号、固定电话,显示最后3-4位,其他隐藏。

地址,只显示到地区,不显示详细地址。

等等。

数据加密VS数据脱敏

数据加密,常用md5、sha1等方法,可以有效防止数据泄露,适用于无需还原的数据加密。数据加密的目的是为了使数据暴露了,普通人也无法理解数据的真实信息,无法利用加密后的数据;

数据脱敏Data Masking,又称数据混淆、数据漂白、数据去隐私化,数据脱敏的目的是为了保护隐私,但是处理后的数据仍然可以被人类所理解,可以用于各种应用场景。

除了数据脱敏,数据加密,大数据的应用过程中,有一个规律,被大部分人所忽视。

数据会说谎

真相取决于人的解读

先推荐一本书《统计数据会说谎》

人们总是偏爱用数据说话,然而,数据会说谎是经常存在的事实,数据会说谎指的是数据只会客观的存在,但是对数据的理解,每个人都不一样,导致了“说谎”的假象。真相取决于每个人对数据的解读。

举个例子:

二战时英国空军邀请美国的统计学家分析:如何加强飞机的机体,才能降低被炮火击落的概率。

统计学家基于大量的返航受损飞机的统计数据发现,机翼是最容易被击中的部位, 而座舱与机尾,则是最少被击中的部位。

英国空军依此认为,应该加强机翼的防护,因为分析表明,那里”密密麻麻都是弹孔,最容易被击中”。

大量的返航飞机,机翼上的子弹孔数量最多,看起来机翼是最容易被击中的部分。加强机翼的防护,看起来也非常正确。

但是,统计学家却持不同的观点,反而建议加强座舱与机尾部位的装甲,因为那儿最少发现弹孔。

为什么?

因为统计样本是返航的受损飞机,说明大多数被击中座舱和机尾的飞机,根本没法返航就坠毁了。

数据没有说谎,只是我们每个人的解读不一样。

数据也是构筑AI系统的原料,采集、挖掘、训练、应用都避免不了与大数据打交道。大数据相关产品的设计,也需要深刻理解“大数据会说谎”这个道理,才能优化用户的体验。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190913A0HFMB00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券