今天聊聊「大数据」相关的话题,最近关于爬虫的新闻比较多,被监管的大部分都是涉及到个人隐私数据的大数据公司,这里不得不了解下数据脱敏、数据加密。
数据脱敏
据百科,数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。
比如,在涉及商业性敏感数据的情况下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户姓名、客户地址等个人敏感信息都需要通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。
脱敏规则有哪些?
对于姓名,随机显示一个汉字,其他隐藏为星号。比如,王**,或者*洪*。
身份证号、手机号、固定电话,显示最后3-4位,其他隐藏。
地址,只显示到地区,不显示详细地址。
等等。
数据加密VS数据脱敏
数据加密,常用md5、sha1等方法,可以有效防止数据泄露,适用于无需还原的数据加密。数据加密的目的是为了使数据暴露了,普通人也无法理解数据的真实信息,无法利用加密后的数据;
而数据脱敏Data Masking,又称数据混淆、数据漂白、数据去隐私化,数据脱敏的目的是为了保护隐私,但是处理后的数据仍然可以被人类所理解,可以用于各种应用场景。
除了数据脱敏,数据加密,大数据的应用过程中,有一个规律,被大部分人所忽视。
数据会说谎
真相取决于人的解读
先推荐一本书《统计数据会说谎》
人们总是偏爱用数据说话,然而,数据会说谎是经常存在的事实,数据会说谎指的是数据只会客观的存在,但是对数据的理解,每个人都不一样,导致了“说谎”的假象。真相取决于每个人对数据的解读。
举个例子:
二战时英国空军邀请美国的统计学家分析:如何加强飞机的机体,才能降低被炮火击落的概率。
统计学家基于大量的返航受损飞机的统计数据发现,机翼是最容易被击中的部位, 而座舱与机尾,则是最少被击中的部位。
英国空军依此认为,应该加强机翼的防护,因为分析表明,那里”密密麻麻都是弹孔,最容易被击中”。
大量的返航飞机,机翼上的子弹孔数量最多,看起来机翼是最容易被击中的部分。加强机翼的防护,看起来也非常正确。
但是,统计学家却持不同的观点,反而建议加强座舱与机尾部位的装甲,因为那儿最少发现弹孔。
为什么?
因为统计样本是返航的受损飞机,说明大多数被击中座舱和机尾的飞机,根本没法返航就坠毁了。
数据没有说谎,只是我们每个人的解读不一样。
数据也是构筑AI系统的原料,采集、挖掘、训练、应用都避免不了与大数据打交道。大数据相关产品的设计,也需要深刻理解“大数据会说谎”这个道理,才能优化用户的体验。
领取专属 10元无门槛券
私享最新 技术干货