Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >个人信息「去标识化」就安全了吗?

个人信息「去标识化」就安全了吗?

作者头像
数说君
发布于 2022-08-25 10:41:09
发布于 2022-08-25 10:41:09
1K0
举报
文章被收录于专栏:数说工作室数说工作室

内容提要:

一、去个人标识化的数据就安全吗?二、具体有哪些针对隐私数据的攻击方法?1)链接攻击2)同质性攻击3)背景知识攻击三、那么,到底怎么样的数据才是安全的?1)K-匿名2)L-多样性四、怎么规避数据攻击第一,当然是要做好数据安全的评审啦!第二,对有问题的数据,要建议进行泛化处理第三、从 差分隐私 到 隐私计算


一、去标识化的数据就安全吗?

有一份10W人的体检数据,包括了个人的身份证号、手机号个人标识信息,以及身高、体重、血压、心率等健康指标。

首先先明确一个概念:

  • 身份证号、手机号等可以唯一定位到一个人的,叫个人标识符
  • 性别、街道、年龄这样无法唯一定位到一个人的,叫准标识符
  • 身高、体重、血压、心率等,就是敏感属性了。

问:如果把数据中的身份证号、手机号这种个人标识信息去掉,或者脱敏处理,这份数据就安全了吗?

类似的还有投资者的股票交易数据、公民选举倾向、用户的打车数据等做脱敏处理。

答案为否。

因为隐私保护的——

  • 假设前提是:攻击者掌握了很多数据外的背景知识;
  • 要求是:攻击者不能够识别出一份数据中具体个人信息。

即使隐去了个人标识,攻击者仍然可以通过多个准标识符,或者其他属性,定位到一个人。

举个简单的例子,如果有一份你所在单位的员工的打车数据,即使去掉了个人标识,也能根据他的打车目的地,结合其它一些信息,定位到一个人。

“周一下午3点有人从公司打车到了上海虹桥站,这肯定是小王,他周一要去外地出差,走之前还跟我说来着,时间也吻合。”

“周四上午11点有人从南京西路打车到公司,这肯定是小张,他家就住那里,明明是周四早上迟到了,还跟领导说那天打卡机坏了,他打了卡但是没记录”

再比如,有一份“2021年冬奥会的运动员名单“数据,去掉了个人标识,仅仅保留年龄、参与项目这两个字段,依然也能推测出这里面很多数据的归属主题:

年龄

参与项目

45

体操

...

...

29

摔跤

就像这种连国籍字段都没有的数据,依然可以推测出其中的一些数据主体,比如第一个45岁的体操老将,只能是丘索维金娜;29岁的摔跤运动员,结合参赛表也很容易把名单圈定在那几个人范围内,猜中的概率大大增加。

有人说,不能结合这些背景知识,这属于“作弊”,在现实中,黑客就是根据这些背景知识、不同表的中的数据同质性等进行攻击,成功窃取个人隐私。

2006年,Netflix组织了一场推荐算法竞赛,使用的数据是“经过匿名化处理”的用户影评数据,仅仅保留了每个用户对电影评分和评分的时间戳。

但来自UT Austin的两位研究人员,借助了外部IMDB的用户影评数据,从这50万匿名化用户中定位出了2个用户,结果其中1个用户还投诉了Netflix公司,人为其泄露了其隐私,结果Netflix公司不得不取消了该项比赛。

二、具体有哪些针对数据隐私的攻击方法呢?

我们说的攻击,不是明目张胆的进行内网入侵、拖库,也不是通过社工进行诈骗,而是,就通过公开出来的信息,通过关联、分析等计算方法,结合一些背景知识,成功把一条数据定位到个人。

注意这里不是说可以找到ta的身份证号、手机号等这些个人标识的 具体号码,这里说的是 “定位到个人”是指——本来这条数据可能是很多人的,但经过关联之后,这条数据只可能是一个人的,甚至可以知道是哪个人。

具体有哪些攻击方法呢?

1)链接攻击

攻击者通过从别处获取的数据,和本次发布的数据进行链接,从而圈出唯一主体,推测出个人隐私数据。说白了就是不同的表之间,通过一些准标识符进行关联。

上面Netflix的例子就是通过关联分析,将Netflix的匿名数据与IMDB的数据进行关联、比较,从而定位出了2个用户,他们在Netflix的所有影评都一览无余。

根据美国卡内基梅隆大学的 Sweeney 的研究,如果跟其他数据集的信息组合在一起,87%的美国人可以仅用 5位邮政编码、性别、出生年月,就可以唯一的、重新标识出一个美国人。

这可不是什么野鸡研究,这个研究的结论出现在隐私计算领域大名鼎鼎的论文《k-ANONYMITY: A MODEL FOR PROTECTING PRIVACY》里面,就是在这篇论文里面,Sweeney 提出了 “K-匿名” 的隐私保护方法,后面会介绍。

2)同质性攻击

通过挖掘出一个表中,某个准标识符在敏感属性上面的一些同质性,来获取个人隐私数据。

比较抽象,还是体检表为例,就算隐去了个人的标识符,但最终发布的数据中,如果 街道为 “南京南路”的 “肺部检查” 这个属性里面,都是“肺部结节 ”,这就出现了同质性。

体检者所住街道

体检者肺部检查

南京南路

肺部结节

南京南路

肺部结节

南京南路

肺部结节

南京南路

肺部结节

如果我认识的一个人,通过各种途径知道他在这个体检表中,又知道他住南京南路街道,那么我就可以推测出来这个人有“肺部结节”了。

3)背景知识攻击

通过结合背景知识,将看起来匿名的数据识别到具体一个人上。

比如有下面一份具体的体检表,

我认识的一个人,住在南京南路,32岁。但表中有两条数据满足条件,原本我无法定位到这个人。

但这个人是女性,而前列腺结节只能男性会有,所以结合这个背景知识,我可以将前列腺结节排除,从而识别出第一个数据是我认识的这个人,她有高血压。

序号

体检者街道

体检者年龄

手机号后四位

体检问题

1

南京南路

32

1234

高血压

2

南京南路

32

1234

前列腺结节

3

南京北路

42

1628

高血压

4

南京北路

42

1628

脂肪肝

5

南京北路

42

1628

肺部结节

三、那么,到底怎么样的数据才是安全的?

数据去掉了个人标识符就安全了吗?不是,至少还要满足如下条件,

1)K-匿名

简单说,就是一份数据中的 准标识符 的组合,在此份数据中出现次数要有K个(K越大越好,但至少要大于2),才无法定位到个人。

比如一份体检数据

序号

街道

年龄

手机号后四位

体检问题

1

南京南路

32

1234

高血压

2

南京南路

32

1234

前列腺结节

3

南京北路

42

1628

高血压

4

南京北路

42

1628

脂肪肝

5

南京北路

42

1628

肺部结节

无法通过三个准标识符{街道,年龄,手机号后四位}定位到一个人,因为

  • {南京南路,32,1234} 的有2个,满足 “k=2匿名”,就算我知道了其中有一个人是满足这三个条件,但我不知道谁是ta;
  • {南京北路,42,1628} 的有3个,满足 “k=3匿名”,我也不能知道我认识的那个人,是这三个人里面的谁。

2)L-多样性

L-多样性是为了避免“同质性攻击”,如在介绍“同质性攻击”里举的例子,如果 “南京南路”的 “肺部检查” 里面,都是“肺部结节 ”,那么就因为同质性而间接泄露个人隐私。

L-多样性 简单来说 指的是,某个准标识符的组合下,敏感属性具有L个多样性,而不是都是同一个。

在上面的表中,

  • {南京南路,32,1234} 这个组合下,“体检问题”这个敏感属性有2个多样性;
  • {南京北路,42,1628} 这个组合下,“体检问题”这个敏感属性有3个多样性,无法进行同质性攻击。
  • 另外,这三个准标识符,即使任一,或者两两组合,其敏感属性“体检问题”也不是同质的。

四、怎么规避数据攻击

在一个企业里面,如何规避针对数据里这种个人隐私的定位攻击呢?

第一,当然是要做好数据安全的评审啦!

企业里面安全管理的角色,除了要从应用缺陷/漏洞、数据脱敏、去标识化等角度去评估安全性,还应该根据以上的专业知识,去评估数据是否满足K-匿名、L-多样性,以及测试这份数据能否通过同质性、关联分析,以及结合其他背景知识,来还原出个人信息的主体。

第二,对有问题的数据,要建议进行泛化处理

如果一份数据无法满足K-匿名和L-多样性,即仅靠某几个准标识符的组合,就能够定位到一个人,那这份数据就无法发布出来、无法使用了吗?

也不是,这个时候可以对数据进行一些泛化处理,比如某数据中:

  • 年龄=32岁的人,“体检问题”这个敏感属性是同质的,都是“脂肪肝”;
  • 年龄=42岁的人,“体检问题”这个敏感属性也是同质的,都是“高血压”。

那么根据前面所说,如果我认识一个人,32岁,在这个数据里面,我就能知道ta肯定有脂肪肝。

这个时候,我们可以把年龄这个字段进行泛化,从精确数字,变成一个范围,比如30-50岁,那么这两个人就合并到一类里面了,就变成:

  • 年龄=30-50岁之间,“体检问题”这个敏感属性有2个多样性。

对不满足K-匿名的也可以采用类似操作。

但其实,L-多样性也是有局限的,比如有一份公民犯罪前科的数据,里面有一列敏感属性是“是否有刑事记录”(应该很敏感了),99.9%的人都会是“否”,所以在某些准标识符,或者组合下这个属性肯定会同质,这个想想也是正常的。

但如果此时为了追求L-多样性,人为进行泛化呢?可以思考一下会有什么后果,这反而会加大泄露个人的隐私.....

第三、从 差分隐私 到 隐私计算

简单来说,就是给输出或发布的数据注入一些随机噪声,使得个体的结果模糊化,但又不影响总体数据的一些统计性质,这样这些数据虽然定位不到个体,但仍然可以用来做一些统计分析,不影响结果。

在差分隐私的技术下,攻击者即使能够掌握除关于这份数据的所有背景知识,哪怕已经掌握了除某条数据之外的所有数据信息,这条数据的隐私也不会泄露

隐私怎么定义、噪音怎么注入,具体公式就不上了,后面应该还会有机会再进行介绍的,因为还会专门讲针对AI模型的攻击(比如模型萃取攻击、逆向攻击等),到时候放一起,先关注公众号

而差分隐私,已经是当下非常火的隐私计算的范畴了。

除差分隐私之外,隐私计算的基础算法还有 同态加密,动态脱敏,混淆电路等,它们是现在安全多方计算、联邦学习等这些隐私保护框架的理论基础。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数说工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
K-匿名隐私保护模型
人类历史上,除了计算机外从没有一项技术可以在短短的几十年间,能够全方位的影响整个社会的各个领域。技术的发展,少不了许多代人为之的努力。无论是在计算机硬件上,还是在实现的算法上,这其中有着大量非常精巧的设计,在后面的文章中,将会不定期的把这些知识写在公众号上。这次介绍一个在隐私保护领域常用的模型,K-匿名。
Defu Li
2019/01/23
1.9K0
K-匿名隐私保护模型
数据匿名化:隐私合规下,企业打开数据主动权的正确方式?
随着欧盟GDPR、美国CCPA,以及我国《网络安全法》等法规的实施与监管,隐私合规与数据安全治理成为企业当前亟需解决的一大安全任务。具体来说,企业通过技术与管理措施,如何在不影响或少影响原有业务流程的同时去满足合规性?其中,数据匿名化作为一种重要的技术手段,在满足数据统计分析的同时可有效地降低个体隐私泄露风险。且有趣的是,近年来研究发现它具有天然的合规遵循优势。GDPR等法规对赋予用户更多的隐私数据控制权,反过来削减企业的数据控制权与主动权。那么,匿名化技术是否可以帮助企业重新打开数据主动权和控制权这个局面?带着这个疑问,本文将从合规背景、技术算法以及应用与产品三个方面对该技术进行介绍。
绿盟科技研究通讯
2020/10/27
3K0
数据匿名化:隐私合规下,企业打开数据主动权的正确方式?
保护用户PII数据的8项数据匿名化技术
在当今数据驱动的市场中,数据为企业带来了更多的力量和机会。但正所谓“权力越大,责任越大。”随着越来越多的个人信息被组织收集和分析,保护个人隐私和防止滥用或未经授权访问个人数据的需求也随之而来。
FB客服
2023/08/08
9280
保护用户PII数据的8项数据匿名化技术
大数据隐私保护技术之脱敏技术探究
前言 这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解。 介绍 随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了
FB客服
2018/02/09
3.3K0
大数据隐私保护技术之脱敏技术探究
数据脱敏的风险量化评估方案
当前社会信息化高速发展,网络信息共享加速互通,数据呈现出规模大、流传快、类型多以及价值密度低的特点。人们可以很容易地对各类数据实现采集、发布、存储与分析,然而一旦带有敏感信息的数据被攻击者获取将会造成个人隐私的严重泄漏;所以在发布数据前,必须通过适当的隐私保护手段来隐藏敏感信息,从而达到能够发布和分析同时又保障隐私信息安全性的目的。
绿盟科技研究通讯
2021/09/06
2.4K0
数据淘金热时代下的隐私问题何去何从——探讨国内外法规下的匿名化概念
在大数据时代,数据采集和存储变得越来越容易。在政府、互联网、运营商、医疗、银行和电力等各行各业的大数据中,或多或少与个人信息有关。比如手机APP收集用户的个人注册,网页浏览息,购物和GPS位置等信息;运营商收集用户注册、电话账单、GPS以及使用流量等信息;医院会记录患者个人基本信息,以及医疗原始数据和诊断等信息。
绿盟科技研究通讯
2019/12/11
1.2K0
数据淘金热时代下的隐私问题何去何从——探讨国内外法规下的匿名化概念
从隐私到隐私计算
对于个人电子产品而言,例如手机,平板电脑,便携式电脑等等,或多或少,都会涉及到隐私计算,那么什么是隐私计算呢?理解隐私计算,先要澄清“隐私”的概念,那么,什么是隐私呢?进而,明确隐私计算分别与隐私和计算之间的关系,即隐私计算是为了实现个人隐私保护而进行的计算还是在实现了隐私保护的前提下进行的计算?最后,才是隐私计算涉及的技术和方法。
半吊子全栈工匠
2022/12/03
1K0
从隐私到隐私计算
大数据时代,用户的隐私如何守护
本文转载自雷锋网。 雷锋网(公众号:雷锋网)按:本文介绍了学术界和工业界对于用户隐私保护的努力成果,其中主要讲到了k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness 和 ε-differential privacy(差分隐私),并对它们的优缺点进行了分析。 数据 v.s. 隐私 在大数据的时代,数据成为了科学研究的基石。我们在享受着推荐算法、语音识别、图像识别、无人车驾驶等智能的技术带来的便利的同时,数据在背后担任着驱动算法不断优化迭代的角色。在科学研究、产品
iCDO互联网数据官
2018/03/05
3K0
大数据时代,用户的隐私如何守护
鱼和熊掌兼得——隐私保护与价值挖掘之利器
在该系列的第一篇中:《浅析数据安全与隐私保护之法规》,介绍了国内外的数据安全与隐私保护相关法规,如欧盟《GDPR》、美国《CCPA》和中国《网安法》。这些法规保护的个人数据(或个人信息)范畴均十分广泛,且具有严格的约束和规范。在法规指导下,如何更好地满足合规,降低法律风险和隐私泄露风险;同时也能满足业务场景需求。目前存在多种关键技术,场景不同,需求不同,对应的技术也自然不同。本文作为《大数据时代下的数据安全》系列的第二篇:场景技术篇,将介绍四种关键技术:数据脱敏、匿名化和差分隐私和同态加密,并对每一种介绍技术的从场景、需求和技术原理等几个维度进行展开。
绿盟科技研究通讯
2019/12/11
1.4K0
鱼和熊掌兼得——隐私保护与价值挖掘之利器
「图隐私攻击与防御技术」最新2022研究综述
来源:专知本文约7000字,建议阅读14分钟人大最新关于图数据隐私攻击与防御技术综述论文。 摘要 如今,图数据已经被广泛地应用于现实生活与科学研究当中,有巨大的使用和研究价值. 但与此同时,针对图数据的收集与发布中也存在巨大的隐私风险。如何在保护图隐私的同时,发布与收集可用图数据,是目前个人、企业、政府等面临的重大挑战. 本文首先从隐私信息所包含的内容、不同的隐私泄露场景,以及敌手模型三个方 面深入地剖析了图数据在使用中存在的隐私风险,然后重点从攻击和防御两个角度展开介绍. 针对攻击而言,本文分析了当前可
数据派THU
2022/05/12
8390
「图隐私攻击与防御技术」最新2022研究综述
《个人信息保护法》之技术赋能企业合规建设解读
2021年8月20日,中华人民共和国第十三届全国人民代表大会常务委员会第三十次会议正式表决通过《中华人民共和国个人信息保护法》(下面简称《个人信息保护法》)。自2020年10月以来,《个人信息保护法》历经三次审议与修订,并即将于11月1日正式实施。其中,终稿与二审稿相比,有一些删改和完善,具体可参考文章《附下载:《个人信息保护法》终稿与草案的二审稿修订对比》。
绿盟科技研究通讯
2021/09/06
8850
捅破砂锅!这位在AI医疗埋头多年的创业者,说出了这些行业真相
作者 | 明明 编辑 | 鸽子 不是医生,是不是意味着不能从事医疗行业? 答案是否定的,如果你不是一名医生,你还可以是一名码农。 2017年,AI行业飞速发展,其中医疗AI获得巨额融资,却被大家称之为是最难和AI相互融合的行业,那么现在医疗AI发展的现状究竟如何?针对这个问题,营长专访了医疗领域人工智能领军企业Airdoc的创始人张大磊,将本次的专访以故事的形式呈现给大家。 午后,在望京的一个咖啡厅见到了张大磊。 他身穿红色的毛衣,微瘦,带着眼镜,手中端着咖啡杯,一边向我走来,一边说:“不好意思,刚刚在
AI科技大本营
2018/04/27
5460
捅破砂锅!这位在AI医疗埋头多年的创业者,说出了这些行业真相
隐私问题专项(一)| 超范围收集个人信息常见问题及高频场景分析
软件绿色联盟自2021年初,加强了对APP安全隐私方面的检测,旨在帮助开发者更好地发现APP存在的隐私问题,强化开发者保护用户隐私的意识。一年来,已累计检测了上千款APP,推动六百多款APP完成了整改。
软件绿色联盟
2022/04/01
1.7K0
隐私问题专项(一)| 超范围收集个人信息常见问题及高频场景分析
区块链+基因检测可行?不暴露个人信息就能测序基因组!
当生物学研究人员晚上入睡时,他们通常会梦到基因组。你的、我的、以及我们之间“六度分离理论”所涉及的所有人(六度分离理论指“你和任何一个陌生人之间所间隔的人不会超过五个,也就是说,最多通过五个人你就能够认识任何一个陌生人。”)。
区块链大本营
2019/10/10
8000
区块链+基因检测可行?不暴露个人信息就能测序基因组!
Pandas高级数据处理:数据安全与隐私保护
在当今数字化时代,数据的价值不言而喻。无论是企业还是个人,在使用Pandas进行数据分析时,都必须重视数据的安全和隐私保护。本文将由浅入深地介绍Pandas中常见的数据安全与隐私保护问题、常见报错及如何避免或解决,并结合代码案例进行解释。
Jimaks
2025/02/21
1280
密码技术在个人信息合规中的应用与落地
随着信息技术的高速发展,作为保障信息安全的重要手段,密码技术已经逐渐渗透到我们信息生活的方方面面,无论是浏览网页、即时通讯聊天,还是银行转账和智能家居等等,都涉及了密码技术的使用。2021年11月《个人信息保护法》(以下简称《个保法》)正式实施,《个保法》第五十一条明确要求个人信息处理者采取加密等安全技术措施,确保确保个人信息处理活动符合法律、行政法规的规定,并防止未经授权的访问以及个人信息泄露、篡改、丢失。事实上,密码技术除了在个人信息的传输与存储等环节作为安全保障措施外,也是个人信息去标识化/匿名化的有效方式。
FB客服
2022/02/25
1.1K0
密码技术在个人信息合规中的应用与落地
第七章 AI数据质量-1
数据对于AI算法来说是非常重要的,它决定了一个算法模型的好坏,有所谓的“Garbage In Garbage Out”的说法,即“输入的如果是垃圾,那么输出的也将是垃圾”。本章我们将介绍数据如何驱动AI算法模型,数据采集的基本流程,如何对AI数据质量进行评估,如何通过程序合成来快速扩充AI样本数据及其局限性和相关的度量手段,最后我们将介绍如何管理AI样本数据。
bettermanlu
2025/04/15
900
第七章 AI数据质量-1
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析|附代码数据
本报告是对心脏研究的机器学习/数据科学调查分析。更具体地说,我们的目标是在心脏研究的数据集上建立一些预测模型,并建立探索性和建模方法。但什么是心脏研究?(点击文末“阅读原文”获取完整代码数据)
拓端
2022/11/04
7550
报告发布|十种前沿数据安全技术,聚焦企业合规痛点
2020年7月和10月,我国陆续发布两部重磅级的法规草案——《数据安全法(草案)》和《个人信息保护法(草案)》。欧盟于2018 年实施《通用数据保护条例》(GDPR),美国于2020 年实施《加州消费者隐私法案》(CCPA),日本于2020年6月通过修订版《个人信息保护法》。随着全球数据安全法规监管的不断强化,合规性问题不得不纳入企业数据安全建设考虑范围。然而,法规对企业更高的安全要求,这给传统的数据安全防护技术与措施带来了前所未有的挑战。
绿盟科技研究通讯
2021/01/12
1.7K0
去中心化身份(Decentralized ID, DID)研究报告
本文《去中心化身份(DID)研究报告》由 HashKey 与 TokenGazer 共同研究联合发布。读者想要第一时间掌握市场动态以及查看 TokenGazer 往期项目评级报告、深度研究报告、加密货币月报、策略分析、交易所数据等,请登录官方网站:tokengazer.com。
_咯噔_
2020/06/21
5.5K0
推荐阅读
相关推荐
K-匿名隐私保护模型
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档