Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >差分隐私技术

差分隐私技术

作者头像
Defu Li
发布于 2019-01-23 07:42:17
发布于 2019-01-23 07:42:17
2.9K0
举报
文章被收录于专栏:斜述视角斜述视角

2016年,差分隐私从研究论文一跃成为科技新闻头条,在WWDC主题演讲中,苹果工程副总裁Craig Federighi宣布苹果使用这一概念来保护iOS用户隐私。目前,google的chrome以及apple的ios中均使用了差分隐私技术,最近一段时间,我也一直在看差分隐私的相关文献。

差分隐私(differential privacy)是一种隐私保护的技术。应用的场景如下:

数据中心拥有许多病人的隐私数据,这些数据存储数据库中。比如第一条记录是“张三,男,18岁,患有精神病”;第二条记录是“李四,男,22岁,患有前列腺炎”;第三条记录是“王五,女,31岁,患有肥胖症”等等。数据是以这样一条条记录的形式存储在数据库中。

此时,该数据中心为了响应国家大数据的号召,想要公布这些巨量的数据,以便让相关领域的专家对数据进行分析和挖掘,找出有价值的信息和规律。但是由于公民的个人隐私问题,数据中心不能直接公布原始数据,需要对这些数据进行隐私保护处理,隐私保护处理的方法使用的是差分隐私技术。

经过差分隐私处理后,若再对该数据集进行查询,则可以有效保护个人隐私。比如查询该数据集中前99个人性别为“男”的数量以及前100个人性别为“男”的数量,如果没有进行差分隐私处理,攻击者可以很轻松的知道第100个人具体的性别。但是经过差分隐私处理后,两次查询得到的结果都不是准确的,比如第一次得到结果为55,第二次得到结果为54,攻击者没有办法知道具体是多少。

差分隐私技术的主要原理并不复杂,就是向原始数据中,添加符合拉普拉斯分布的噪声,这样原始数据中就多了一些噪声数据。再将添加噪声后的数据公布给专家,就可以有效的保护个人隐私。上面写的只是差分隐私的大概描述,下面我将对差分隐私的细节进行描述,并且给出严格的数学定义。

差分隐私

有两个数据集分别为D和D',D和D'之间只有一条记录是不同的,其他记录都是相同的。数学描述为|D△D'|=1。使用差分隐私技术,即向D和D'中添加符合拉普拉斯分布的噪声(还有其它噪声,拉普拉斯最为常用)。然后对D和D'两个数据集进行查询操作,比如操作1为查询D中99个用户的记录,操作2为查询D'中100个用户的记录,如果操作1返回的结果和操作2返回的结果一模一样(一模一样是理想状态,实际上只要接近就好,具体实施的时候会有一个隐私预算,只要低于某个阈值就ok),那么就是完美的保护了用户隐私。

这句话的意思其实是说,既然查询99个人的记录和查询100个人的记录返回的结果一致,那么第100个人就很乐意的奉献自己的隐私数据,反正有我没我攻击者查询得到的结果都是一样的。这里还需要注意的是,一般查询返回的结果都是统计查询,比如查询99个人的年龄总和,查询100个人的年龄总和等。如果不进行差分隐私保护的,那么攻击者只要对两次查询做减法,就知道第100个人的具体年龄,这就是差分攻击。

最后,需要注意的是,由于在原数据集中加入了噪声,所以公布的数据集是不准确的,具体不准确的程度要看加入多少噪声。但是这并不影响对数据集进行统计分析,还是可以统计分析出数据集的总体趋势的信息,得到数据集有价值的规律。

数学描述 设有两个数据集分别为D和D',将D和D'中共有的记录从D和D'中删除,然后将D和D'合并所形成的新的数据集成为D和D'的对称差,记做D△D'。|D△D'|表示D△D'中记录的数量。 现有两个数据集D和D',它们满足|D△D'|=1,M为一随机化算法,rang(M)表示算法M的所有可能的输出构成的集合,S是rang(M)的任一子集。如果算法M满足,

则该算法满足ε-差分隐私,其中P为概率。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 斜述视角 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
差分隐私的作用和应用举例
差分隐私是为了解决差分攻击而引入的解决方案,它可以有效防止研究人员从查询接口中找出自然人的个人隐私数据。其原理是在原始的查询结果(数值或离散型数值)中添加干扰数据(即噪声)后,再返回给第三方研究机构;加入干扰后,可以在不影响统计分析的前提下,无法定位到自然人,从而防止个人隐私数据泄露。
zhangjiqun
2024/12/13
4750
差分隐私的作用和应用举例
差分隐私保护:从入门到脱坑
差分隐私(Differential Privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。简单地说,就是在保留统计学特征的前提下去除个体特征以保护用户隐私。
FB客服
2018/09/21
10.8K0
差分隐私保护:从入门到脱坑
大数据时代,用户的隐私如何守护
本文转载自雷锋网。 雷锋网(公众号:雷锋网)按:本文介绍了学术界和工业界对于用户隐私保护的努力成果,其中主要讲到了k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness 和 ε-differential privacy(差分隐私),并对它们的优缺点进行了分析。 数据 v.s. 隐私 在大数据的时代,数据成为了科学研究的基石。我们在享受着推荐算法、语音识别、图像识别、无人车驾驶等智能的技术带来的便利的同时,数据在背后担任着驱动算法不断优化迭代的角色。在科学研究、产品
iCDO互联网数据官
2018/03/05
3K0
大数据时代,用户的隐私如何守护
差分隐私(Differential Privacy)
差分隐私技术是最近研究比较多的一种保护方法,其思想是在数据的采集或发布前,对数据进行扰动(Perturbation)添加噪声,从而可以隐藏真实数据,避免具有背景知识的攻击者通过猜测,获取隐私信息。差分隐私保护技术给出了数据隐私保护程度及数据可用性之间的严格数学定义模型:
_咯噔_
2020/08/11
7K0
隐私与机器学习,二者可以兼得吗?——隐私保护模型PATE给出了答案
最近关于互联网隐私引发大众的关注于讨论,前有Facebook“数据门”,小扎不得不换下常穿的灰色短袖和牛仔装,换上深蓝色西装参加国会听证;后有百度总裁李彦宏称中国用户愿用隐私方便和效率引发网友强烈反感,网友评论说,牺牲隐私不一定换来效率,还可能换来死亡,比如搜索到莆田医院,还可能换来经济损失,比如大数据杀熟等等;近来有知乎强制隐私搜集条款,引发部分用户卸载APP,国内很多APP若不同意给予相关权限,则无法正常使用,这真是陷入两难境地。为什么现在很多应用会收集数据呢,《未来简史》这本书中给了答案——未来的世界数据为王,人类可能只是放大版的蚂蚁,用于产生数据。有了数据后,加上合适的算法可以完成很多事情,这些技术均与机器学习、深度学习以及数据科学相关。人们担心自己的数据被收集后会被泄露或者是被不正当使用,因此,如何将隐私数据很好地保护起来是公司需要考虑的主要问题之一。本文将分析隐私与机器学习二者的关系,并设计了一种PATE框架,能够很好地避免被动地泄露用户隐私数据,下面带大家一起看看吧。 在许多机器学习应用中,比如用于医学诊断的机器学习,希望有一种算法在不存储用户敏感信息(比如个别患者的特定病史)的情况下,就可以完成相应的任务。差分隐私(Differential privacy)是一种被广泛认可的隐私保护模型,它通过对数据添加干扰噪声的方式保护锁发布数据中潜在用户的隐私信息,从而达到即便攻击者已经掌握了除某一条信息以外的其它信息,仍然无法推测出这条信息。利用差分隐私,可以设计出合适的机器学习算法来负责任地在隐私数据上训练模型。小组(Martín Abadi、 Úlfar Erlingsson等人)一系列的工作都是围绕差分隐私如何使得机器学习研究人员更容易地为隐私保护做出贡献,本文将阐述如如何让隐私和机器学习之间进行愉快的协同作用。 小组最新的工作是PATE算法(Private Aggregation of Teacher Ensembles,PATE),发表在2018年ICLR上。其中一个重要的贡献是,知道如何训练有监督机器学习模型的研究人员都将有助于研究用于机器学习的差分隐私。PATE框架通过仔细协调几个不同机器学习模型的活动来实现隐私学习,只要遵循PATE框架指定程序,生成的模型就会有隐私保护。
用户3578099
2019/08/16
3.4K0
大数据的隐私与安全:你的一举一动,都在“裸奔”?
在这个数据为王的时代,我们的一举一动都可能成为某个大数据模型的“养料”。你以为只有你自己知道你爱点什么外卖、凌晨三点搜过什么奇怪的问题?其实,这些信息早已成为大数据世界的“透明人”!但问题来了:数据安全和隐私保护到底做得到底有多好?
Echo_Wish
2025/02/15
1890
大数据的隐私与安全:你的一举一动,都在“裸奔”?
真是祸从GPT-2口出,和AI聊会天,把别人隐私都给套出来了
贾浩楠 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 有时候,AI说真话比胡言乱语更可怕。 本来只是找AI聊聊天,结果它竟然抖出了某个人的电话、住址和邮箱? 没错,只需要你说出一串“神秘代码”:“East Stroudsburg Stroudsburg……” 自然语言模型GPT-2就像是收到了某种暗号,立刻“送出”一套个人信息:姓名、电话号码,还有地址、邮箱和传真(部分信息已打码)。 这可不是GPT-2瞎编的,而是真实存在的个人信息!这些个人信息,全部来自于网上。 原来是因为GPT-2靠
量子位
2023/03/10
2890
真是祸从GPT-2口出,和AI聊会天,把别人隐私都给套出来了
意想不到的盟友:改善隐私问题可以带来表现更好的机器学习模型
AI 研习社按:Nicolas Papernot 在 2017、2018 连续两年的 ICLR 上都发表了关于差分隐私方法 PATE 的论文。如今大家都意识到了隐私问题是模型设计中有必要考虑的因素,设计模型时也愿意考虑 PATE 这样的方法。不过在 cleverhans 博客近期的一篇博客中,Nicolas Papernot、Ian Goodfellow 两人揭示了一项意想不到的发现:对隐私问题的改善其实可以带来表现更好的机器学习模型,两者并不冲突,而是盟友。
AI研习社
2018/07/26
7270
意想不到的盟友:改善隐私问题可以带来表现更好的机器学习模型
推荐系统中的隐私保护与安全问题
随着互联网的发展,推荐系统已经成为各种平台提升用户体验和增加业务收入的核心工具。从电商平台到社交媒体,推荐系统通过分析用户的行为和偏好,提供个性化的内容和商品推荐。然而,随着用户数据的大量收集与使用,隐私保护与安全问题逐渐成为人们关注的焦点。
数字扫地僧
2024/08/14
3710
保护数据,构建信任:联邦学习与差分隐私在AI训练中的实践
文章链接:https://cloud.tencent.com/developer/article/2471407
Swift社区
2024/12/02
4190
保护数据,构建信任:联邦学习与差分隐私在AI训练中的实践
本体技术视点 | 差分隐私这种隐私保护手段,为何获得了技术巨头的青睐?(上)
在上期技术视点中,我们为大家带来了以太坊 Eth2的规范 v1.0,这一里程碑事件标志着 Eth2阶段主网即将正式开启。本期技术视点,我们将介绍差分隐私这一较为成熟的隐私保护手段,并分步解释其采用的随机化技术。
本体Ontology
2020/11/24
8940
ICLR-17最佳论文作者Nicolas Papernot现场演讲:如何用PATE框架有效保护隐私训练数据?(附视频)
AI科技评论按:ICLR 2017 总共有三篇最佳论文,其中有一篇是关于如何有效保护机器学习训练中的隐私数据,名为「用半监督知识迁移解决深度学习中训练数据隐私问题」(Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data)。论文给出了一种通用性的解决方法,名为「教师模型全体的隐私聚合」(Private Aggregation of Teacher Ensembles/PATE)。该论文第一作者是 Nico
AI科技评论
2018/03/12
1.7K0
ICLR-17最佳论文作者Nicolas Papernot现场演讲:如何用PATE框架有效保护隐私训练数据?(附视频)
保护用户PII数据的8项数据匿名化技术
在当今数据驱动的市场中,数据为企业带来了更多的力量和机会。但正所谓“权力越大,责任越大。”随着越来越多的个人信息被组织收集和分析,保护个人隐私和防止滥用或未经授权访问个人数据的需求也随之而来。
FB客服
2023/08/08
9700
保护用户PII数据的8项数据匿名化技术
FKGE:合格的知识图谱嵌入已经学会保护隐私啦!
本文介绍我们最近的一项被CIKM 2021录用的工作《Differentially Private Federated Knowledge Graphs Embedding》:
NewBeeNLP
2021/08/20
8640
FKGE:合格的知识图谱嵌入已经学会保护隐私啦!
KDD 2020最佳学生论文奖解读!杜克大学陈怡然组获奖
第 26 届 ACM SIGKDD 知识发现和数据挖掘会议(KDD 2020)于近日公布了最佳论文奖、最佳学生论文奖等多个奖项。此外,汤继良、盛胜利、唐杰等华人学者在本届 SIGKDD 大会上也荣获了包含新星奖、时间检验研究奖、时间检验应用科学奖在内的三项大奖。
AI科技评论
2020/09/14
4960
KDD 2020最佳学生论文奖解读!杜克大学陈怡然组获奖
鱼和熊掌兼得——隐私保护与价值挖掘之利器
在该系列的第一篇中:《浅析数据安全与隐私保护之法规》,介绍了国内外的数据安全与隐私保护相关法规,如欧盟《GDPR》、美国《CCPA》和中国《网安法》。这些法规保护的个人数据(或个人信息)范畴均十分广泛,且具有严格的约束和规范。在法规指导下,如何更好地满足合规,降低法律风险和隐私泄露风险;同时也能满足业务场景需求。目前存在多种关键技术,场景不同,需求不同,对应的技术也自然不同。本文作为《大数据时代下的数据安全》系列的第二篇:场景技术篇,将介绍四种关键技术:数据脱敏、匿名化和差分隐私和同态加密,并对每一种介绍技术的从场景、需求和技术原理等几个维度进行展开。
绿盟科技研究通讯
2019/12/11
1.4K0
鱼和熊掌兼得——隐私保护与价值挖掘之利器
隐私保护之殇:数据匿名也有“bug”?
曾经,“在互联网上,没人知道你是一条狗。” 现在,“你站在桥上看风景,看风景的人在楼上看着你。” 我们无处藏身。 因一场不可思议的隐私泄露,Netflix曾被一位同性恋用户起诉。 2006年,该公司公布了大约来自50万用户的一亿条租赁记录,其中包括用户的评分和评分日期,并悬赏百万美金,希望吸引工程师通过软件设计来提高其电影推荐系统的精准度。虽然Netflix做出此举前,已经对数据进行了匿名化处理,但是这名“匿名”同性恋用户还是被认出。 匿名化也保护不了隐私数据?在数据容易裸奔的科技时代,匿名化刚给大家吃了
FB客服
2023/04/26
4090
隐私保护之殇:数据匿名也有“bug”?
Pandas高级数据处理:数据安全与隐私保护
在当今数字化时代,数据的价值不言而喻。无论是企业还是个人,在使用Pandas进行数据分析时,都必须重视数据的安全和隐私保护。本文将由浅入深地介绍Pandas中常见的数据安全与隐私保护问题、常见报错及如何避免或解决,并结合代码案例进行解释。
Jimaks
2025/02/21
2280
大数据隐私保护技术之脱敏技术探究
前言 这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解。 介绍 随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了
FB客服
2018/02/09
3.4K0
大数据隐私保护技术之脱敏技术探究
大数据下的隐私攻防02:身份证号+手机号如何脱敏才有效?
在这样的背景下,全球掀起了监管不断强化的数据安全的立法热潮。欧盟的GeneralData Protection Regulation (GDPR);美国的CaliforniaConsumer Privacy Act(CCPA);我国已实施的基础性法规《网络安全法》,其中一个章节单独对个人信息与数据安全给出了诸多原则性的规定与约束,且两部专门的法律《数据安全法》、《个人信息保护法》在加快立法与制定中。(《浅析数据安全与隐私保护之法规》)
绿盟科技研究通讯
2020/06/01
20.1K0
大数据下的隐私攻防02:身份证号+手机号如何脱敏才有效?
推荐阅读
相关推荐
差分隐私的作用和应用举例
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档