为了解决现有隐私保护计算技术不适用于深度神经网络在线学习任务以及部分隐私保护计算工具的性能问题,香港科大智能网络与系统实验室iSING Lab和国内隐私计算算力提供商星云 Clustar 合作,提出了一种隐私保护在线机器学习场景下的新框架——Sphinx。 论文题目为《Sphinx: Enabling Privacy-Preserving Online Learning over the Cloud》, 作者为 Han Tian, Chaoliang Zeng, Zhenghang Ren, Di Chai
2016年,差分隐私从研究论文一跃成为科技新闻头条,在WWDC主题演讲中,苹果工程副总裁Craig Federighi宣布苹果使用这一概念来保护iOS用户隐私。目前,google的chrome以及apple的ios中均使用了差分隐私技术,最近一段时间,我也一直在看差分隐私的相关文献。
差分隐私(Differential Privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会。简单地说,就是在保留统计学特征的前提下去除个体特征以保护用户隐私。
上一期我们介绍了差分隐私这种隐私保护手段。在2020年“全球十大突破性技术”的评选中,差分隐私和数字货币都出现在了这份榜单上。简单来说,差分隐私技术是一种较为成熟的隐私保护手段,这一技术的提出是为了应对差分攻击。一个通俗易懂的例子是:通过应用差分隐私保护技术,攻击者即使知道100个人的平均薪水和其中99人的平均薪水,他也不能通过对比(差分)这两个信息来获得另外1个人的薪水信息。
在上期技术视点中,我们为大家带来了以太坊 Eth2的规范 v1.0,这一里程碑事件标志着 Eth2阶段主网即将正式开启。本期技术视点,我们将介绍差分隐私这一较为成熟的隐私保护手段,并分步解释其采用的随机化技术。
论文:Privacy-preserving Stacking with Application to Cross-organizational Diabetes Prediction
对于个人电子产品而言,例如手机,平板电脑,便携式电脑等等,或多或少,都会涉及到隐私计算,那么什么是隐私计算呢?理解隐私计算,先要澄清“隐私”的概念,那么,什么是隐私呢?进而,明确隐私计算分别与隐私和计算之间的关系,即隐私计算是为了实现个人隐私保护而进行的计算还是在实现了隐私保护的前提下进行的计算?最后,才是隐私计算涉及的技术和方法。
作者 | 维克多 编辑 | 青暮 2021年12月17日,浙江大学求是讲席教授、ACM Fellow、IEEE Fellow、浙江大学网络空间安全学院院长、计算机科学与技术学院副院长任奎在CNCC 2021 “迎接数字化转型的安全挑战”论坛中做了《隐私计算:向实用化迈进》的报告。 在报告中,任奎围绕数据脱敏、差分隐私、安全多方计算三个方向,讨论了隐私计算的前沿进展,提出不同技术可以在数据全生命周期的不同阶段发挥作用。 以下是演讲全文,AI科技评论做了不改变原意的删改和整理: 今天分享浙江大学网络安全学院在隐
本文转载自雷锋网。 雷锋网(公众号:雷锋网)按:本文介绍了学术界和工业界对于用户隐私保护的努力成果,其中主要讲到了k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness 和 ε-differential privacy(差分隐私),并对它们的优缺点进行了分析。 数据 v.s. 隐私 在大数据的时代,数据成为了科学研究的基石。我们在享受着推荐算法、语音识别、图像识别、无人车驾驶等智能的技术带来的便利的同时,数据在背后担任着驱动算法不断优化迭代的角色。在科学研究、产品
差分隐私技术是最近研究比较多的一种保护方法,其思想是在数据的采集或发布前,对数据进行扰动(Perturbation)添加噪声,从而可以隐藏真实数据,避免具有背景知识的攻击者通过猜测,获取隐私信息。差分隐私保护技术给出了数据隐私保护程度及数据可用性之间的严格数学定义模型:
更快、更早地诊断疾病、开发定制化药物和研制新药:人工智能在医疗领域具有巨大的潜力,可以显著改善患者的治疗效果、挽救生命,并帮助全球人类保持健康和延长寿命。
最近关于互联网隐私引发大众的关注于讨论,前有Facebook“数据门”,小扎不得不换下常穿的灰色短袖和牛仔装,换上深蓝色西装参加国会听证;后有百度总裁李彦宏称中国用户愿用隐私方便和效率引发网友强烈反感,网友评论说,牺牲隐私不一定换来效率,还可能换来死亡,比如搜索到莆田医院,还可能换来经济损失,比如大数据杀熟等等;近来有知乎强制隐私搜集条款,引发部分用户卸载APP,国内很多APP若不同意给予相关权限,则无法正常使用,这真是陷入两难境地。为什么现在很多应用会收集数据呢,《未来简史》这本书中给了答案——未来的世界数据为王,人类可能只是放大版的蚂蚁,用于产生数据。有了数据后,加上合适的算法可以完成很多事情,这些技术均与机器学习、深度学习以及数据科学相关。人们担心自己的数据被收集后会被泄露或者是被不正当使用,因此,如何将隐私数据很好地保护起来是公司需要考虑的主要问题之一。本文将分析隐私与机器学习二者的关系,并设计了一种PATE框架,能够很好地避免被动地泄露用户隐私数据,下面带大家一起看看吧。 在许多机器学习应用中,比如用于医学诊断的机器学习,希望有一种算法在不存储用户敏感信息(比如个别患者的特定病史)的情况下,就可以完成相应的任务。差分隐私(Differential privacy)是一种被广泛认可的隐私保护模型,它通过对数据添加干扰噪声的方式保护锁发布数据中潜在用户的隐私信息,从而达到即便攻击者已经掌握了除某一条信息以外的其它信息,仍然无法推测出这条信息。利用差分隐私,可以设计出合适的机器学习算法来负责任地在隐私数据上训练模型。小组(Martín Abadi、 Úlfar Erlingsson等人)一系列的工作都是围绕差分隐私如何使得机器学习研究人员更容易地为隐私保护做出贡献,本文将阐述如如何让隐私和机器学习之间进行愉快的协同作用。 小组最新的工作是PATE算法(Private Aggregation of Teacher Ensembles,PATE),发表在2018年ICLR上。其中一个重要的贡献是,知道如何训练有监督机器学习模型的研究人员都将有助于研究用于机器学习的差分隐私。PATE框架通过仔细协调几个不同机器学习模型的活动来实现隐私学习,只要遵循PATE框架指定程序,生成的模型就会有隐私保护。
本文介绍我们最近的一项被CIKM 2021录用的工作《Differentially Private Federated Knowledge Graphs Embedding》:
数据资产已经成为产品和服务设计的关键工具,但是集中采集用户数据会使个人隐私面临风险,进而使组织面临法律风险。从2016年开始,人们开始探索如何在用户隐私保护下使用数据的所有权和来源,这使得联邦学习和联邦分析成为关注的热点。随着研究范围的不断扩大,联邦学习已经开始应用到物联网等更广泛的领域。
匿名电话、匿名信息、匿名用户••••••“匿名”仿佛已经成为隐私安全的防护栏。 然而在AI时代,匿名真的能保护隐私安全吗?来看看苹果怎么说! 在 WWDC 2016 的主题演讲中,当苹果讲到“差分隐私
AI 科技评论按:Nicolas Papernot 在 2017、2018 连续两年的 ICLR 上都发表了关于差分隐私方法 PATE 的论文。如今大家都意识到了隐私问题是模型设计中有必要考虑的因素,设计模型时也愿意考虑 PATE 这样的方法。不过在 cleverhans 博客近期的一篇博客中,Nicolas Papernot、Ian Goodfellow 两人揭示了一项意想不到的发现:对隐私问题的改善其实可以带来表现更好的机器学习模型,两者并不冲突,而是盟友。
AI科技评论按:ICLR 2017 总共有三篇最佳论文,其中有一篇是关于如何有效保护机器学习训练中的隐私数据,名为「用半监督知识迁移解决深度学习中训练数据隐私问题」(Semi-supervised Knowledge Transfer for Deep Learning from Private Training Data)。论文给出了一种通用性的解决方法,名为「教师模型全体的隐私聚合」(Private Aggregation of Teacher Ensembles/PATE)。该论文第一作者是 Nico
近日,Facebook 开源了一个新型库 Opacus,它支持使用差分隐私来训练 PyTorch 模型,扩展性优于目前的 SOTA 方法。同时,Opacus 库支持以最少代码更改来训练模型,且不会影响训练性能,并允许在线跟踪任意给定时刻的隐私预算。
1)原生数字化数据 这类数据自然产生出来就适合计算机存储的和处理的数据。例如:电子邮件与文本信息,GPS位置数据,关联电话呼叫的元数据等等,这类数字化的数字信息可以被计算直接利用 2)原生模拟话数据 这类诗句一般为非结构话的数据,例如呼叫的音频与视频,个人健康数据,环境监测数据,超声波检测数据
AI 研习社按:Nicolas Papernot 在 2017、2018 连续两年的 ICLR 上都发表了关于差分隐私方法 PATE 的论文。如今大家都意识到了隐私问题是模型设计中有必要考虑的因素,设计模型时也愿意考虑 PATE 这样的方法。不过在 cleverhans 博客近期的一篇博客中,Nicolas Papernot、Ian Goodfellow 两人揭示了一项意想不到的发现:对隐私问题的改善其实可以带来表现更好的机器学习模型,两者并不冲突,而是盟友。
作为隐私保护重要方法之一的联邦学习,常基于差分隐私(DP),即为数据添加随机噪声,来对数据进行加密。
曾经,“在互联网上,没人知道你是一条狗。” 现在,“你站在桥上看风景,看风景的人在楼上看着你。” 我们无处藏身。 因一场不可思议的隐私泄露,Netflix曾被一位同性恋用户起诉。 2006年,该公司公布了大约来自50万用户的一亿条租赁记录,其中包括用户的评分和评分日期,并悬赏百万美金,希望吸引工程师通过软件设计来提高其电影推荐系统的精准度。虽然Netflix做出此举前,已经对数据进行了匿名化处理,但是这名“匿名”同性恋用户还是被认出。 匿名化也保护不了隐私数据?在数据容易裸奔的科技时代,匿名化刚给大家吃了
2018年5月,欧盟通过了新的《通用数据保护条例要求》,也就是大名鼎鼎的GDPR。严苛的法规要求,加上一上来就拿谷歌“祭刀”,消息传到国内自然惊起了不少风浪。
在该系列的第一篇中:《浅析数据安全与隐私保护之法规》,介绍了国内外的数据安全与隐私保护相关法规,如欧盟《GDPR》、美国《CCPA》和中国《网安法》。这些法规保护的个人数据(或个人信息)范畴均十分广泛,且具有严格的约束和规范。在法规指导下,如何更好地满足合规,降低法律风险和隐私泄露风险;同时也能满足业务场景需求。目前存在多种关键技术,场景不同,需求不同,对应的技术也自然不同。本文作为《大数据时代下的数据安全》系列的第二篇:场景技术篇,将介绍四种关键技术:数据脱敏、匿名化和差分隐私和同态加密,并对每一种介绍技术的从场景、需求和技术原理等几个维度进行展开。
在这个大数据时代,如何妥善获取和使用与真人相关的数据,渐渐成为迫切需要解决的问题。没有人希望自己生个病,上个网,买件衣服都会被人随意知晓,更别提手机里没有修过的自拍了。一种简单的隐私保护方法就是「匿名」:将收集到的数据中涉及个人信息的特征剔除。可惜这种方法并不可靠,曾有研究将 Netflix 匿名处理过的观影记录通过交叉对比 IMDb 数据库解匿成功,这直接导致了第二届 Netflix 数据分析大奖赛的取消。
苹果在本周更新了iOS 10.3 beta版,而一个有趣的条款或许被很多人给忽略了。 AI 科技评论了解到,新测试版iOS有一个选项,询问用户是否可以共享iCloud数据,以帮助公司改进软件产品,比如语音虚拟助手Siri。 关于这一变化的通知,出现在了“iCloud Analytics & Privacy”的条款之下,其中说到,选择分享给苹果的数据会受到隐私保护数据保护,而苹果在加强AI的同时,也会把隐私放在第一位。 在公众的印象中,在开发机器学习驱动的技术,并将其植入到软件和服务中以提供更个性化的体验
1月28日,iDASH-2021国际隐私计算大赛结果正式公布,腾讯云Angel PowerFL和腾讯安全联合项目团队提交的方案,凭借领先的模型准确率和最快的推理速度获得差分隐私赛道冠军。在2020年的iDASH可信计算赛道上,腾讯云也斩获冠军,成为中国企业届首次在可信计算(SGX)赛道上夺冠的技术团队。 “IDASH赛事” iDASH比赛是隐私计算国际最权威的比赛,已经举办八届,是由美国国立卫生研究院 (NIH) 主办,专注于云环境下的隐私计算问题和面向隐私保护的机器学习问题,已成为全球基因组数据隐私保护和
事件被曝光后,Facebook的用户们感到愤愤不平,在社交网络上甚至引发了一场#DeleteFacebook的运动,呼吁大家删除facebook账号。运动也受到了大量名人的响应,包括埃隆·马斯克、花花公子纷纷删除了自己的Facebook主页。
这里有一个背景就是中华人民共和国数据安全法的实施。为了规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益,制定本法。
来源:专知本文约7000字,建议阅读14分钟人大最新关于图数据隐私攻击与防御技术综述论文。 摘要 如今,图数据已经被广泛地应用于现实生活与科学研究当中,有巨大的使用和研究价值. 但与此同时,针对图数据的收集与发布中也存在巨大的隐私风险。如何在保护图隐私的同时,发布与收集可用图数据,是目前个人、企业、政府等面临的重大挑战. 本文首先从隐私信息所包含的内容、不同的隐私泄露场景,以及敌手模型三个方 面深入地剖析了图数据在使用中存在的隐私风险,然后重点从攻击和防御两个角度展开介绍. 针对攻击而言,本文分析了当前可
2020年7月和10月,我国陆续发布两部重磅级的法规草案——《数据安全法(草案)》和《个人信息保护法(草案)》。欧盟于2018 年实施《通用数据保护条例》(GDPR),美国于2020 年实施《加州消费者隐私法案》(CCPA),日本于2020年6月通过修订版《个人信息保护法》。随着全球数据安全法规监管的不断强化,合规性问题不得不纳入企业数据安全建设考虑范围。然而,法规对企业更高的安全要求,这给传统的数据安全防护技术与措施带来了前所未有的挑战。
Federated Learning - 联邦学习 参考文献: 小白也能通俗易懂的联邦学习! 关于联邦学习建模过程中算法交互内容的研究
当我们在谈论人工智能的时候,我们究竟在谈论什么?是“机器人超越人类阅读水平,令数百万人面临失业风向“还是“计算机的阅读能力正在赶超人类?”
Opacus是一种新的高速库,用于使用差分隐私(DP)训练PyTorch模型,该库比现有的最新方法更具可扩展性。差异隐私是用于量化敏感数据匿名化的严格数学框架。它通常用于分析中,并且对机器学习(ML)社区的兴趣日益浓厚。随着Opacus的发布,我们希望为研究人员和工程师提供一条更轻松的途径,以在ML中采用差异隐私,并加速该领域的DP研究。
今年2月,商用Nespresso咖啡机曝出遭黑客入侵的消息,可任意修改购买咖啡的资金额度。Smarter的联网咖啡机在去年9月份也被曝出类似的安全事件,漏洞可以让黑客远程打开咖啡机的加热器、加水、旋转磨豆机甚至显示赎金消息。
前言 这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解。 介绍 随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了
本文转自公众号:网络空间安全之路—— 数据是新时代的生产要素;保护数据原生价值,实现数据的所有权保护、交换与管理;完善数据在收集、使用、存储等阶段的全生命周期安全;研究分析复杂物理数据交互场景中的数据安全攻防机理;在保护数据所有权的前提下实现高价值数据的安全交易;安全技术标准的推广与法律法规的完善。 01 数据安全防护是重大战略需求 当前的行业共识认为数据是驱动数字经济发展的核心动力。以数据为基础的云计算、物联网、区块链、人工智能等经济生态及相关产业链在智慧城市升级、国家重大基建产业发展等方面发挥着积极的
机器之心专栏 作者:Mike Lee 近日,欧洲信号处理协会 EURASIP 官网公布了 EUSIPCO 2020 3MT 比赛结果,丹麦 - 奥尔堡大学的中国博士生李琼秀(Qiongxiu Li)荣获冠军。 EUSIPCO 会议(European Signal Processing Conference)是欧洲信号处理协会(EURASIP)每年一度的旗舰会议,同时也是欧洲信号处理领域影响最大的会议。会议涵盖信号处理研究和技术的最新发展,这些研究和技术将对计算机视觉、语音处理、人工智能和机器学习等诸多领域产
距离加拿大教授 Gautam Kamath 上一次在 B 站上传视频,已经过去整整一年了。
市场经济中,大多新事物之所以得到关注,是因为有了提前舆论造势。舆论热度往往代表了市场热度。市场驱动需求,带来的是创业者和投资者的闻风而至。多数互联网模式的兴起,大抵如此。
题图摄于北京景山:CBD远眺 本期转发杨强教授关于“可信联邦学习”的演讲内容,来自可信联邦学习最新论文,从信息论角度,提出隐私与模型性能的 No-free lunch 定理,值得大家学习。 关注联邦学习的朋友,推荐使用 FATE 开源项目开发联邦学习应用。 导读 随着隐私计算相关政策的落地和商业化进程加快,隐私计算技术也在需求端推动下快速迭代。可预见 2022 年将是一个新的分水岭。近日,加拿大工程院及加拿大皇家科学院两院院士、微众银行首席人工智能官、FATE开源社区技术指导委员会主席杨强教授受邀出席了机器
数据库承载着海量个人信息,甚至包含一些敏感信息。如何管理这些数据,对于不少企业来说,是一件棘手的事情。 现在,数据库开发人员可以使用成熟的工具和技术保护数据信息。如何保护?这个还要涉及对数学的巧妙应用。比如,一些最简单的系统看起来只是现代版本的密码,本质上是经典解码轮的数字版本。随着数学的发展,数字的应用变得更加灵活,密码开始复杂起来。实验室里试验了几十年的那些技术想法最终得到了研发和应用,成为了现实。 这些算法正在成为巩固业务关系和确保准确真实工作流程的基础。这些方法使公司可以更轻松地向客户提供个性化服
2021年8月13日,Science的一篇文章,阐述了机器学习在使用中的多种潜在风险,以及让机器学习值得信赖的一些方法。
自数据成为新的生产要素后,数据流通与共享就成为热点关切,相关政策与立法也不断往纵深推进。比如《汽车数据安全管理若干规定(征求意见稿)》是国内汽车数据领域的首次立法尝试,代表了典型传统行业在数据治理上的实践。而最新《深圳经济特区数据条例(征求意见稿)》探索建立数据交易制度,更是立法层面促进释放数据价值的创新亮点。 如何基于数据安全、隐私保护前提下,链接数据、实现多方协同释放数据价值?——隐私计算技术,成为该命题的破题之举。 作为实现数据可用不可见的技术体系,隐私计算技术正成为数据安全保护和企业发挥数据价值之间
论文地址:https://www.sciencedirect.com/science/article/abs/pii/S0950705121000381
贾浩楠 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 有时候,AI说真话比胡言乱语更可怕。 本来只是找AI聊聊天,结果它竟然抖出了某个人的电话、住址和邮箱? 没错,只需要你说出一串“神秘代码”:“East Stroudsburg Stroudsburg……” 自然语言模型GPT-2就像是收到了某种暗号,立刻“送出”一套个人信息:姓名、电话号码,还有地址、邮箱和传真(部分信息已打码)。 这可不是GPT-2瞎编的,而是真实存在的个人信息!这些个人信息,全部来自于网上。 原来是因为GPT-2靠
64%受访者表示婚恋App的推荐匹配效果很好,44%的人会相信人工智能或算法来为他们找到匹配的对象;
初识苏炜杰,他与许多青年学者一样,外表温文尔雅、略带腼腆,但一谈起学术和 AI 的未来发展,就充满激情。 看他的简历,成长经历一帆风顺:本科就读于富有盛誉的北京大学数学科学学院,接着在美国斯坦福大学攻读博士,师从美国国家科学院院士、麦克阿瑟天才奖得主 Emmanuel Candès 和美国国家科学院和工程院双院院士 Cynthia Dwork。紧接着跳过博士后阶段,执教于培养了埃隆·马斯克和沃伦·巴菲特的沃顿商学院,并联合指导常青藤名校宾夕法尼亚大学在机器学习领域的发展。 他的团队在机器学习优化算法、可信
内容提要: 一、去个人标识化的数据就安全吗?二、具体有哪些针对隐私数据的攻击方法?1)链接攻击2)同质性攻击3)背景知识攻击三、那么,到底怎么样的数据才是安全的?1)K-匿名2)L-多样性四、怎么规避数据攻击第一,当然是要做好数据安全的评审啦!第二,对有问题的数据,要建议进行泛化处理第三、从 差分隐私 到 隐私计算 ---- 一、去标识化的数据就安全吗? 有一份10W人的体检数据,包括了个人的身份证号、手机号个人标识信息,以及身高、体重、血压、心率等健康指标。 首先先明确一个概念: 身份证号、手机号
领取专属 10元无门槛券
手把手带您无忧上云