首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >矩阵元算法科学家谢翔: Rosetta如何连接隐私计算与AI?

矩阵元算法科学家谢翔: Rosetta如何连接隐私计算与AI?

作者头像
量子位
发布于 2020-08-12 07:26:14
发布于 2020-08-12 07:26:14
7060
举报
文章被收录于专栏:量子位量子位
允风 发自 凹非寺 量子位 编辑 | 公众号 QbitAI

大家好,我是谢翔,来自矩阵元。今天很高兴能够与大家分享矩阵元最近的一些研究成果。主要的方向是隐私计算,以及基于密码学的隐私开源框架—Rosetta

隐私计算时代来临?

目前数据面临着一些挑战。随着数字化的发展,数据量指数级增加,一些核心的、关键的数据保护做得远远不够。目前来看,随着数据的生产要素化,不论国内国外对整个数据相关方向的关注程度越来越高,当然其中也有越来越多的挑战。而众多挑战之中我们认为其中最关键的一点就是数据隐私

从AI的角度来看,AI需要用数据来“喂”,只有通过足够多的数据或多样化的数据,才能训练出一个相对较好的模型使用。所以随着数据量的增大、数据多样化的增加,以及随着数据隐私的关注程度越来越高,AI面临着一个所谓的“窘境”——从AI角度来看,数据的多样化程度越高,对于整个模型的训练更有好处,模型精度也会相应提高。

所以这给AI带来了一系列问题。如何能够在保护数据隐私的前提下,把各不同源、不同企业之间的数据能够融合运用?在目前传统的技术方法里很难解决这个问题,所以成为了AI可能面临的一大痛点。因此也引出了“隐私计算”的概念。

关于隐私计算,简单来说就是保证数据在使用和融合过程中,保护隐私的综合性技术,而不是简单的一项技术。隐私计算大致分为三类:

第一是密码学,第二是联邦学习(Federated Learning),是偏机器学习的技术;第三是可信执行环境(TEE),是硬件安全的技术。当然技术没有绝对的好坏之分,每个技术都有它的优势和劣势,所以在很多的综合性解决方案中,很多技术都是融合在一起使用的。

密码学简单来说是研究各类不同情况下,如何保护数据隐私的一类学科。最主要的特点是:所有密码学的方向,在涉及算法、方案的时候,要先去定义一个安全模型,要定义什么样才是安全。之后在这个定义之下,会通过一些数学的方法技巧去证明这个方案是满足安全定义的,所以它相对来说具有完整的数学理论基础的密码理论。当然它的优势是,密码学考虑的是一个非常广泛的场景。所以它能够更好的适合或适配不同的场景。在某些场景下,能够做到比较高效。

当然密码学也有瓶颈,在部分场景里性能、计算时间、通讯复杂度存在一定的瓶颈。当然更大的瓶颈在于,给没有密码学背景的人解释密码学原理,是一件难于上青天的事情。

所以本次分享中,会更倾向于密码学的介绍,包括密码学的历史及主要技术,之后我会对其中的安全多方计算的基本原理做一些简单的介绍。

密码学如何实现隐私保护?

密码学中的隐私计算技术,大概分为三大类。分别是:安全多方计算同态加密零知识证明

安全多方计算(简称MPC),在1982年由姚期智先生提出,缘起于“百万富翁问题”。此问题讲的是有两个百万富翁,他们都很有钱,想比谁更有钱,但是又不想把各自的资产告诉对方,也不想找第三方帮他们做比较。所以他们如何能够在不泄露自己财产的前提之下,知道谁更有钱呢?安全多方计算领域由此开辟。

抽象的来说,可以理解为有多个本地参与,他们各自都拥有一个隐私的收入,但是他们想去计算一个共同的函数或者说共同的模型,叫做f。这个f会跟各自的输入都有关系,然后各自拿到一个结果。所以我们把它抽象出来,如果f是一个比较的函数,模型里面只有两个人的话,就形成了一个经典的百万富翁问题。

和我们今天讲的内容联系起来呢?如果这个f是一个模型或是机器学习的模型,比如说是一个逻辑回归、是一个CNN,相当于这三方各自都拥有一些数据,他们想共同训练这个模型。

这就对应了今日主题:如何进行隐私 AI 建模的方式?

也就是说,安全多方计算其实是一个非常广的概念。从密码学的角度看,MPC用到机器学习、AI里面,就是一个非常具体的应用了。那么应用运用了何种具体的方式?这就是Rosetta所要解决的问题。

Rosetta如何连接隐私计算与AI?

讲到现在,相信大家一定会遇到一个很大的问题,就是我们很想运用密码学解决问题,但是如果没有很高的数学基础或者没有学习过密码学的话,相关算法实在是门槛太高了。但是一些AI领域的专家、学者对于AI的应用,深度学习、机器学习的框架已经非常熟了。所以这两种具有不同专业技能的人,之间有很深的沟壑。在现实生活中,急需把这两种技术做一个融合,但是密码学相对的技术门槛太高,会影响整个行业的发展,也会影响整套隐私计算或者隐私AI的计算技术问题和理论进展。

所以我们想让熟悉机器学习,但是对密码学不了解的用户能够将隐私计算技术运用起来。另外对于一些熟悉了AI、或者TensorFlow、Pytorch等机器学习框架的开发者,让他们能够在几乎不改变开发习惯的前提下,就可以运用隐私AI的技术。我们需要做这样一个平台,或者开源框架,能够让不太熟悉密码学或者根本不懂密码学的AI层面的开发者或专家,能够用上隐私计算技术,这就是我们设计Rosetta的初衷,或者说设计Rosetta的一个根本原则。

因此Rosetta具备以下特点:易用性高效性可扩展性

易用性,目前完全复用了TensorFlow接囗。在明文和密文写模型的时候,TensorFlow的接囗是一样的,没有再变。极大地降低了AI工程师使用隐私计算技术的成本。

高效性,完全兼容原生TensorFlow对数据流图自动执行的各种运行时优化。我们用C++来实现算法,能够保持底层算法的高效性。我们同时在跟业界的密码学家设计高效前沿的MPC技术,来适配机器学习或者深度学习的一些模型。

可扩展性,因为在MPC领域算法和协议非常多,而且涉及不同的场景,可能用不同的算法会有更好的效果。如果有了新的算法过来,Rosetta能够非常快速的集成到整个框架里面去。

下面,我们举例说明一下:

这里有三个参与方,A、B、C,然后每个人都有一个矩阵Ma、Mb、Mc,之后他们去计算Ma乘Mb乘Mc,他们三个只能知道结果,中间的过程都不知道。在这样一个场景下,如何运用Rosetta来实现它呢?和TensorFlow明文使用的区别有两个,一个是import包和选择算法,一个是简单处理隐私输入,即需要把Rosetta包import进来,选择算法,然后定义隐私输入即可。

Rosetta的架构如下:

整体而言,Rosetta的框架图如上图所示,它包括Python的前端APl,这块是Rosetta方便用户使用而特色支持的,然后与TensorFlow的前后端做了适配,同时我们开发了一个统一的密码协议管理层,可以去适配不同的密码协议。

我们的目标是既能够让懂密码学的开发者把现在的东西复用到整个框架里来,也能够让不懂密码学的AI开发者能够无门槛的或者非常低门槛的去使用隐私计算技术,相当于把密码学与机器学习,有机的结合起来。这就是Rosetta的目标。

下面说一下Rosetta的架构,首先要讲TensorFlow架构,TensorFlow架构简单地说就是一个图转化和一个图执行。我们充分利用了TensorFlow架构来进行密码适配。

当TensorFlow把那个图变成下图左边标准的传统图时,我们去做了一个static pass,把每一个操作全部都转成SecureOp,这个统称是为了后面能够支持密码算法。

然后第二步就是图执行,图执行我们运用了dynamic pass,左边的图就是刚才转化之后的图,然后当数据的时候,根据每一个这样的图,dynamic pass可以动态去适配用某一类密码协议去执行这个图。

我们能够充分运用TensorFlow框架,同时因为能够利用整个底层的密码算法,dynamic pass也可充分利用TensorFlow这种optimizer之间的并行,可以让它跑得更快。

下面讲一个Rosetta在实际场景落地中的应用案例:金融场景下的应用。银行A与B,他们各有各的数据,然后互联网公司C也有数据,大家希望能够通过Rosetta把模型建起来,比如说训练逻辑回归后,把风控模型训练出来,训练出一个更加高效的模型。同时保证abc各方数据都不会被对方拿到,这种场景下,用Rosetta解决问题非常简单。

如上图,把Rosetta import进来,然后选一个协议,然后选相应的输入。后面就是标准的用TensorFlow去回归,所以后面完全不需要有任何密码学背景,也可以完全写出来。在多数据融合的训练场景里,只要Rosetta一个包,然后把数据做一些处理。后面整个逻辑回归的代码书写,跟原来的是一模一样的,甚至可以把代码直接拷贝过来。这里有一个问题,我们用MPC的方式也就是密文的方式,它的精度与明文的方式有何区别?

如上图,我们做了一个对比,大家可以看到几乎没有区别,基本等价了,所以在设计足够多的参数足够多的精度之后,完全可以保证整个模型的精度。当然还有一个场景就是所谓的模型预测服务。

最后讲一点,Rosetta刚刚开始,目前已经开源了0.2.1版本。下面是GitHub链接:

https://github.com/LatticeX-Foundation/Rosetta

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
终于有人把隐私计算讲明白了
导读:本文将从隐私计算技术的起源开始说起,介绍什么是隐私计算,以及隐私计算的发展脉络,并进一步介绍隐私计算技术的一些应用场景。
IT阅读排行榜
2022/06/07
12.2K0
终于有人把隐私计算讲明白了
安全多方计算之前世今生
当前,数据被称为“新时代的石油”,数据只有流动(共享)起来才能产生更大的价值。各个国家已经深刻认识到了数据的重要性,并开始通过立法手段保护数据安全,各大机构/企业再希望像以前一样,粗暴的、毫无底线的收集和共享数据越来越困难。这就导致,如何在保证各机构/企业/个人数据私密性的前提下,实现多方数据的联合查询、统计与建模,成为了数据处理领域新的研究方向。
绿盟科技研究通讯
2021/09/06
1.5K0
区块链是如何保护交易隐私的?eprint这篇论文告诉你答案
在区块链公有链中,每一个参与者都能够获得完整的数据备份,所有交易数据都是公开和透明的,这是区块链的优势。但同时,对于很多区块链应用方来说,这个特点又是致命的。因为很多时候,不仅仅用户本身希望他的帐户隐私和交易信息被保护,就商业机构来说,很多帐户和交易信息更是这些机构的重要资产和商业机密,不希望公开分享给同行。 此前,在12月举办的亚太以太坊技术交流会上,以太坊创始人Vitalik Buter曾提到,零知识证明(Zero knowledge proofs)是“最为强大”的解决方案,尽管技术实现难度最高,但在保
企鹅号小编
2018/01/18
1.6K0
区块链是如何保护交易隐私的?eprint这篇论文告诉你答案
共享学习:蚂蚁金服提出全新数据孤岛解决方案
随着人工智能的兴起,数据的质量和数量,已经成为影响机器学习模型效果最重要的因素之一,因此通过数据共享的模式来「扩展」数据量、从而提升模型效果的诉求也变得越发强烈。
Python数据科学
2019/08/19
1.1K0
共享学习:蚂蚁金服提出全新数据孤岛解决方案
PySyft与隐私深度学习的兴起
信任是实现深度学习应用程序的关键因素。从培训到优化,深度学习模型的生命周期与各方之间的可信数据交换相关联。这种动态对于实验室环境当然是有效的,但是结果容易受到各种各样的安全攻击,这些攻击操纵模型中不同参与者之间的信任关系。让我们以信用评分模型为例,该模型使用金融事务对特定客户的信用风险进行分类。传统的培训或优化模型的机制假定,执行这些操作的实体将完全访问这些金融数据集,从而为各种隐私风险打开大门。随着深度学习的发展,在数据集和模型的生命周期中,对加强隐私约束的机制的需求变得越来越重要。在试图解决这一重大挑战的技术中,PySyft是最近在深度学习社区中逐渐获得吸引力的框架。
AiTechYun
2019/07/05
3.2K0
PySyft与隐私深度学习的兴起
阿里安全开源隐私计算新技术:计算速度快20倍,通信成本低2倍,已登安全顶会
博雯 发自 凹非寺 量子位 | 公众号 QbitAI 如何在不查看图片的前提下,几秒之内就识别一张图片? 这个看似在找茬的问题,却是隐私计算领域会真实碰到的问题。 著名的“百万富翁问题”所描述的就是这样的场景:两位富翁如何在不知道对方财富的前提下,比较谁的财富更多? 近年来出现出现的一些方法,比如两方计算网络推理(2PC-NN)可以解决上述问题,但同时又会造成大量的计算成本和通信开销。 但现在,只要2.5分钟,2.3GB的通信费用,就能在ResNet50的基准上进行端到端的执行。 比起现在最好的两方计算网
量子位
2022/03/08
8490
一款释放数据价值的项目,开源了!
那有没有什么方法,可以在不暴露数据隐私的前提下,让数据流动起来发挥更大的价值呢?在这个问题的驱使下我们找到了今天的主角——隐私计算。
HelloGitHub
2023/09/20
3820
一款释放数据价值的项目,开源了!
隐私计算的硬件方案:「可信执行环境TEE」兼顾数据安全、隐私保护
机器之心专栏深圳市洞见智慧科技有限公司 本文阐释梳理了可信执行环境(TEE)的概念定义及发展脉络,剖析 TEE 与基于密码学的隐私保护技术的对比及其在联邦学习中的应用,最后介绍 TEE 的现有框架和相关应用。 随着移动互联网和云计算技术的迅猛发展,越来越多的数据在云环境下进行存储、共享和计算,云环境下的数据安全与隐私保护也逐渐成为学术界以及工业界关注的热点问题。目前阶段,隐私保护技术主要基于密码算法及协议(如安全多方计算、同态加密等)完成场景落地,其优点主要在于具有较高的安全性和可靠性,然而,由于这些算法或
机器之心
2022/03/04
3.9K0
隐私计算FATE-核心概念与单机部署指南
Fate 是一个工业级联邦学习框架,所谓联邦学习指的就是可以联合多方的数据,共同构建一个模型;
陶陶技术笔记
2022/11/11
1.9K0
隐私计算FATE-核心概念与单机部署指南
隐私计算介绍
从20世纪70年代一直到近年,隐私计算交叉融合了密码学、人工智能、计算机硬件等众多学科,逐渐形成以多方安全计算、联邦学习、可信执行环境为代表,混淆电路、秘密分享、不经意传输等作为底层密码学技术,同态加密、零知识证明、差分隐私等作为辅助技术的相对成熟的技术体系,为数据安全合规流通提供了技术保障。
从大数据到人工智能
2022/01/19
2.7K0
隐私计算介绍
笔记︱联邦学习与隐私计算的案例集锦(一)
Federated Learning - 联邦学习 参考文献: 小白也能通俗易懂的联邦学习! 关于联邦学习建模过程中算法交互内容的研究
悟乙己
2022/06/06
4.4K1
笔记︱联邦学习与隐私计算的案例集锦(一)
面向隐私 AI 的 TensorFlow 深度定制化实践
在这一篇文章中,我们结合 Rosetta 介绍如何定制化改造 TensorFlow 前后端相关组件,以集成 MPC 等隐私计算技术,同时保留对 TensorFlow 接口 API 的复用,从而实现我们上一篇文章中所强调的“系统易用性”。
代码医生工作室
2020/09/30
4960
浙江大学求是讲席教授任奎:隐私计算的前沿进展
作者 | 维克多 编辑 | 青暮 2021年12月17日,浙江大学求是讲席教授、ACM Fellow、IEEE Fellow、浙江大学网络空间安全学院院长、计算机科学与技术学院副院长任奎在CNCC 2021 “迎接数字化转型的安全挑战”论坛中做了《隐私计算:向实用化迈进》的报告。 在报告中,任奎围绕数据脱敏、差分隐私、安全多方计算三个方向,讨论了隐私计算的前沿进展,提出不同技术可以在数据全生命周期的不同阶段发挥作用。 以下是演讲全文,AI科技评论做了不改变原意的删改和整理: 今天分享浙江大学网络安全学院在隐
AI科技评论
2022/03/03
1.3K0
区块链与可信计算的大好时光
引言:大数据时代,时刻都在产生着各种各样的数据,数据资源的流动性和可获取性是大数据应用和产业发展的基础,市场各方对推动数据流通共享的需求呼声很高,但在数据流通共享方面存在很大的挑战,包括数据的权属无法清晰界定、数据的标准不一、良莠不齐,数据的隐私和安全难以得到有效保障。这时候隐私计算就能很好地发挥其价值,让数据共享流通更加安全、可靠和放心,而区块链的出现让隐私计算如虎添翼。
bengbengsu
2022/04/26
1K0
区块链与可信计算的大好时光
隐私计算:数据金矿的守护者与吹哨人
煤老板和IT精英相遇,两个人想比比谁更富有,但都不愿告诉对方自己真正拥有多少财富,也不想让第三方掌握原始信息。何解?
IT创事记
2022/08/30
6000
隐私计算:数据金矿的守护者与吹哨人
蚂蚁集团开源可信隐私计算框架「隐语」:开放、通用
机器之心发布 机器之心编辑部 数据流通行业进入密态时代,可信隐私计算框架可满足各场景不同需求。 7 月 4 日,蚂蚁集团宣布面向全球开发者正式开源可信隐私计算框架 “隐语”。 隐语是蚂蚁集团历时 6 年自主研发,以安全、开放为核心设计理念打造的可信隐私计算技术框架,涵盖了当前几乎所有主流隐私计算技术。 据介绍,隐语内置 MPC、TEE、同态等多种密态计算虚拟设备,提供多类联邦学习算法和差分隐私机制。通过分层设计和开箱即用的隐私保护数据分析、机器学习等功能,有效降低了开发者应用的技术门槛,能助力隐私计算应用
机器之心
2022/07/06
2.6K0
蚂蚁集团开源可信隐私计算框架「隐语」:开放、通用
从这5个场景, 看MPC多方安全计算的行业应用
在我们之前的“多方安全计算”系列文章中,我们首先通过姚期智教授的“百万富翁问题”引出了数据安全计算这个密码学话题,并介绍了多方安全计算在数据隐私中的应用场景。第二期中,我们又简要的介绍了两种“多方安全计算”的技术路线以及理论知识。
区块链大本营
2019/07/23
5.2K0
隐私计算:让数据成为信息时代的生产要素
作者 |  Felix Xu 责编 | Carol 出品 | 区块链大本营(blockchain_camp) 数据是现代商业与个人的核心价值与重要资产。数据正在重新塑造人类生活的方方面面,IDC Research统计2019年大数据和分析市场的销售收入约为1870亿美元。跨机构、跨行业的数据融合、联合分析和建模的需求日趋增加。 但由于数据本身可复制,易传播,一经分享无法追踪,数据资产的确权困难,商业化被严重制约。在传统大数据分析中,数据的集中化收集容易导致隐私信息泄露等风险。私有化部署则需要开发人员现场
区块链大本营
2023/03/31
4960
隐私计算:让数据成为信息时代的生产要素
从隐私到隐私计算
对于个人电子产品而言,例如手机,平板电脑,便携式电脑等等,或多或少,都会涉及到隐私计算,那么什么是隐私计算呢?理解隐私计算,先要澄清“隐私”的概念,那么,什么是隐私呢?进而,明确隐私计算分别与隐私和计算之间的关系,即隐私计算是为了实现个人隐私保护而进行的计算还是在实现了隐私保护的前提下进行的计算?最后,才是隐私计算涉及的技术和方法。
半吊子全栈工匠
2022/12/03
1.1K0
从隐私到隐私计算
姚期智提出的"百万富翁"难题被破解? 多方安全计算MPC到底是个什么鬼?
在越来越多对数据隐私的担忧声中,政府开始行动制定数据使用合规法案。而另一方面,对数据的保护,却产生了一个矛盾:大量的数据因为需要依法保护而无法被联合在一起计算。
区块链大本营
2019/04/28
3.2K0
姚期智提出的"百万富翁"难题被破解? 多方安全计算MPC到底是个什么鬼?
推荐阅读
相关推荐
终于有人把隐私计算讲明白了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档