近两年,联邦学习技术发展迅速。作为分布式的机器学习范式,联邦学习能够有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,从技术上打破数据孤岛。但是,目前这一技术在很多企业落地遇到了困难,InfoQ 将通过选题的方式逐一介绍各大公司如何落地实践该技术。
2016 年,谷歌正式提出联邦学习的概念。同期,国内不少科技公司开始了对联邦学习的探索,并已经成功应用在了业务中。任何技术都不是银弹,联邦学习也是如此。那么,当一家企业具备哪些特征或者出现哪些问题时可以尝试联邦学习?开发者如何参与进来?联邦学习的未来有哪些值得开发者期待的可能变化?本文,InfoQ 有幸对数牍科技联合创始人 & CTO 蔡超超进行了独家采访,了解联邦学习在数牍科技的落地实践及他对企业的部署建议。
从表面上看,近几年的人工智能发展快速,无论是政府政策还是市场需求,人工智能都受到了很高的关注度。但事实是,尽管人工智能从 2012 年深度学习理论被实践验证后得到了飞速的发展,但我们现在仍然处于人工智能的初级阶段。原因就是当前的人工智能,都是被数据所驱动的智能。本质上是被大体量数据不断训练出来,再通过算法模拟出来的“智能”,并非是机器真的有自己的判断逻辑。
现阶段,我们依赖数据。因而,数据孤岛的存在成为人工智能发展的一大壁垒,这极大限制了企业可利用的数据量。采访中,蔡超超表示,除了数据孤岛,企业对数据的实际应用中也有保护核心高价值数据的需求,通过隐私计算和联邦学习实现数据的所有权和使用权分离是一种有效的解决方式。具体来说,隐私计算和联邦学习可以增加可用数据的总量,与人工智能一起形成螺旋式上升。人工智能产业的发展主要基于机器学习技术,难以脱离数据单独前进,联邦学习在解决内部数据不足问题上有很好的表现,可以助力人工智能企业的发展。同样的,人工智能市场的繁荣发展让更多终端场景产品的不断落地也会收集更多数据会分布在不同地点,促进联邦学习更大规模的应用,如此看来,联邦学习和人工智能一起形成螺旋式上升模式。
规范数据使用可以在汇聚更多数据的基础上迎来价值挖掘的下一个爆发点,带动 AI 的数据基础设施进步,隐私计算未来会逐步成为 AI 的基础设施。
具体来说,隐私计算或者说联邦学习用到的技术包括:差分隐私、MPC、机器学习、TEE 等,这是数据科学、密码学、分布式计算与存储的综合工程,而不是单一的密码学。蔡超超补充道,这个过程最大的挑战是工程实践和实际落地能力,需要数据科学和工程的经验积累才能设计出真正工程可用的产品。
既然是解决数据孤岛问题,那做个中台把数据打通可不可以?还需要联邦学习吗?
在数据中台的价值中,其中一条就是打通各业务线的数据。经过去年的“中台热”,不少企业内部可能已经构建起了数据中台,并对解决数据问题信心满满。“数据中台的存在可以为联邦学习提供良好的数据环境,但并非必要条件”,蔡超超表示,“数据中台和联邦学习是有本质区别的。
”如上文言,联邦学习最早由谷歌于 2016 年提出,用于解决安卓手机终端用户在本地更新模型的问题,是一种分布式的机器学习技术 / 框架。联邦学习可以在不分享数据的基础上,实现共同建模,并提升模型效果,适用场景包括单方样品数量不够充分,单方数据维度不够丰富。整个学习训练过程,没有任何原始数据的泄露,起到保护数据隐私 / 核心价值的作用。
数据中台则更像是企业内部对现有数据流处理的一种综合应用。
数据中台可以帮助企业内部实现业务数据的分层和水平解耦,沉淀出公共的数据资源。通常可将其划分为三层:数据模型、数据服务与数据开发。数据建模帮助企业完成跨域数据整合和知识的沉淀;数据服务层可帮助实现对数据的封装和开放功能,更灵活的满足上层应用的要求;使用数据开发工具来满足个性化数据和应用方面的需要。综上,数据中台的存在可以为联邦学习提供良好的数据环境,但并非必要条件。
技术世界没有银弹,联邦学习也不是万能药,并不是每家企业都需要即可部署。在采访中,蔡超超表示,当企业遇到如下两种情况可能需要通过联邦学习解决问题:一是涉及到保护数据隐私和核心价值的场景,因为联邦学习的整个学习训练过程,没有传输任何原始数据;二是多方数据补充的场景,这可能存在单方样品数量不够充分或单方数据维度不够丰富的情况。
简单来说,如果企业确实有对隐私数据核心价值保护以及数据对外协作的需求,可以考虑尝试联邦学习技术。但要清楚,联邦学习不是简单的机器学习技术,而是一个结合了数据科学、密码学、分布式计算与存储的综合工程,企业需要一个有综合实力的研发团队的支持,而且对个人的技术要求也比较高,需要充足的前期训练以及良好的团队配合,可能需要度过一个漫长的准备期。而且,联邦学习项目本身与数据和计算相关,对数据和场景的理解也很重要,需要数据科学和工程的经验积累才能设计出真正工程可用的产品,要为实用而加密,而非为了加密而加密。
此外,在过往的采访中,不少企业对联邦学习的部署效果存在担忧,在最初的尝试中,数牍科技同样对此抱有担忧。蔡超超表示:“我们在实践的时候也发现初级版的联邦学习确实有不少效果问题,例如模型不能很好的收敛, 或者是精度 / 效率问题。随着技术的优化,特别是综合数据科学,密码学,分布式技术后,整体的效果有了非常大的提高,在大部分场景下,模型整体精度基本和传统方法没有太大差别。”联邦学习在数牍科技的实践
在数牍科技,团队对联邦学习的探索和实践分为如下三个阶段:
蔡超超表示,原始的联邦学习框架是在机器学习本身技术层面思考信息流的传递,并保护数据不出库。如果结合密码学技术,不仅可以保护原始数据,同时也可以对中间信息流进一步加密封装,从而提高系统安全性,各项技术的结合使用能保证计算效率,实现工业级可用,比如:
在金融风控场景中,银行希望引入外部数据源做特征补充来建立联合模型。基于用户授权,联邦学习技术可以在保证数据安全不出库的同时,整合不同机构间对用户行为特征不同维度的捕捉,以用户为基础,形成对个人的较为全面的描述。对比传统模型方式,该模型可以学到更多用户信息,从而提升模型效果,促进业务发展,实现降本增效。整体上,模型效果往往可以提升 30% 以上。
以个人信用风险评估项目为例,当前金融信贷业务中往往受限于数据不够丰富,在数据可解释性及稳定性、风控模型效果、风险策略和获客成本等层面面临诸多挑战,借助联邦建模可以在保护用户信息不泄露的前提下将来自支付应用的消费数据、交通出行数据等更多维度纳入联合风控模型中,从而构建更精准大数据风控模型用以测算借款自然人。目前,数牍科技提供的联邦学习技术,能帮助客户在不分享原始数据的前提下,结合外部 1000+ 数据特征联合建模,提高模型效果;可按需要将模型快速部署在任何一方或者多方,且对模型严格加密,避免策略泄露。实践效果如下:
蔡超超补充道,数牍科技的联邦学习平台可以在数据量子级保护的条件下,结合金融机构与外部数据源的数据训练机器学习模型,提供信贷风控、营销等方向的业务支持。
衡量一项技术的发展,标准制定和大规模应用是两个很重要的因素。
联邦学习是为了解决跨机构间的数据融合问题,无论是从隐私安全方面,还是从保证数据格式统一层面讲,标准的制定对联邦学习的大规模落地具备重要意义。现阶段,国内外都在相继制定和推出联邦学习的标准规范,如联邦学习国际标准 IEEE P3652.1(联邦学习基础架构与应用)、《联邦学习白皮书 2.0》等,数牍科技也正在与信通院等标准制定机构合作,参与企业外部数据合作相关标准的建立,提供技术顾问和隐私保护最佳案例的参考。
从整个数据产业看,联邦学习可以增加可用数据的总量,能很好的解决现存数据孤岛的问题;对企业自身而言,使用联邦学习能简单、合法且低成本的获取外部有效的数据信息,快速解决某些因数据量或数据维度不足而导致的困扰,而且也不会造成合作企业间数据或商业机密的泄露。蔡超超认为,规范数据使用可以在汇聚更多数据的基础上迎来数据价值挖掘的下一个爆发点,带动 AI 的数据基础设施进步,隐私计算未来会逐步成为 AI 的基础设施。
现阶段要用到联邦学习的场景需求是很多的,但大规模落地还未到来,除了以上提到的政策和标准待完善的问题,还有就是对工程师的技能要求很高,例如使用联邦学习做隐私建模等技术需要更多的知识普及和经验积累,但随着市场需求和技术解决方案的逐步清晰,相信越来越多的企业参与其中,联邦学习助力数据流动,让数据孤岛联结成网。
嘉宾介绍:
蔡超超,数牍科技联合创始人 & CTO。曾先后任职于 Amazon、Facebook, 机器学习和联邦学习专家。在 Facebook 广告部门期间,作为技术主管主导了多平台图谱、用户画像预测等项目,获得 Facebook Distinguished Equity,30 多项美国国家专利。加州大学洛杉矶分校(UCLA)机器学习博士。
专题推荐:
为了解联邦学习在金融领域的应用现状、落地困境和破解之道,InfoQ先后采访了平安科技、蚂蚁金服、腾讯、微众银行以及京东数科。专题链接如下:
领取专属 10元无门槛券
私享最新 技术干货