Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >联邦迁移学习最新进展:计算和传输如何“限制”模型性能?

联邦迁移学习最新进展:计算和传输如何“限制”模型性能?

作者头像
AI科技评论
发布于 2021-08-24 06:27:20
发布于 2021-08-24 06:27:20
9580
举报
文章被收录于专栏:AI科技评论AI科技评论

人工智能系统需要依赖大量数据,然而数据的流转过程以及人工智能模型本身都有可能泄漏敏感隐私数据。

例如,在数据流转的任意阶段,恶意攻击者可以对匿名数据集发起攻击,从而窃取数据;

例如,在数据发布阶段,恶意攻击者可以使用身份重识别对匿名数据集发起攻击,从而窃取隐私信息......

学界针对上述隐私泄露问题提出了多种针对性的保护方法,基于差分隐私和同态加密的联邦学习是一种常见的隐私保护方法。

联邦学习在 2015 年提出,其能在不暴露用户数据的条件下进行多方机器学习模型的训练,以期保护隐私信息。

但由谷歌所提出的联邦学习,不仅必须保证数据集特征空间一致,且引入噪声对模型精确度造成影响,此外,还存在部分敏感信息传递等问题,这些不足限制了联邦学习在实际生产中的应用前景。

2018年,联邦迁移学习理论被提出。该理论中,训练所使用的多个数据集,无需保证特征空间的一致。另外,该理论使用同态加密替代差分隐私对隐私数据进行保护。这些改进为联邦学习在金融、医疗等场景中的应用带来了极大的便利。但是联邦迁移学习在实际使用中暴露出了严重的性能缺陷。

针对这个问题,来自于香港科技大学、星云Clustar以及鹏城实验室的研究人员联合发表了《量化评估联邦迁移学习(Quantifying the Performance of Federated Transfer Learning)》。该论文通过对联邦迁移学习框架进行研究,提出了联邦学习在实际应用中所面临的性能方面的挑战,并给出了相应优化方案。

论文作者:敬清贺,王伟俨,张骏雪,田晗,陈凯

编译: 程孝典(星云Clustar软件工程师)

论文:https://arxiv.org/abs/1912.12795

性能方面的挑战主要包括:

1、联邦迁移学习的性能瓶颈主要来自于计算和传输;

2、跨进程通信和内存拷贝是当前联邦迁移学习实现的主要性能瓶颈;

3、不同的参与方往往位于相距较远的两个站点中,只能通过高延迟的广域网传输数据,因此耗时也远高于分布式机器学习

1 联邦迁移学习简介

联邦学习理论基于查分隐私对数据进行保护,若干数据持有者可以在原始数据不离开本地的前提下实现联合模型训练。但是最初的联邦学习体系中,参与者之间必须保证数据的特征空间完全相同。举例说明,如果A公司持有的数据包含用户性别、年龄、年收入等信息,则B公司的数据也必须包含这些信息,才能和A公司进行联邦学习。除此之外,该体系还存在噪声对模型精确度造成影响、仍存在部分敏感信息传递等问题,这就限制了联邦学习在实际生产中的应用前景。

为了摆脱这一系列限制,联邦迁移学习(Federated Transfer Learning)于2018年被提出。在该理论中,训练所使用的多个数据集,无需保证特征空间的一致。另外,该理论使用同态加密替代差分隐私对隐私数据进行保护。这些改进为联邦学习对金融、医疗等场景中的应用带来了极大的便利。但是联邦迁移学习在实际使用中遭遇了严重的性能不足问题。

联邦迁移学习的典型工作流程如图一所示,其中需要三个不同的参与者:Guest、Host和Arbiter。其中Guest和Host是数据持有者,同时也负责主要的数值计算和加密工作;Arbiter在计算开始前生成密钥,并发送至Host和Guest,此外,Arbiter负责训练过程中的梯度聚合以及收敛检查。如果Host和Guest所持有的数据中样本不同而特征相同,这种联邦迁移学习被称为同构的或横向的(homogeneous);如果双方数据集样本相同而特征不同,则称联邦迁移学习为异构的或纵向的(heterogeneous)。

在训练过程中,Host和Guest首先使用本地数据进行初步计算,并对计算结果进行加密,这些中间结果可以被用于梯度和损失的计算。接下来,双方将加密结果发送至Arbiter进行聚合,Arbiter对密文进行解密后,返回给Host和Guest,双方使用接收的数值更新本地模型。联邦迁移学习需要重复此训练过程,直至模型收敛。

图一:联邦迁移学习工作流程

2 联邦迁移学习性能分析

从联邦迁移学习的工作流程中,可以发现它和分布式机器学习在一些方面上十分相似,二者均包含多个持有不同数据的工作节点,且均根据聚合的结果更新模型。但是,两种体系之间存在相当明显的区别:在分布式机器学习中,参数服务器(parameter server)是中心调度节点,负责将数据和计算分配到不同的工作节点中从而优化训练性能;在联邦迁移学习中,不同的数据持有者对本方工作节点和数据都有着完全独立的管理,除此之外,联邦迁移学习中所使用的同态加密,将极大地增加计算和数据传输时间。

因此,和分布式机器学习相比,联邦迁移学习是一种复杂度更高的系统,也可以认为分布式机器学习性能是衡量联邦迁移学习性能的合适指标。近年来,有关分布式机器学习的方案设计以及性能优化的研究十分火热,而联邦迁移学习则鲜有人踏足。量化分布式机器学习和联邦迁移学习的性能差距,对联邦迁移学习的性能优化,具有启发性的借鉴和参考价值。

图二为分布式机器学习和联邦迁移学习在使用相同数据集训练相同模型的性能对比图。图(a)代表模型训练端到端性能对比,根据测试结果,两种系统的运行时间差距在18倍以上。根据分布式机器学习中的经验,计算和数据传输往往是系统运行中时间占比最高的两个部分,因此图(b)和图(c)又分别展示了两种系统在计算和数据传输中的耗时对比,结果显示,联邦迁移学习的这两段耗时,均在分布式机器学习的20倍左右,这也证实了联邦迁移学习的性能瓶颈主要来自于计算和传输。因此,接下来,我们将分别从这两个方面对联邦迁移学习的时间开销进行分析。

图二:分布式机器学习和联邦迁移学习(包括横向和纵向)的性能对比

3 计算开销分析

1、性能分析

为了进行深入的分析,我们将计算时间划分为两个部分:模型训练(数值计算)和额外操作(包括跨进程通信和内存拷贝等),如图三所示。我们从测试中发现,训练任务的端到端时间开销中,仅有18%左右的时间用于数值计算,而绝大部分的时间都花费在了内存拷贝等额外工作中。

具体说明额外操作,联邦迁移学习的底层实现中需要使用不同编语言以实现不同的功能,而跨语言环境的数据交换和内存拷贝耗时较长,如PythonJava虚拟机(JVM)之间的数据传递。此外,联邦迁移学习底层需要开启多个进程,分别管理任务创建、数据传递等工作,而跨进程通信同样开销巨大。总的来说,跨进程通信和内存拷贝是当前联邦迁移学习实现的主要性能瓶颈。

图三:模型训练时间和额外时间开销对比

图四:加密运算对模型训练时间的影响

而在模型训练时间中,一个较为明显的时间开销就是同态加密。联邦迁移学习中所使用的部分同态加密将原本的浮点运算扩展为数千位大整数之间的运算,这显然大幅降低了运算性能。因此,图四对比了密态模型训练与纯明文模型训练的运行时间。测试结果显示同态加密运算为模型训练过程引入了超过两倍的额外时间开销。因此,加速同态加密运算是优化联邦迁移学习性能的可行方案。

2、优化方案

从降低额外开销的角度,可以借鉴Unix domain socket或者JTux等以实现更高效率的跨进程通信。同时,使用JVM本地内存,可以有效提升跨环境内存拷贝速度。

从加速数值计算的角度,可以通过使用高性能计算硬件实现高吞吐率的同态加密运算。现如今以GPU和FPGA为代表的计算硬件设备,由于其充足的计算、存储和通信资源,可以高并发地处理大部分数值计算。通过大幅降低同态加密开销,可以有效提升模型训练整体性能。

4 数据传输开销分析

1、性能分析

除了计算开销的明显上涨,联邦迁移学习中增长接近20倍的数据传输开销也值得注意。造成该现象的原因主要有三个:首先,在计算开销中,同态加密运算大大提升了数据位宽,这不仅增加了计算时间,也大幅增加了需要传输的总数据量,从而对数据传输时间造成了影响;其次,与传统的机器学习算法相比,联邦迁移学习中为了保护数据隐私,增加了不同参与方之间的数据交换,频繁的数据传输必然带来总传输时间的上升;最后,分布式机器学习往往部署在密集的数据中心网络中,数据传输延时非常低,因此跨节点通信带来的开销也相对较低,而反观联邦迁移学习,在实际应用中,不同的参与方往往位于相距较远的两个站点中,只能通过高延迟的广域网传输数据,因此耗时也远高于分布式机器学习,如图四所示,当我们将联邦迁移学习的不同参与方部署在世界各地的数据中心网络中时,数据带宽较低,数据传输延迟将占到整体运行时间的30%以上,造成十分严重的影响。

图四:当参与方部署在不同地理位置时,数据传输时间以及在端到端运行时间中的占比

2、优化方案

在跨站点多方数据交换中,网络质量扮演着重要的角色,而密集的通信很容易造成网络拥塞,因此,探索网络拥塞控制技术以提升数据传输性能是一种可行的解决方案。以PCC算法为代表的拥塞控制算法,可以通过细粒度的拥塞控制规则优化长距离数据传输的网络性能,进而提升联邦迁移学习的整体性能。

5 总结

作为机器学习在隐私计算中的拓展延伸,联邦迁移学习对打破数据孤岛,实现数据的更高价值有极其重要的作用。但是和所有的安全计算系统类似,性能和安全之间的平衡难以把控。现有的联邦迁移学习系统框架还远无法满足实际生产中的性能需求。通过深入的性能分析,计算、内存拷贝以及数据传输等环节中的开销问题,都是联邦迁移学习的端到端性能恶化的重要原因。为了实现联邦迁移学习在更多场景中的落地,结合多样的解决方案对各个环节进行针对性优化不可或缺。

参考文献

Jing Qinghe, Weiyan Wang, Junxue Zhang, Han Tian, and Kai Chen. "Quantifying the performance of federated transfer learning." arXiv preprint arXiv:1912.12795 (2019).

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
联邦学习 OR 迁移学习?No,我们需要联邦迁移学习
海量训练数据是现代机器学习算法、人工智能技术在各个领域中应用获得成功的重要条件。例如,计算机视觉和电子商务推荐系统中的 AI 算法都依赖于大规模的标记良好的数据集才能获得较好的处理效果,如 ImageNet 等。然而在一些应用领域中,例如医学领域、经济学领域以及一些政务信息化领域中,海量的可用训练数据往往是非常有限的。存在这些问题的主要原因:一是,针对机器学习算法的数据标注任务需要专业的知识和经验才能完成,这种预处理任务的成本非常高,往往无法获得机器学习所需要的足够的标注数据。二是,各个行业对数据隐私和数据安全的保护越来越强,在一定程度上也限制了对训练数据的共享,也就进一步加剧了可用的标注数据缺乏的问题。
机器之心
2020/11/20
1.1K0
联邦学习 OR 迁移学习?No,我们需要联邦迁移学习
前沿技术|联邦学习入门笔记
数据孤岛正阻碍着训练人工智能模型所必须的大数据的使用,同时为了确保用户隐私和数据安全,各组织间交换模型信息的过程将会被精心地设计,使得没有组织能够猜测到其他任何组织的隐私数据内容。
陆勤_数据人网
2021/08/06
1.9K0
前沿技术|联邦学习入门笔记
干货|杨强教授联邦学习公开课视频
题图摄于北京奥林匹克森林公园 相关文章: 联邦学习:人工智能的最后一公里 KubeFATE: 用云原生技术赋能联邦学习(一) 用FATE进行图片识别的联邦学习 (本文经授权转发自FATE开源社区公众号,略有删节) 近日,微众银行首席人工智能官杨强教授结合最新发布的《联邦学习白皮书v2.0》,对联邦学习研究与应用价值展开了最前沿的讨论和分享。 联邦学习作为当前人工智能尤其是AI金融领域,最受工业界和学术界关注的研究方向之一,有哪些前沿研究与应用?欢迎戳下方视频回顾精彩回放,同时直播PPT内容也上传到了公
Henry Zhang
2023/04/18
5980
干货|杨强教授联邦学习公开课视频
KBS 2021 | 联邦学习综述
论文地址:https://www.sciencedirect.com/science/article/abs/pii/S0950705121000381
Cyril-KI
2022/11/08
9010
KBS 2021 | 联邦学习综述
只看这一篇就够:快速了解联邦学习技术及应用实践[通俗易懂]
随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势,同时,大多数行业数据呈现数据孤岛现象,如何在满足用户隐私保护、数据安全和政府法规的前提下,进行跨组织的数据合作是困扰人工智能从业者的一大难题。而“联邦学习”将成为解决这一行业性难题的关键技术。
全栈程序员站长
2022/11/15
6.5K0
只看这一篇就够:快速了解联邦学习技术及应用实践[通俗易懂]
联邦学习助力人工智能新模型进化(附:金融隐私计算实战项目)
2016年是人工智能(ArtificiaIntelligence,AI)成熟的一年。随着AlphaGo击败人类顶级围棋手,我们真正见证了人工智能的巨大潜力,并开始期待更复杂、更尖端的人工智能技术可以应用在更多的领域,包括无人驾驶、生物医疗、金融等。 如今,人工智能技术在各行各业都显示出了优势。人们自然希望像AlphaGo这样的由大数据驱动的人工智能技术能够很快在生活中应用起来。然而,现实有些令人失望:除了少数行业,大多数领域只拥有有限的数据或质量较差的数据,这使AI技术的落地比我们想象的更困难。是否通过跨组
机器学习AI算法工程
2022/08/26
8660
联邦学习助力人工智能新模型进化(附:金融隐私计算实战项目)
《迁移学习与联邦学习:推动人工智能发展的关键力量》
在人工智能的发展历程中,数据和模型的学习方式不断演进。迁移学习和联邦学习作为两种重要的技术,正逐渐成为行业关注的焦点。
程序员阿伟
2025/01/02
1840
可信联邦学习前沿论文与最新进展
题图摄于香港太平山顶 本文中介绍的四篇关于可信联邦学习的论文已经在开源项目 FATE 的 research 仓库中存放,感兴趣的读者可以查阅。( https://github.com/FederatedAI/research ) 日前,由机器之心策划的线上视频直播——可信联邦学习(Trustworthy federated learning)论文线上分享成功举办。香港科技大学计算机与工程系讲座教授和前系主任、中国人工智能学会(CAAI)荣誉副理事长杨强教授带领四篇可信联邦学习最新论文的作者,对该领域的前沿
Henry Zhang
2023/04/04
6600
可信联邦学习前沿论文与最新进展
联邦学习在腾讯微视广告投放中的实践
分享人:宋凯 博士 整理者:林宜蓁 导读: 本文从广告主的角度,分享联邦学习实践的经验跟思考。 先介绍业务与技术选型背景:团队项目为用户增长及成本控制,方式为广告渠道投放,投放目标分为拉新、拉活两类。 拉新时,微视侧端内用户特征稀疏,而广告平台积累大量信息,但仅有有限性的oCPX标准化数据回传。 拉活时,微视侧具备用户行为序列等宝贵画像数据,与广告平台特征有互补性,但又无法直接粗暴的与广告平台共享数据。 所以,希望微视侧能与广告平台侧利用双方数据,实现收益共赢,但保证数据的安全不出域。在这种背景下我
腾讯大数据
2021/09/06
2.5K0
《联邦学习:打破数据孤岛,实现隐私保护下的跨机构协作》
在数字化时代,数据就是企业和机构的“石油”,是推动创新和发展的关键资源。无论是医疗领域的疾病诊断、金融行业的风险评估,还是教育行业的个性化学习,都依赖于大量的数据来训练精确的机器学习模型。然而,随着数据隐私保护法规的日益严格,以及各机构对数据主权的重视,原始数据的交换变得困难重重,数据孤岛现象愈发严重。在这样的背景下,联邦学习应运而生,它为跨机构模型训练提供了一种创新的解决方案,使得各机构在不交换原始数据的前提下,能够共同提升模型性能。
程序员阿伟
2025/01/24
5790
《联邦学习:打破数据孤岛,实现隐私保护下的跨机构协作》
CCAI 演讲回顾 | 杨强:GDPR对AI的挑战和基于联邦迁移学习的对策
2019年中国人工智能大会(Chinese Congress on Artificial Intelligence 2019,简称“CCAI 2019”)将于9月21日-22日在青岛胶州召开。
马上科普尚尚
2020/05/13
6820
CCAI 演讲回顾 | 杨强:GDPR对AI的挑战和基于联邦迁移学习的对策
Transformer模型与联邦机器学习详解!
Transformer 作为一种基于注意力的编码器 - 解码器架构,不仅彻底改变了自然语言处理(NLP)领域,还在计算机视觉(CV)领域做出了一些开创性的工作。与卷积神经网络(CNN)相比,视觉 Transformer(ViT)依靠出色的建模能力,在 ImageNet、COCO 和 ADE20k 等多个基准上取得了非常优异的性能。 正如德克萨斯大学奥斯汀分校的计算机科学家 Atlas Wang 说:我们有充分的理由尝试在整个 AI 任务范围内尝试使用 Transformer。 因此,无论是学术界的研究人员,
zenRRan
2022/04/08
1.2K0
Transformer模型与联邦机器学习详解!
笔记︱联邦学习与隐私计算的案例集锦(一)
Federated Learning - 联邦学习 参考文献: 小白也能通俗易懂的联邦学习! 关于联邦学习建模过程中算法交互内容的研究
悟乙己
2022/06/06
4.1K1
笔记︱联邦学习与隐私计算的案例集锦(一)
安全多方计算、联邦学习和可信执行环境
1.多方安全计算,由姚期智院士于1982年首次提出,通过设计特殊的加密算法和协议,在无可信第三方情况下的安全计算约定函数问题,近年来,基于同态加密、秘密分享、不经意传输、混淆电路等基础技术、协议的多方安全计算逐渐得到应用(经典多方安全计算中,两方计算主要采用不经意传输与混淆电路的方案,三方以上则进一步结合了秘密分享,因此也有观点将同态加密作为一种独立于多方安全计算的隐私计算技术)。
zhangjiqun
2024/12/13
5970
安全多方计算、联邦学习和可信执行环境
解密Angel PowerFL联邦学习平台中的纵向GBDT算法
导语:  GBDT(或XGBoost)算法是一种十分流行的树集成学习算法,不但是数据科学竞赛的常胜工具,在工业界的具体业务场景也有广泛的落地场景。然而,近年来用户隐私数据保护条例逐渐完善,“数据孤岛”逐渐形成,不但数据难以收集,不同公司或团队之间的数据也难以共享,这直接影响着机器学习模型的效果。为了应对这个问题,联邦学习技术逐渐进入人们的视线。本文聚焦腾讯自研的联邦学习平台Angel PowerFL中纵向联邦GBDT算法实现,介绍纵向联邦GBDT算法的原理和流程,并讲解相关的优化技术。 梯度提升决策树算法
腾讯大数据
2020/09/09
4.3K0
个推技术分享:看完这篇,即刻上手进行联邦学习实战
在数据智能时代,重视数据安全,促进大数据行业健康发展已经成为了全球趋势,但与此同时,企业之间数据孤岛的问题也越来越严重。如何有效打破数据孤岛,进行跨组织的数据价值挖掘,是困扰数据智能行业从业者的一大难题。而“联邦学习”将成为解决这一行业性难题的关键技术。
个推
2021/05/24
9080
星云Clustar首席科学家胡水海:GPU在联邦机器学习中的探索
近期,星云Clustar首席科学家胡水海,以“GPU在联邦机器学习中的探索”为题,全面详尽地讲解了目前解决联邦学习的性能与效率问题,以及解决思路。
AI科技评论
2020/06/17
9190
星云Clustar首席科学家胡水海:GPU在联邦机器学习中的探索
21 个问题看 NLP 迁移学习的最新进展!
2018 年 10月,Bert 问世。从此,一波 NLP 迁移学习的研究热潮向我们袭来。
AI科技评论
2020/06/29
8540
21 个问题看 NLP 迁移学习的最新进展!
揭秘京东超大规模联邦学习平台,如何打破信息孤岛、实现安全共建!
数据是AI的石油,加速了AI的高速发展,但是同时多维度高质量的数据是制约其进一步发展的瓶颈。由于用户隐私、商业机密、法律法规监管等原因,造成大量信息孤岛,导致各个组织与机构无法将原始数据整合在一起,进而联合训练出一个效果更好、信息密度更大、能力更强的大模型,严重制约了AI的发展。联邦学习是新的机器学习模式,它让多个参与者可以在不泄露明文数据的前提下,用多方的数据共同训练模型,实现数据可用不可见,开拓新的业务模式与场景,提升整体AI水准。9N-FL作为超大规模的工业化联邦学习的代表,将在未来推动联邦学习的蓬勃发展。 本文分享的是京东零售-技术与数据中心的联邦学习9N-FL项目在电商营销领域的实践,分享共分为六个部分:联邦学习背景、联邦学习简介、应用场景、9N-FL、隐私保护、规划总结。希望通过对9N-FL项目中联邦学习这一新的机器学习模式的分享,在未来隐私管控更加严格的场景下,发挥其重要的作用。联邦学习也将通过安全多方数据建模,开拓了新的业务模式与场景,给广大算法从业者提供了更加广阔的应用场景,促进大数据与AI的蓬勃发展与业务的突破。
京东技术
2021/04/22
1.8K0
揭秘京东超大规模联邦学习平台,如何打破信息孤岛、实现安全共建!
模型攻击:鲁棒性联邦学习研究的最新进展
现代机器学习算法在实际应用场景中可能会受到各种对抗性攻击,包括数据和模型更新过程中中毒( Data and Model Update Poisoning)、模型规避(Model Evasion)、模型窃取(Model Stealing)和对用户的私人训练数据的数据推理性攻击(Data Inference Attacks)等等。在联邦学习的应用场景中,训练数据集被分散在多个客户端设备(如桌面、手机、IoT 设备)之间,这些设备可能属于不同的用户 / 组织。这些用户 / 组织虽然不想分享他们的本地训练数据集,但希望共同学习得到一个全局最优的机器学习模型。由于联邦学习框架的这种分布式性质,在使用安全聚合协议(Secure Aggregation)的情况下,针对机器学习算法的故障和攻击的检测纠正更加困难。
机器之心
2020/06/05
1.9K0
推荐阅读
相关推荐
联邦学习 OR 迁移学习?No,我们需要联邦迁移学习
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档