Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ChatGPT要怎么微调?MIT韩松团队新作告诉你!

ChatGPT要怎么微调?MIT韩松团队新作告诉你!

作者头像
新智元
发布于 2023-02-24 04:49:20
发布于 2023-02-24 04:49:20
1.3K0
举报
文章被收录于专栏:新智元新智元


新智元报道  

来源:CVHub

作者:派派星

编辑:好困

【新智元导读】众所周知,迁移学习对于基础模型适应下游任务很重要。然而,对于许多的私有基础模型,数据所有者必须与模型所有者分享他们的数据以微调模型,这是非常昂贵的,并容易引起隐私问题(双向的,一个怕泄露模型,一个怕泄露数据)。此外,对大型基础模型进行微调是一项计算密集型的任务,这对于大多数下游用户来说是不现实的。

本文中,韩松团队提出了一个能够保护隐私且高效的迁移学习框架——Offsite-Tuning,可以将数十亿级参数的基础模型迁移到下游数据,而无需访问完整模型。

Paper: https://arxiv.org/pdf/2302.04870v1.pdf

Code: https://github.com/mit-han-lab/offsite-tuning

在 Offsite-Tuning 中,模型所有者将轻量级适配器和有损压缩仿真器发送给数据所有者,数据所有者在仿真器的协助下对适配器进行下游数据的微调。随后,经过微调的适配器返回给模型所有者,模型所有者将其插入(plug-in)完整模型以得到迁移的模型

Offsite-Tuning 保护了双方的隐私,并且比现有的需要访问完整模型权重的微调方法更具计算效率。论文在各种大型语言和视觉基础模型上证明了 Offsite-Tuning的有效性。Offsite-Tuning 可以达到与基于全模型 Fine-Tuning 相当的精度,同时又能保护隐私和效率,并实现了 6.5 倍的速度提升和 5.6 倍的内存减少。

研究背景

Comparing existing fine-tuning approaches

大型基础模型在各种任务中表现出卓越的性能,包括自然语言处理计算机视觉语音识别。通过对大量数据的预训练,这些模型可以学习对广泛的下游任务有用的一般表示。尽管一些基础模型能够执行零样本学习(zero-shot)或者语境学习(in-context learning),迁移学习(即微调)仍然是一种流行的和稳健的方法,以适应特定任务。

由于下述两个原因,为下游任务调优基础模型是困难的,如上图所示。

  1. 首先,训练大型基础模型通常需要大量的计算和数据,从而导致较高的训练成本(例如,训练GPT-3预计需要超过400万美元,训练Chat-GPT更是超过了1200万美元)。因此,训练后的参数通常是专有的,而是不公开的这意味着下游用户必须与模型所有者共享他们的带有标签的数据来对模型进行微调(OpenAI Fine-tuning API [1])。这可能会代价高昂,并引发隐私问题,使有价值的带标签数据处于风险之中。
  2. 其次,即使下游用户可以拿到预先训练的权值,在本地执行微调也相当昂贵,也很困难。基础模型通常有大量的参数。例如,GPT-3模型有1750亿个参数,需要350GB的GPU内存来存储参数和执行推理,更不用说训练了。苛刻的硬件需求使得大多数终端用户不可能执行迁移学习。

因此,亟需一个保护隐私和更高效的框架来微调基础模型。

贡献

为了解决上述挑战,论文提出了Offsite-Tuning(场外微调),这是一种保护隐私和高效的迁移学习框架,该框架可以使基础模型迁移到下游任务,而无需访问完整的模型权重。如上图所示,Offsite-Tuning的流程如下:

  1. 模型所有者向数据所有者发送一个适配器(adapter)一个仿真器(emulator)
  2. 数据所有者在仿真器的帮助下,利用下游数据在适配器上进行微调
  3. 数据所有者将微调后的适配器返回给模型所有者,模型所有者将其插入(plug-in)到整个模型中,从而为下游用户创建一个经过适应的基础模型。

其中,适配器用于使用少量参数对任务特定的知识进行编码,而压缩仿真器模拟完整模型的其余部分的行为,并为微调适配器提供近似的梯度

因此,Offsite-Tuning有几大贡献

  1. Offsite-Tuning保留了数据所有者的隐私,因为他们不需要直接共享他们的业务数据。
  2. Offsite-Tuning保护了基础模型所有者的模型版权,因为完整的模型权重不共享,并且数据所有者训练的仿真器是有损的,性能高度下降。
  3. Offsite-Tuning也比需要访问完整模型权重的现有微调方法更节省资源,因为通过使用压缩仿真器对完整模型进行微调而不需要完整的模型。

论文在一系列语言和视觉基础模型上评估了Offsite-Tuning的性能,包括GPT-2、OPT、BLOOM、CLIP和EVA。结果表明:

  1. Offsite-Tuning在多个下游任务上可以获得与完整模型权重微调相当的结果,同时保护隐私和资源效率。实现高达6.6×的速度提升和5.6×的内存减少。
  2. Offsite-Tuning还可以对以前在单个GPU上无法实现的模型进行微调,如OPT-6.7B和BLOOM-7.1B。

总的来说,Offsite-Tuning是一个实用的框架,可以安全有效地将基础模型应用于更广泛的实际应用中。

问题定义

Privacy requirements

论文在迁移学习设置中考虑了双方的隐私性:数据所有者不能与模型所有者共享其标记的训练数据,而基础模型所有者不能与数据所有者共享他们的模型。论文需要找到一种方法来对数据所有者的数据进行调优模型,而不需要访问完整的模型权重

Settings

给定由参数化的基础模型和下游数据集,利用下游数据集对模型进行微调,得到, ,。为了实现私有和高效的迁移学习,论文希望找到一个替代模型(也称为仿真器),它(明显)比更小、更弱,这样与下游用户共享就不会威胁到基础模型的所有权。然后,数据所有者在自己的数据集上优化替代模型,生成。论文希望将训练好的权重插入(Plug-in)原来的模型(即)就可以与直接优化数据集上的(即)一样,实现了类似的性能,而不需要访问本身

Metrics

为了评估该方法的性能,论文定义了几个度量标准。为了不失一般性,这里将使用语言模型来进行定义。

  •  是指预先训练的基础模型在不进行微调时,在直接运行下游任务的性能()
  •  是指在对下游数据集进行微调时的小替代模型的性能()
  •  是指使用来自替代模型的插入式训练权重的预训练基础模型的性能()
  •  能是指在下游数据集上直接微调基础模型而不考虑隐私性时的性能()

Offsite-Tuning的核心概念是,下游用户可以根据其私有数据进行基础模型微调,而无需直接访问完整模型。论文通过使用仿真器生成模拟梯度来实现这一点,可以利用仿真器来近似更新适配器

为了证明该方法的有效性,论文要求:

  • Zero-shot performance < Plug-in performance: 表明调优有效地提高了在特定的下游数据集上的性能(否则,就不需要进行调优)。
  • Emulator performance < Plug-in performance: 显示基础模型仍然在任务中生效(否则,下游用户将很乐意只使用微调后的仿真器)。
  • Plug-in performance ≈ Full fine-tuning performance:这样用户就不会为数据隐私牺牲太多的性能

方法

Framework Overview

为了达到期望的性能,论文将基础模型,分为两个不同的组件:一个小的、可训练的适配器,表示为,用于下游任务迁移,模型其余部分记为,其参数要保持固定。具体来说,可以定义为和的concat,这样。为了保护基础模型的所有权和提高效率,对参数固定的组件应用有损压缩,得到一个仿真器,表示为。下游用户得到适配器和仿真器的组合,并能够通过更新进行模型调优。更新后的适配器表示为,将返回给上游基础模型所有者并集成到原始模型中,以在下游数据集上实现优越的性能。需要注意的是,由于有损压缩,使用的用户也无法达到可接受的性能水平,即使进行微调。因此,在此过程中,模型所有权的完整性不会受到损害,而压缩的结果是提高了整体效率。

所以,确定、、的适当组合是一项重要的任务。直观地说,仿真器应该与原始参数固定组件具有相似性,以便在对下游数据集进行微调时,为更新适配器提供适当的梯度方向。同时,仿真器不能过于精确,因为这将消除下游用户对基础模型的需求

接下来,论文将深入研究、、的设计,并评估不同的设计如何影响上述指标。

Adapter Selection

Transformer架构已被广泛应用于各种基础模型中,如语言和视觉模型。在本讨论中,论文将重点讨论针对深度transformer骨干的适配器的设计,它可以很容易地扩展到其他模型,如卷积神经网络(CNNs)。

论文选择了基础模型的一个小子集作为适配器,它可以在各种下游数据集上进行训练。由于只更新了模型的一个子集,因此适配器必须可推广到不同的下游任务。研究表明,transformer的不同层,从浅层到深层,编码不同层次的特征抽象,更新层的选择(适配器的选择)会影响迁移学习性能。为了覆盖广泛的任务,论文选择在适配器中同时包括浅层和深层,从而形成了一个三明治设计,◦◦(浅层,深层作为适配器可训练,中间作为仿真器压缩固定)。实验表明,这种适配器设计可以很好地用于各种下游任务,并且优于只微调最后几个层(即微调◦)的常见做法。

Emulator Compression

仿真器的使用是为了提供粗糙的梯度方向来更新适配器,同时保持与原始冻结组件的相似性。仿真器不能太精确,因为这将揭示关于原始模型的信息。此外,更小的仿真器大小会为下游用户提供更高效的微调过程。因此,论文的目标是在这三个需求之间找到一个平衡。

为了实现这种平衡,论文使用基于layer drop-based的压缩方法。具体来说,论文均匀地从冻结参数的组件中删除一个层的子集,并使用剩余的层作为仿真器。论文发现在仿真器中包含冻结部分的第一层和最后一层总是有益的(如上面的算法图所示)

此外,为了在保持近似精度的同时实现更高的压缩比,在原始组件的监督下,论文将知识蒸馏应用到layer-dropped仿真器上。蒸馏过程采用均方误差(MSE)作为损失函数,如下式所示:

式中,是前一层所产生的第i个输入样本的隐藏表示,N是训练前数据集中的样本数。论文发现,适当的蒸馏将有助于压缩模型与直接微调完整模型保持相似的精度

实验

Results of Language Models

按照上文所述,Full ZS表示基础模型未微调在下游任务的性能,FT表示基础模型进行微调在下游任务的性能,表示模型Emulator ZS是压缩的仿真器的性能,OT Emulator是训练后的仿真器的性能,OT Plug-in是训练后的仿真器插入基础模型的性能。四者的目标关系见上文。

Medium-sized models

论文首先评估参数量小于20亿个的中型语言模型的offsite-tuning,包括GPT-2-XL和OPT-1.3B。具体来说,GPT-2-XL有48层和16亿个参数,而OPT-1.3B有24层。上图是实验结果,可以证明offsite-tuning可以有效地适应中型语言模型(少于20亿个参数),同时保持高水平的性能,因为plug-in的性能与全模型的微调性能相当,而仿真器的性能明显较低(保证基础模型的所有权)

Large models

接着,论文评估了具有超过60亿个参数的大型语言模型的offsite-tuning,包括32层的OPT-6.7B和30层的BLOOM-7.1B。由于计算资源有限,论文无法在这些模型上执行完整的模型微调或仿真器蒸馏。因此,论文比较了offsite-tuning的性能和zero-shot的性能,并直接使用layer-drop的方法得到仿真器。从上表可以看出中,论文发现plug-in性能明显优于zero-shot性能,而仿真器性能和plug-in性能之间存在明显的差距。这些发现表明,offsite-tuning可以有效地适应大型语言模型,同时保护模型和数据所有者的隐私。

Results of Vision Models

论文进一步评估了两种最先进的视觉基础模型的offsite-tuning:CLIP和EVA。这两种模型都使用了具有10亿个参数的ViT-G骨干。如上表所示,论文发现offsite-tuning在保持高水平性能的同时有效地适应了视觉模型。plug-in的性能与全模型的微调性能相当,而仿真器的性能仅仅略低。这可能是由于在这些数据集上使用大视觉模型和小视觉模型之间的差异并不显著,因此仿真器的性能并不显著低于插件的性能。作者预计,offsite-tuning将在更具挑战性的视觉任务上产生更重要的结果

消融实验

Position And Aumber Of Adaptor Layers

适配器层的数量和位置的消融研究

在具有相同数量的可训练层数的情况下,对语言模型的顶层和底层同时进行微调比只微调顶层或底层要有效得多

compression methods for the emulator

layer-drop方法在两个方面具有优越性:(1)在减少仿真器大小的同时,有效地保持了plug-in性能;(2)在插件性能和仿真器性能之间产生了差距,保护了模型所有者的隐私。

effect of emulator distillation

仿真器的蒸馏提高了offsite-tuning的plug-in性能,同时保持完整的模型隐私。上图分数是WikiText-2上的验证困惑度perplexities(困惑度越低越好)

Efficiency

微调加速和峰值内存节省

offsite-tuning的关键效率优势是,它不仅可以减少可训练参数的数量,而且还可以减少在微调过程中需要放置在设备上的参数的总数。这将显著提高微调吞吐量和减少内存占用空间。为了证明offsite-tuning的有效性,论文进行了实验,并将结果呈现在上表中。结果表明,当offsite-tuning与LoRA结合时,论文实现了令人印象深刻的6.5倍的加速和5.6倍的内存使用减少。这使得offsite-tuning成为在资源约束设备上微调大型基础模型的一个有吸引力的解决方案。

总结

论文提出了offsite-tuning,一种可以保护隐私和有效的迁移学习框架,该框架可以使基础模型适应于下游任务,而不需要访问完整的模型参数。offsite-tuning对于数十亿参数的语言和视觉基础模型是有效的。offsite-tuning使用户能够有效地定制基础模型,而无需担心数据隐私和模型隐私。

注:韩松教授毕业于清华大学电子系本科,斯坦福大学电子系博士,师从 NVIDIA(英伟达)首席科学家 William J. Dally 教授。现任麻省理工学院(MIT)电气工程和计算机科学系助理教授,其研究广泛涉足深度学习和计算机体系结构,专注模型压缩领域。

参考资料:

[1]https://beta.openai.com/docs/guides/fine-tuning

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
6种大模型微调技术
由于LLM参数量都是在亿级以上,少则数十亿,多则数千亿。当我们想在用特定领域的数据微调模型时,如果想要full-tuning所有模型参数,看着是不太实际,一来需要相当多的硬件设备(GPU),二来需要相当长的训练时间。
皮大大
2025/05/07
2600
CVPR 2025 | CV 微调卷出天际,Mona:我小、我强、我省资源
Mona(Multi-cognitive Visual Adapter)是一种新型视觉适配器微调方法,旨在打破传统全参数微调(full fine-tuning)在视觉识别任务中的性能瓶颈。
机器之心
2025/05/02
1940
CVPR 2025 | CV 微调卷出天际,Mona:我小、我强、我省资源
什么是迁移学习(Transfer Learning)?
深度学习在大规模标注数据和高算力的支撑下取得突破,但现实世界的 “长尾数据” 与 “小数据任务” 依然普遍:
猫头虎
2025/05/19
620
超越所有微调方法,参数量大幅减少,康奈尔大学等提出视觉prompt新方法
选自arXiv 作者:Menglin Jia等 机器之心编译 编辑:赵阳、小舟 来自康奈尔大学、Meta AI 和哥本哈根大学的研究者提出一种优化 Transformer 的有效方案,在只添加少量参数的情况下,对下游任务有极大的提升效果。 识别问题往往是通过预训练大型基础模型处理大量精选或原始数据的方式解决的。这似乎是一种可行的模式:只需利用最新最好的基础模型,就可以在多个识别问题上取得极大的进展。 然而,在实践中,将这些大型模型用于下游任务就存在一些挑战。最直接(通常也是最有效)的适应策略是针对任务对预
机器之心
2022/05/05
4630
超越所有微调方法,参数量大幅减少,康奈尔大学等提出视觉prompt新方法
马毅团队新作!微调多模态大模型会「灾难性遗忘」,让性能大减
近日,来自UC伯克利、NYU等机构研究人员发现,微调后的多模态大模型,会产生灾难性遗忘。
新智元
2023/09/28
9940
马毅团队新作!微调多模态大模型会「灾难性遗忘」,让性能大减
微调时无需泄露数据或权重,这篇AAAI 2025论文提出的ScaleOT竟能保护隐私
要让大模型适应各不一样的下游任务,微调必不可少。常规的中心化微调过程需要模型和数据存在于同一位置 —— 要么需要数据所有者上传数据(这会威胁到数据所有者的数据隐私),要么模型所有者需要共享模型权重(这又可能泄露自己花费大量资源训练的模型)。此外,在第二种情况下,模型的参数可能暴露,这可能会增加其微调模型受到攻击的可能性。这些问题都可能阻碍 LLM 的长期发展。
计算机视觉研究院
2024/12/24
1370
微调时无需泄露数据或权重,这篇AAAI 2025论文提出的ScaleOT竟能保护隐私
每日学术速递2.11
作者:Hongyu Zhou, Xin Zhou, Zhiwei Zeng, Lingzi Zhang, Zhiqi Shen
AiCharm
2023/05/15
2630
每日学术速递2.11
AI_Papers周刊:第二期
1.Theory of Mind May Have Spontaneously Emerged in Large Language Models
AiCharm
2023/05/15
2540
AI_Papers周刊:第二期
大模型微调方法总结
paper:LoRA: Low-Rank Adaptation of Large Language Models(https://arxiv.org/pdf/2106.09685.pdf)
腾讯技术工程官方号
2023/07/26
2.5K0
大模型微调方法总结
​VLSM-Adapter | 轻量级适配器,加速医学图像分割的视觉语言模型 !
2010年代初,当深度神经网络能够使用大规模图像或文本数据学习强大的表示时,深度学习在单领域任务(如图像分类或语言翻译)中取得了初步成功[5,10]。由于公开可用的规模化注释图像中缺少医学图像,因此广泛使用了迁移学习,其中网络使用从自然图像(如ImageNet[5])预训练获得的权重进行初始化,并在特定领域的较小数据集上进一步微调[30]。
AIGC 先锋科技
2024/07/08
2670
​VLSM-Adapter |  轻量级适配器,加速医学图像分割的视觉语言模型 !
每日学术速递7.1
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
AiCharm
2023/07/26
2300
每日学术速递7.1
GLoRA—高效微调模型参数!
近年来,大规模深度神经网络的显著成就彻底改变了人工智能领域,在各种任务和领域展示了前所未有的性能。这些高度复杂的模型,通常具有数百万甚至数十亿个参数,在计算机视觉、自然语言理解和语音识别等领域表现出了卓越的能力。
zenRRan
2023/08/22
5110
GLoRA—高效微调模型参数!
仅需少量视频观看数据,即可精准推断用户习惯:腾讯、谷歌、中科大团队提出迁移学习架构PeterRec
推导迁移学习对计算机视觉和 NLP 领域产生了重大影响,但尚未在推荐系统广泛使用。虽然大量的研究根据建模的用户-物品交互序列生成推荐,但很少有研究尝试表征和迁移这些模型从而用于下游任务(数据样本通常非常有限)。
机器之心
2020/05/19
7600
仅需少量视频观看数据,即可精准推断用户习惯:腾讯、谷歌、中科大团队提出迁移学习架构PeterRec
【ICML2023】基于最优多任务插值的多模态基础模型迁移
来源:专知本文为论文介绍,建议阅读5分钟在这项工作中,我们提出了一种通用的参数高效迁移学习方法。 基础模型在多任务学习方面取得了很大的进展,实现了统一的单模态和多模态任务接口。然而,在迁移学习过程中,这类多任务学习器的潜力尚未得到充分利用。在这项工作中,我们提出了一种通用的参数高效迁移学习方法,称为预测-插值调优(π-调优),适用于视觉、语言和视觉-语言任务。它汇集了从类似任务中学到的轻量级任务特定专家的参数,以帮助目标下游任务。任务相似性在统一的模态无关空间中进行预测,形成一个可扩展的图表来展示任务之间
数据派THU
2023/05/11
4180
【ICML2023】基于最优多任务插值的多模态基础模型迁移
清华/浙大/川大 来拟合提出Sparse-Tuning | 显著提高预训练ViT模型在微调和推理上的效率!
大规模视觉 Transformer (ViT)模型已经在广泛的下游视觉任务中展示出强大的泛化能力。将这些模型适配到特定任务的普遍方法是遵循先预训练后微调的范式,模型最初在大规模数据集上进行预训练,然后针对每个下游任务进行微调。然而,随着这些预训练的ViT模型规模的不断扩大[57; 7],完全微调它们变得计算上更加密集。此外,在有限的下游数据集上进行微调时,还存在灾难性遗忘和过拟合的风险。
集智书童公众号
2024/06/11
3440
清华/浙大/川大 来拟合提出Sparse-Tuning | 显著提高预训练ViT模型在微调和推理上的效率!
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
作为计算机视觉(CV)研究中长期存在的挑战,视觉识别(如图像分类、目标检测和语义分割)是自动驾驶、遥感等众多计算机视觉应用的基石。深度学习的出现使得视觉识别取得了巨大成功。然而,现有的视觉识别研究大多依赖于昂贵的标注数据进行深度神经网络训练,并且通常需要为每个任务训练一个独立的网络,这导致了耗时费力的识别模式。
机器之心
2023/08/08
6500
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
一文搞懂!如何高效微调你的 LLM
当前以 ChatGPT 为代表的预训练语言模型(PLM)规模变得越来越大,在消费级硬件上进行全量微调(Full Fine-Tuning)变得不可行。此外,为每个下游任务单独存储和部署微调模型变得非常昂贵,因为微调模型与原始预训练模型的大小相同。
NewBeeNLP
2023/08/29
2.3K0
一文搞懂!如何高效微调你的 LLM
北航&北大 | 提出统一微调框架,整合前沿微调方法,可支持100多种LLMs的微调!
当前开源社区中有许多的大模型,为了能够将其适配至不同应用场景,基本上都需要精心的调整模型参数。为了能够实现对大模型的高效微调,本文作者提出了一个统一的大模型微调框架:LLAMAFACTORY,该框架整合了一系列前沿的高效微调方法,支持对100多种大模型的微调。
ShuYini
2024/03/26
8440
北航&北大 | 提出统一微调框架,整合前沿微调方法,可支持100多种LLMs的微调!
澳门大学 | 提出神经元级高效微调方法:NeFT,秒杀LoRA,性能超全参微调(FPFT)!
大模型由无数的神经元组成,不同的神经元有不同的功能,然而研究发现,并非不是所有的神经元在不同数据集上都是活跃的,而且神经元的稀疏性与特定任务能力呈正相关。为此,本文作者提出了一种神经元级高效微调方法:NeFT,它将参数训练粒度细化到单个神经元级别,性能上超过了全参数微调(FPFT)和高效参数微调(PEFT),开辟了大模型微调新方向。
ShuYini
2024/04/12
5300
澳门大学 | 提出神经元级高效微调方法:NeFT,秒杀LoRA,性能超全参微调(FPFT)!
【综述专栏】超详细的NLP预训练语言模型总结清单!
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
马上科普尚尚
2021/03/17
1.4K0
【综述专栏】超详细的NLP预训练语言模型总结清单!
推荐阅读
相关推荐
6种大模型微调技术
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档