Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Pcb-Merging:无需训练的多任务模型合并方案 | NeurIPS'24

Pcb-Merging:无需训练的多任务模型合并方案 | NeurIPS'24

原创
作者头像
VincentLee
发布于 2024-11-22 01:17:41
发布于 2024-11-22 01:17:41
990
举报

来源:晓飞的算法工程笔记 公众号,转载请注明出处

论文: Parameter Competition Balancing for Model Merging

创新点


  • 重新审视了现有的模型合并方法,强调参数竞争意识的关键作用。
  • 提出了一种名为 ${\tt Pcb-Merging}$ 的新方法,通过平衡参数竞争有效地调整参数系数。
  • 提出的方法在各种应用场景中稳定并提升了模型合并性能,无需额外训练。

内容概述


尽管对预训练模型进行微调已成为一种常见做法,但这些模型在其特定领域之外往往表现不佳。最近模型融合技术使得能够将多个经过不同任务微调的模型直接集成到一个模型中,集成模型具备多任务能力而无需在原始数据集上进行重新训练。然而,现有方法在解决任务之间潜在冲突和复杂相关性方面存在不足,特别是在参数级别调整中,造成在不同任务间有效平衡参数竞争的挑战。

论文提出了轻量级且无需训练的创新模型融合技术 ${\tt Pcb-Merging}$ (Parameter Competition Balancing),通过调整每个参数的系数实现有效的模型融合。 ${\tt Pcb-Merging}$ 采用内部平衡来评估各个任务中参数的重要性,并采用外部平衡来评估不同任务间的参数相似性。重要性分数较低的参数被舍弃,其余参数被重新缩放,以形成最终的融合模型。

论文在多种融合场景中评估了该方法,包括跨任务、跨领域和跨训练配置,以及领域外泛化。实验结果表明,该方法在多个模态、领域、模型大小、任务数量、微调形式以及大型语言模型中实现了显著的性能提升,超越了现有的模型融合方法。

PCB-Merging


最近的模型合并研究基于任务向量完成各种任务算术操作和模型合并。对于任务 $Ti$ ,任务向量 $\tau{i} \in \mathbb{R}^\textrm{d}$ 定义为通过从微调权重 $\theta\textrm{i}$ 中减去预训练权重 $\theta\textrm{pre}$ 所得到的向量,即 $\tau{i} = \theta\textrm{i} - \theta\textrm{pre}$ ,用于专注每个任务特定模型微调阶段发生的变化。基于任务向量的多任务模型合并方法可以表达为 $\theta_m = \theta\textrm{pre} + \lambda * \sum{i=1}^{n}\tau_i$ ,其中系数 $\lambda$ 表示合并任务向量 $\tau_m$ 的重要性。这个概念简单而有效,显著优于简单的权重平均方案,即 $\theta_m = (1/N)\sum{i=1}^{n}\theta_i$ 。

平衡参数竞争

PCB-Merging旨在调节每个任务和参数的缩放因子,实现任务内部和平衡任务之间的相互平衡。具体而言,使用参数竞争平衡(PCB)矩阵 $\beta_i \in \mathbb{R}^{d}$ 来调整每个任务模型 $\theta_i \in \mathbb{R}^{d}$ 中参数的规模,从而得到最终的融合模型,具体如下:

  • Intra-Balancing

首先,通过对任务向量的幅度应用非线性激活函数(即softmax)来实现self-awareness,强调重要参数,同时在一定程度上抑制冗余参数。

随着融合任务数量的增加,参数之间的竞争加剧。因此,使用任务数量 $N$ 来调节冗余参数的抑制程度。

$$

\begin{equation}

\beta_{intra, i} = \text{Softmax}(N*\text{Norm}({\tau}_i \odot{\tau}_i))

\end{equation}

$$

  • Inter-Balancing

接下来,使用cross-awareness来使一组任务内的参数能够与其他参数互动,从而解决任务之间潜在的冲突和复杂的相关性。

为了实现这一目标,计算不同任务向量中相同位置参数之间的相似度,使得每个参数能够基于来自其他任务的信息更新其分数。计算过程如下:

$$

\begin{equation}

\beta{inter, i} = \sum\nolimits{j=1}^{n} \text{Softmax}(\text{Norm}({\tau}_i \odot{\tau}_j))

\end{equation}

$$

  • Drop and Rescale

得到 $\beta{i} = \beta{intra, i} \odot \beta_{inter, i}$ 后,基于 $\beta_i$ 构建一个掩码 $m_i \in \mathbb{R}^{d}$ 以关注更重要的参数。具体而言,这个掩码 $m_i$ 用于从 $\beta_i$ 的 $D$ 个元素中选择高分数元素。

定义掩码比例为 $r$ ,其中 $0 < r \leq 1$ 。掩码 $m_i$ 可以通过以下公式推导得出:

$$

\begin{equation}

m_{i, d} = \begin{cases}

1,& \text{if } \beta_{i, d} \geq\text{sorted}(\beta_i)(1-r) \times D \

0,& \text{otherwise}

\end{cases}

\end{equation}

$$

重要性分数定义为 $\hat{\beta} = m_i \odot \beta_i$ ,使用掩码平衡矩阵的分数来加权每个任务向量中每个参数的重要性,得到最终合并的任务向量 $\tau_m$ :

$$

\begin{equation}

\taum = \sum\nolimits{i=1}^{n}(\hat{\beta}i \odot{\tau}_i) / \sum\nolimits{i=1}^{n}\hat{\beta}_i

\end{equation}

$$

最终合并的任务向量 $\taum$ 可以进一步按比例调整其幅度,并将其与初始参数值结合以生成融合后的模型参数 $\theta_m$ ,表示为 $\theta_m = \theta\textrm{pre} + \lambda * \tau_m$ ,其中 $\lambda$ 是一个缩放超参数。

系数搜索

先前的研究表明,基于任务向量的模型合并方法对合并系数 $\lambda$ 非常敏感。即便选取了合适的统一 $\lambda$ ,要进一步提高融合性能仍然需要对每个任务向量进行合并系数的网格搜索。这个过程复杂且繁琐,特别是在处理大量任务时。

论文采用智能优化算法来搜索混合系数,旨在比使用统一系数获得更大的改进。这一优化过程旨在寻找最佳的集合 ${\lambda_1, \cdots, \lambda_n}$ ,以增强验证准确性,最终目标是最大化合并模型的验证准确性。

$$

\begin{equation}

\thetam = \theta\textrm{pre} + \sum\nolimits{i=1}^{n}(\hat{\beta}_i \odot \lambda_i {\tau}_i) / \sum\nolimits{i=1}^{n}\hat{\beta}_i

\end{equation}

$$

在大多数实验设置中,主要使用协方差矩阵自适应进化策略(CMA-ES)。作为一种基于概率的种群优化算法,CMA-ES动态调整由协方差矩阵定义的搜索分布。它在每次迭代中系统地更新该分布的均值和协方差,以学习并利用搜索空间的潜在结构,从而提高优化效率。

主要结果


如果本文对你有帮助,麻烦点个赞或在看呗~undefined更多内容请关注 微信公众号【晓飞的算法工程笔记】

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
SINE:上下文示例驱动,打造真正的通用分割模型 | NeurIPS'24
论文: A Simple Image Segmentation Framework via In-Context Examples
VincentLee
2025/01/02
1271
SINE:上下文示例驱动,打造真正的通用分割模型 | NeurIPS'24
EXITS:基于极值点低标注成本弱监督实例分割 | CVPR 2024
论文: Extreme Point Supervised Instance Segmentation
VincentLee
2024/08/26
1170
EXITS:基于极值点低标注成本弱监督实例分割 | CVPR 2024
KDD'22|序列推荐:多行为超图增强的Transformer
本文主要针对序列推荐场景学习用户动态偏好,以往的方法更多的是关注单一交互类型,本文设计了一个多行为超图增强的 Transformer 框架 (MBHT) 来捕获短期和长期的跨类型行为依赖关系。具体来说,多尺度 Transformer 结合低秩自注意力,从细粒度和粗粒度级别联合编码行为感知序列模式。将全局多行为依赖商品合并到超图神经架构中,捕获分层的长期商品相关性。
秋枫学习笔记
2022/09/19
1.2K0
AAAI'22「腾讯」多任务推荐系统中的跨任务知识蒸馏
多任务学习被广泛应用于推荐系统,先前的工作专注于设计底部层的结构来共享输入数据的信息,但是由于它们采用特定任务的二分类标签作为训练的监督信号,因此关于如何准确排序商品的知识并未在任务之间完全共享。
秋枫学习笔记
2022/09/19
4880
Latex 公式速查
所有的在 Latex 使用的字符公式,都需要放在\(和\),$ 和 $,\begin{math} 和\end{math}之间。
林德熙
2022/08/12
2.1K0
Latex 公式速查
MultiFS: 深度推荐系统中的自动多场景特征选择
传统的多场景推荐系统(MSRS)通常不加区别的使用所有相关的特征,忽视了特征在不同场景下的不同重要性,往往会导致模型性能下降。本文提出了多场景特征选择(MultiFS)框架来解决此问题,MultiFS能考虑场景间的关系,并通过分层门控机制为每个场景选择独特的特征。
秋枫学习笔记
2024/03/18
8660
MultiFS: 深度推荐系统中的自动多场景特征选择
浙江理工 & 谷歌开源 CFMW | 挑战恶劣天气,Mamba 引领目标检测新风向!
在开放和动态的环境中,目标检测面临如雨、雾和雪等具有挑战性的天气条件。基于深度学习的目标检测方法的快速发展显著提高了识别和分类物体的能力。得益于先进的特征提取和融合策略,跨模态目标检测方法已达到高精度,例如CFT(杨等人,2017年)、GAFF(杨等人,2017年)和CFR
集智书童公众号
2024/05/10
1.6K0
浙江理工 &  谷歌开源 CFMW | 挑战恶劣天气,Mamba 引领目标检测新风向!
MCTF 即插即用 | 多准则Token融合让DeiT将FLOPs减少了44%,性能却得到了提升
视觉Transformer [12](ViT)被提出用于借助自注意力机制解决视觉任务,这一机制最初是为自然语言处理任务而开发的。随着ViT的出现,Transformers已成为广泛视觉任务的主流架构,例如,分类,目标检测,分割等。仅由自注意力和多层感知机(MLP)构建的ViTs,与传统方法(如卷积神经网络(CNN))相比,提供了极大的灵活性和令人印象深刻的性能。然而,尽管有这些优势,自注意力关于 Token 数量的二次计算复杂性是Transformers的主要瓶颈。随着对大规模基础模型(如CLIP)的兴趣日益增长,这一局限变得更加重要。为此,一些研究提出了有效的自注意力机制,包括在预定义窗口内的局部自注意力。
集智书童公众号
2024/03/25
7460
MCTF 即插即用 | 多准则Token融合让DeiT将FLOPs减少了44%,性能却得到了提升
FALCON:打破界限,粗粒度标签的无监督细粒度类别推断,已开源| ICML'24
论文: Fine-grained Classes and How to Find Them
VincentLee
2024/09/10
1380
FALCON:打破界限,粗粒度标签的无监督细粒度类别推断,已开源| ICML'24
新思路,基于Diffusion的初始化权重生成策略 | ECCV'24
论文: Efficient Training with Denoised Neural Weights
VincentLee
2024/10/24
1370
新思路,基于Diffusion的初始化权重生成策略 | ECCV'24
ScanFormer:逐层抵达目标,基于特征金字塔的指代表达理解框架 | CVPR'24
论文: ScanFormer: Referring Expression Comprehension by Iteratively Scanning
VincentLee
2024/09/23
1610
ScanFormer:逐层抵达目标,基于特征金字塔的指代表达理解框架 | CVPR'24
SPiT:超像素驱动的非规则ViT标记化,实现更真实的图像理解 | ECCV 2024
论文: A Spitting Image: Modular Superpixel Tokenization in Vision Transformers
VincentLee
2024/09/12
1250
SPiT:超像素驱动的非规则ViT标记化,实现更真实的图像理解 | ECCV 2024
一元线性回归
相关关系是指变量之间存在的不确定的数量关系。这种关系与函数关系最大的区别是一个变量的取值不能由另一个变量唯一确定。
爱编程的小明
2022/09/06
1.7K0
一元线性回归
Latex 公式速查
所有的在 Latex 使用的字符公式,都需要放在\(和\),$ 和 $,\begin{math} 和\end{math}之间。
林德熙
2018/09/19
2.5K0
Latex 公式速查
Latex常用公式整理
LaTeX 公式有两种,一种是用在正文中的,一种是单独显示的。正文中的公式用…来定义,单独显示的用
孔西皮
2021/03/04
1.3K0
CIKM'21「华为」推荐系统:用于协同过滤的余弦对比损失
协同过滤(CF)一般包含三个部分:交互编码器、负采样和损失函数。现有的大部分工作集中在设计更强模型上,对负采样和损失函数的改进的相关工作比较少。相较于交互信息的编码而言,另外两者也同样重要,本文作者提出了一个新的损失函数 cosine contrastive loss (CCL) ,将其合并到统一的CF框架中,命名为simpleX 。
秋枫学习笔记
2022/09/19
9360
DLA:动态层级注意力架构,实现特征图的持续动态刷新与交互 | IJCAI'24
论文: Strengthening Layer Interaction via Dynamic Layer Attention
VincentLee
2024/09/19
1670
DLA:动态层级注意力架构,实现特征图的持续动态刷新与交互 | IJCAI'24
CIKM'21「华为」推荐系统 | 因果推断+强化学习:反事实用户偏好模拟
文中涉及变分推断,可参考这篇阅读:https://zhuanlan.zhihu.com/p/70644599
秋枫学习笔记
2022/09/19
8160
CIKM'22 | 序列推荐中的双重倾向性估计缓解数据有偏问题
对于序列推荐中的数据有偏问题,现有的基于逆向倾向分数(IPS)的无偏学习是在商品维度的,即将反馈数据视为与用户交互的商品序列。然而,也可以从用户的角度将反馈数据视为与商品交互的用户序列。此外,这两种视角可以共同增强倾向得分估计。本文从用户和商品的角度来估计倾向得分,称为双重增强倾向得分估计(DEPS)。具体而言,给定目标用户-商品对以及相应的商品和用户交互序列,DEPS首先构建一个时间感知因果图来表示用户-商品观察概率。根据该图,基于同一组用户反馈数据,分别从商品和用户的视图估计两个互补倾向得分。最后,设计了两个Transformer来进行最终的偏好预测。
秋枫学习笔记
2023/01/30
5360
HTML
机器学习笔记 评估指标 准确率 查准率 How many relevant items are selected? accuracy=TP(TP+FN) 召回率 查全率 How many sel
刘笑江
2018/05/28
2.9K0
推荐阅读
相关推荐
SINE:上下文示例驱动,打造真正的通用分割模型 | NeurIPS'24
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档