注:本图由stable diffusion生成
论文链接:
https://arxiv.org/pdf/2304.15010.pdf
github链接:
https://github.com/ZrrSkywalker/LLaMA-Adapter
1.1 摘要
在本文中,我们提出了LLaMA-Adapter V2,一种参数高效的视觉指令模型。具体而言,我们首先通过解锁更多可学习参数(例如,norm、偏置和比例),增强LLaMA Adapter,这些参数在整个LLaMA模型中分布指令跟踪能力。其次,我们提出了一种早期融合策略,只将视觉token输入到早期的LLM层,有助于更好地融合视觉知识。第三,通过优化可学习参数的不相交组,引入了图像-文本对和指令跟踪数据的联合训练范式。这种策略有效地缓解了图像-文本对齐和指令跟踪这两个任务之间的干扰,并通过小规模的图像-文本和指令数据集实现了强大的多模态推理。在推理过程中,我们将额外的专家模型(例如,字幕,OCR系统)集成到LLaMA-Adapter中,以在不增加训练成本的情况下进一步提高其图像理解能力。与原始的LLaMA-Adapter相比,LLaMA-Adapter V2只需在LLaMA上引入14M参数,就可以执行开放式多模态指令。新设计的框架还展示出更强的基于语言的指令跟踪能力,甚至在聊天互动中表现出色。
1.2 引言
① 在LLaMA-Adapter中,动态视觉提示被融入到最后的L层静态适应提示中。然而,在LLaMA-Adapter V2中,我们将动态视觉提示分布到仅在前K层,其中K < N - L,N表示Transformer层数总数。
② 此外,我们通过解锁更多可学习参数,如归一化、层偏置和比例,来扩展LLaMA-Adapter,我们称之为线性层的偏置调整。
③ 最后,我们引入额外的专家模型(例如,字幕、检测和OCR系统)来增强LLaMA-Adapter V2的图像理解能力,使我们的方法区别于依赖大量图像-文本对训练数据的MiniGPT-4和LLaVA等其他方法。
④ 我们将主要贡献总结如下:
• (1) 更强大的语言指令模型。通过参数高效的调整策略和高质量的语言指令数据,LLaMA-Adapter V2在语言指令跟踪性能方面超越了其前身LLaMA-Adapter。此外,LLaMA-Adapter V2能够进行多轮对话,展示出其作为语言指令模型的更强能力。
• (2) 平衡视觉指令调整。我们提出了一种简单的早期融合策略,以解决图像-文本对齐和指令跟踪学习目标之间的干扰。因此,我们将LLaMA-Adapter V2转变为一种视觉指令模型,无需多模态指令训练数据。
• (3) 专家系统集成。我们采用模块化设计,不是端到端地在大量图像-文本对上进行预训练,而是将不同的专家模型集成到我们的框架中,以增强LLMs的图像理解能力。
1.3 LLaMA-Adapter V2
1.3.1 线性层的偏置调整
① 我们提出了一种偏置调整策略,除了适应提示和门控因子之外,还将指令线索融入到LLaMA中。具体来说,为了适应性地处理指令跟随数据的任务,我们首先解锁LLaMA中所有的归一化层。
② 对于Transformer中的每个线性层,我们分别添加偏置和比例因子作为两个可学习参数。我们将某个线性层的输入和预训练权重分别表示为 x 和 W。
③ 在LLaMA-Adapter V2中,我们使用偏置 b 和比例 s 修改线性层,如下所示:
png-01
与零初始化注意力类似,我们分别用零和一初始化偏置和比例因子,以稳定训练过程的早期阶段。通过结合偏置调整策略和高质量指令数据,LLaMA-Adapter V2获得了卓越的指令跟随能力。
④ 我们的偏置调整策略是输入不可知的,与使用低秩变换添加输入感知偏置的低秩适应(LoRA)不同,进一步降低了微调成本。
1.3.2 分离参数的联合训练
① 我们为LLaMA Adapter V2提出了一种联合训练范式,以利用图像文本标注数据和仅语言指令示例。
② 我们的联合训练策略分别针对图像文本对齐和指令跟随优化LLaMA-Adapter V2中的不相交参数组。
③ 具体来说,只有视觉投影层和早期零初始化注意力(带门控)用于图像文本标注数据,而后期适应提示与零门控、解锁的标准化、新添加的偏置和比例因子(或可选的低秩适应[25])用于从指令跟随数据中学习。
④ 这种分离参数优化自然解决了图像文本理解与指令跟随之间的干扰问题,从而有助于LLaMA-Adapter V2的视觉指令跟随能力的突现。
png-02
1.3.3 视觉知识的早期融合
① 为了避免视觉和语言微调之间的干扰,我们提出了一种简单的早期融合策略,以防止输入视觉提示和适应提示之间的直接交互。
② 在LLaMA-Adapter V2中,我们将编码后的视觉tokens和适应提示注入到不同的Transformer层中,而不是将它们融合在一起。
③ 对于数据集共享适应提示,我们遵循LLaMA-Adapter,在最后L层(例如,L=30)插入它们。
④ 对于输入视觉提示,我们将它们与第一个Transformer层的零初始化注意力中的单词token直接连接,而不是将它们添加到适应提示中。
png-03
1.3.4 专家系统集成
① 我们的LLaMA-Adapter V2在更小规模的通用图像字幕数据上进行微调,使其更具数据效率。
② 我们建议将专家系统(如字幕、OCR和搜索引擎)集成到LLaMA-Adapter V2中,以提供额外的视觉推理能力,而不是收集更多的图像文本数据或采用更强大的多模块。
③ 在我们的默认实现中,我们采用在COCO Caption [6]上预训练的LLaMA-Adapter作为专家系统,因为它可以生成简短且准确的图像描述。
png-04
1.4 实验
1.4.1 实验设置
> 训练数据
① 我们在GPT-4-LLM的52K单轮指令数据和COCO Caption的567K字幕数据上训练LLaMA Adapter V2。
② 我们不使用像MiniGPT-4和LLaVA这样的视觉指令数据。
③ 此外,我们还使用ShareGPT收集的80K对话数据训练一个聊天机器人系统。
> 实现细节
① 对于具有32个Transformer层的LLaMA-7B模型,我们将静态适应提示插入到最后31层。-
② 此外,我们将动态视觉提示添加到第一层,提示长度设置为20。
③ 在训练过程中,将更新规范化层中的所有参数、线性层偏置和比例,而LLaMA中的其余参数保持冻结。
1.4.2 更强大的语言指令模型
通过所提出的偏置调整策略和高质量指令数据,LLaMA-Adapter V2能够进一步提高LLaMA的指令遵循能力。
考虑到偏置调整涉及更多可学习参数以进行知识更新,因此可以构建一个需要更深入了解语言上下文的聊天机器人系统。
png-05
1.4.3 视觉指令模型
> 图像字幕
仅通过将视觉特征添加到适应提示中,LLaMA-Adapter就可以支持多模态输入。在对COCO字幕数据集进行微调后,我们将LLaMA-Adapter转变为一个强大的图像字幕生成器。
通过采用早期融合和联合训练,LLaMA-Adapter V2已经成为一个强大的视觉指令模型,可以同时执行语言指令遵循和图像字幕生成。
png-06
png-07
> 视觉理解
多亏了我们提出的联合训练和早期融合技术,LLaMA-Adapter V2展现出了卓越的多模态理解能力。
png-08
> 专家系统集成
为了进一步提高LLaMA-Adapter V2的视觉理解能力,我们在推理过程中整合视觉专家模型,根据输入图像提供额外的文本上下文。
专家集成从而在很大程度上扩展了LLaMA-Adapter V2的能力,并充分发挥了其多模态推理潜力。
png-09
png-10