前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >扰乱图像语言模型:对比Transformers和结构化状态空间模型用于视觉 & 语言建模 !

扰乱图像语言模型:对比Transformers和结构化状态空间模型用于视觉 & 语言建模 !

作者头像
未来先知
发布2024-09-25 15:15:06
670
发布2024-09-25 15:15:06
举报
文章被收录于专栏:未来先知

本研究探索了使用结构化状态空间模型(SSM)Mamba替代视觉语言模型(VLMs)中的 Transformer ,Mamba在序列建模方面展现出良好的性能。作者在受控条件下测试了最大30B参数的模型,结果表明基于Mamba的VLMs在描述、问答和阅读理解方面超过了基于 Transformer 的VLMs。 然而,作者发现 Transformer 在视觉定位方面取得了更好的性能,而且随着规模的增长,性能差距变得更加明显。作者提出了两个假设来解释这一现象:

  1. 对无任务视觉编码对隐状态更新的影响,以及2) 在情境中从多模态检索进行视觉定位的困难之处。

作者的结果表明,任务意识的编码在定位方面的性能提升很小,但 Transformer 在情境中的多模态检索方面明显优于Mamba。 总的来说,Mamba在依赖图像但对关键信息进行总结的任务上表现出良好的性能,但在从上下文检索明确信息的需求下,它则会遇到困难。

1 引言

现代视觉语言模型(VLMs)通常将视觉编码器产生的patch表示视为转换到基于Transformer的大型语言模型(LLM)的嵌入空间中的 Token 。这种patch-as-token方法推动了VLMs在许多细粒度视觉和语言(VL)任务上的突破,例如图像描述(Lin等人,2014年)或视觉问答(Goyal等人,2017年;Hudson和Manning,2019年)。然而,对于这些模型来说,从图像中定位局部区域(Peng等人,2023年;Kazemzadeh等人,2014年)或在图像中阅读文本(Sidorov等人,2020年;Mathew等人,2021年)等精细粒度任务要显著困难得多。这些任务需要模型理解图像中的细微之处,而不仅仅是根据视觉上下文用几个词语进行概括,就像传统的图像描述一样。

直接应对的方法是提高图像的分辨率,允许VLM“看到更多的细节”。Liu等人(2023年);Karamcheti等人(2024年);McKenzie等人(2024年)。另一方面,增加上下文长度需要大量的开销,因为基于Transformer的VLMs具有与输入的二次复杂度。结构化状态空间模型(SSMs) Gu等人(2022年);Poli等人(2023年)最近出现,在竞争性能方面提供了与Transformer相媲美的能力。Mamba Gu和Dao(2023年)是一种最近出现的SSM,它承诺了计算效率和超越类似规模的基于Transformer的语言模型的性能。

在本论文中,作者研究了Mamba LLM在包括细粒度与粗粒度多模态任务在内的既定多模态任务中,是否是一种在Transformer之上的有竞争力的替代品。选择LLM对于现代VLMs非常重要,因为最近的工作Laurencon等人(2024年)表明,对于固定总数参数,语言 Backbone 的质量比视觉 Backbone 的影响更大。具体而言,作者训练了三个Mamba-VL变体,并与Pythia-VL进行比较,Pythia-VL是一系列大小相同且遵循既定范例的模型,这些模型使用最先进的基于Transformer的语言 Backbone Biderman等人(2023年)。值得注意的是,Pythia-VL的性能与现有VLMs相当,因此确立它为一个健壮的基准模型。作者强调,这两种模型都在展示同样相同的数据和相同的训练超参数下进行训练,这样可以提供两种方法优缺点的精确指示。

作者发现,Mamba-VL在描述、问答和阅读理解方面超过了Pythia-VL,但在地面任务上,Pythia-VL模型始终实现更大的性能,而且在更大的模型中,这一差距变大。为了确定性能差异的原因,作者研究了任务无关的视觉编码,其中模型为图像表示生成嵌入,而不需要任务信息。虽然任务感知的图像编码在提高Mamba-VL的地面能力方面提供了适度的改进,但它在Transformer基础的VLMs中仍有劣势。作者通过将视觉定位视为一种上下文多模态检索任务,在这种任务中,模型需要从与 Query 相关联的序列中检索正确的标记。作者的结果表明,Transformer在样本效率方面明显优于Mamba,表明Mamba在检索任务中的内在限制,尽管它在序列建模方面取得了有前景的结果。总之,这些实验表明,Mamba在需要对图像进行概括的下游任务中可以非常有效,但在需要从图像中检索细粒度详细信息的任务中,它陷入困境。

2 Related Work

VLMs

早期的工作展现了结合预训练视觉编码器的语言模型的能力,在视觉语言任务(Tsimpoukelli等人,2021年)中。因此,当前的视觉语言模型基于相同的基础公式:一个视觉专家(Zhai等人,2023年;Fang等人,2023年),一个语言 Backbone (Touvron等人,2023年;Jiang等人,2023年;Bai等人,2023年;团队,2024年),以及在两个模块之间连接它们的连接器。这些模型的大多数都是基于高度能力的Transformer语言模型。在本工作中,作者不修改这个公式,而是研究用Mamba替换Transformer语言模型的影响。

Structured State Space Models

结构化状态空间序列模型(S4)是一类使用RNNs、CNNs和经典状态空间模型原则构建的序列模型,试图对抗Transformer在模拟长序列方面的限制。这些模型在多个合成任务上的长期依赖关系建模中展现了令人信服的结果。以前的研究显示,在对中等大小的模型进行的控制研究中,Transformer在语言建模方面优于S4模型(Arora等人,2024)。然而,Mamba 在前人S4模型的基础上,通过引入选择性扫描操作(第3.1节)展示了与Transformer的竞争力。

Mamba的应用In受其序列建模结果的启发,最近的工作将Mamba应用于计算机视觉任务,通过引入图像编码领域更好地匹配的归纳偏见。在自然语言处理中,Jamba 是一个混合架构,其中穿插了Transformer和Mamba块,而 MambaByte 是一个以字节为基础的语言模型,而不是子词。据作者所知,尚未有一种全面的研究方法来展示Mamba在多模态环境下的有效性。同时进行的工作已经将Mamba应用于多模态任务。然而,这些研究提供了有限的见解,因为1) 它们在受控条件下没有促进公平的比较,2) 它们没有调查需要同时具有高层信息和精细信息的多模态任务,例如视觉定位。

与 Transformer 相比的 SSMs 和类似RNNs的发展,以及具有竞争性能,已经激发了与Transformer进行比较的研究。最近的研究表明,SSMs可以在某些任务上匹配Transformer的即席学习性能,但是Akyurek等人(2024)证明Transformer在即席语言学习中仍具有优势。此外,Merrill等人在反对之前的说法(Gu等人,2021),提供了理论证据和实证证据,表明SSMs和Transformer的表征能力有限,不能用于状态跟踪问题。在选择性SSM的复制(例如,抄写)能力方面,Gu和Dao(2023)表明Mamba可以执行由Induction Heads(Olsson等人,2022)规定的联想回忆任务。然而,后续的工作提供了证据,表明当需要从上下文中精确地复制时,SSMs会落后于Transformer。作者利用以前工作的这些洞察力来比较VL任务。特别地,作者提出了一个合成任务,用于多模态的即席检索,以解释Mamba在视觉定位中的局限性。

3 VLM Approach

在本文中,作者提出了一个名为3VLM(Three-way Vector Machine)的方法来解决文本分类问题。3VLM方法旨在同时利用词向量(word vectors)的内部表示以及词向量之间的交互,通过构建一个三向空间来提高文本分类性能。

首先,引入了密集连接卷积神经网络(Convolutional Neural Network, CNN)结构,接着提出了三种相互独立的操作:自注意力机制(Self Attention Mechanism)、词向量拼接(Word Vector Concatenation)以及词向量加性融合(Word Vector Additive Fusion)。这三种操作分别从词向量的不同维度进行处理,进一步增强了词向量之间的交互信息,并增强了模型的表达能力。最后,通过实验结果证明,3VLM方法相较于传统的词袋模型和其它词向量表示方法,在文本分类任务上取得了更优的表现。

Preliminaries: The Mamba model

进行映射。LTI模型的输出是通过两阶段方式计算的:

S4模型首先使用离散参数、通过离散步骤和参数转化为离散参数。在给定离散参数、的情况下,离散更新被定义为递归形式方程(2a)或者通过卷积形式方程(3a):

然而,在语言建模任务下,S4模型表现不如基于注意力的模型(Arora等,2023)。Gu和Dao(2023)在实证上表明,S4模型中的时间无关参数不足以从其上下文中选择正确的信息,因为无法在每个时间步直接设置隐藏状态为零。为此,允许Mamba模型(、、)的某些参数成为输入的函数。这样一来,隐藏状态可以在输入上选择性地更新,尽管由于违反了卷积观点(方程(3a)),这需要一个具有硬件意识的实现,来有效地计算隐藏状态。有关Mamba模型的其他实现细节请查阅原始论文(Gu和Dao,2023)。

Model Architecture

图1展示了作者模型的概述。作者使用结合单模态专家的标准VL模型进行构建(刘等,2024;Alayrac等,2022;Dai等,2024)。更具体地说,作者的模型由三个单独的组件组成:图像编码器、视觉语言连接器(Visual & Language Connector)和语言 Backbone (Language Backbone)。

图像编码器 作者使用 EVA-02-L336px/14(Fang等,2023)来获取高质量视觉表示。虽然 previous work通常采用 CLIP模型(Bai等,2023;Liu等,2024),但 EVA系列在现有开源CLIP模型中优于其他模型。作者在附录C中提供了两种视觉编码器使用的中间预训练权重的比较,附录。此外,根据以前的工作(Karamcheti等,2024),作者选择使用更高分辨率的图像,因为已表明这会导致性能提升。

视觉与语言连接器 作者遵循 LLaVA-1.5 Liu等(2023)并使用二层 MLP将视觉标记映射到 LLM 期望的维度,保留了更复杂的架构选择 Dai等(2024); Bai等(2023); You等(2023)留给未来的工作。

语言 Backbone 作者使用 Mamba或Pythia Biderman等(2023)作为语言 Backbone ,它接受连接器模块传递的视觉特征,以及包含任务指令和任何样本文本的标记化的文本。作者选择 Pythia 作为基于Transformer的语言模型基准,因为 1) 它遵循了最先进的Transformer配方 Su等(2024); Dao(2023),2) 在 Mamba Gao等(2020)训练了相同的数据集,3) 提供具有相似参数数量的各种模型变体。

两个模型之间的一个关键区别是,Mamba并未为模型的位置信息分配参数。这个归纳偏见已经被 concurrent work Liu等(2024); Zhu等(2024)在应用 Mamba 到计算机视觉任务中识别出来,因为位置嵌入捕获了图像的结构。受到Fuyu Rohan等(2023)的启发,作者通过引入一个分隔标记("#")来指示图像序列的开始和结束,以及一个图像换行符("&&")来描绘一系列 Patch 的结束。

4 Datasets

作者使用一组开源数据集,以实现完全可复现的比较。对于预训练,作者利用刘等人(2024年)提供的数据集,这是概念性描述3M的子集,来自Sharma等人(2018年)的595K个描述。对于指令调整,作者使用了已经建立的粗粒度和细粒度的视觉语言任务(例如,描述,视觉问答和引用表达)。图2展示了作者在训练和评估中的所有任务示例。作者在附录A中提供了作者数据集、筛选方法和工作流程的详细信息。值得一提的是,作者将相同图像和任务的同类例子打包到单个序列中。

5 Experiments

Experimental Setup

类似刘等人在2024年的工作以及李等人在2024年的工作(Li et al. (2024)),作者采用了两步训练法。首先,在预训练数据集上只训练连接组件。接下来,解冻语言模型参数,并在指令调优数据集上进行训练。所有模型都使用相同的数据、相同的顺序和相同的训练超参数(有关更多细节请参阅附录B)进行训练。除非另有说明,否则作者报告的评价指标不包括针对特定任务的微调。每个数据集的评价指标列表见表9。

Results

1和2表展示了Pythia-VL与Mamba-VL在三个模型大小时的表现比较。作者为每个基准单独提供结果,并给出了一个汇总得分作为任务组的总体性能指示符。作者观察到,在大多数任务中,Mamba变体在与Pythia作为LLM的模型竞争力相当或者更好。具体来说,最小的Mamba-VL在参数约减少了2×10^6的情况下,甚至在无监督图像描述(NoCaps)和空间理解(VSR)上都超过了Pythia-VL。然而,性能差距与比较模型的规模成反比例关系。在阅读理解任务中,最大的性能差异被观察到。作者假设图像中的文本信息为Mamba提供了强大的信号,使其将该信息保持在隐藏状态。值得注意的是,Pythia-VL模型在所有缩放下都一致地优于Mamba-VL在所有地基任务上,但在更大的模型中,这个差距被进一步扩大。

在更高分辨率的图像上进行微调已知对基于Transformer的VLMs(Karamcheti等人,2024;Laurencon等人,2024b)有益。作者探讨了更高图像分辨率是否可以转化为Mamba的优势,由于其在强烈长序列建模能力(Gu和Dao,2023)。图3显示了在各个任务使用更高分辨率图像进行微调后的1.4B模型在VQAv2和RefCOCOg上的性能。正如预期的那样,两种模型都从更高分辨率图像中受益,差异在RefCOCOg中更加明显,可能是因为任务的细粒度。与Pythia-VL和Mamba-VL相比,两种模型在VQAv2上的改进相似,但在RefCOCOg上,Pythia-VL获得的改善远大于Mamba-VL。这进一步证实了Mamba在定位任务上的限制,作者将在第5.3节中详细讨论这一点。

Why is Grounding Difficult for Mamba?

作者观察到Mamba模型在多模态语言建模任务(如,描述,视觉问答)上非常有效。然而,在视觉定位任务中,它们与同等容量下的 Transformer 相比表现较差。_这个弱点背后的原因是什么?作者利用1.4亿参数模型,通过两种方式进行探索:①研究与任务无关的视觉编码的效果;②将视觉定位框架为在特定语境下的多模态检索任务。

5.3.1 Task-agnostic Visual Encoding

双向因果模(Transformer causal models,TCM)和串行自回归模型(Serial-to-Series Model, SSM)都采用单向操作,即给定的时间步长的表示仅与前一个和当前的标记相关。然而,SSM 实施严格一点的更新规则,其中隐藏状态只能与前一个隐藏状态和当前输入(方程②a)信息进行更新。因此,在图像先于指令出现时,patch 表示是以一种_任务无关_的方式编码的。从直觉上讲,这可能导致模型在其隐藏状态中存储"通用"信息,这对于多模态语言建模任务是有用的,但在显式视觉定位中却无用,因为模型必须记住图像中任何实体的空间位置。另一方面,在Transformer模型中,每个时间步的隐藏状态可以直接访问所有之前的时步,因此可以获取后续隐藏状态的相关信息。

作者通过在指示词调试阶段将任务指令放在图像之前,来研究任务感知的视觉编码的影响。原则上,这种简单的修改有利于Mamba成为模型,因为模型可以选择存储或忽略与任务相关的输入。图4显示了在视觉 GT 性评估中,两种模型使用任务感知编码的结果。作者观察到,平均而言,任务感知的编码使得Mamba-VL在相对上获得了较小的改进,但在这种设置下,Pythia-VL仍实现了更高的性能(见表11以查看完整结果)。此外,结果在不同的 GT 性评估指标,以及其他任务之间也有所变化,表明任务感知编码不是总是有益的。

也许通过在图像之前和 Query (例如问题,指代语句) incorporating 任务指令,以及 Mamba 等相关模型在 grounding 和其他任务上的性能可以进一步改进,与当前 VLM 训练中的数据打包做法线冲突。这与最近的研究[14]中的观察一致,表明在输入的开始位置有 Query 时,SSMs 在玩具相关回忆任务上与 Transformers 一样表现良好。然而,这与当前 VLM 训练的常见实践背道而驰[1,14]。作者预期, naively 将 Query 和输出与图像标记分开可能会降低模型性能。

5.3.2 Grounding as Multimodal Retrieval

作者可以将视觉定位视为一种语境中的多模态检索任务。在标准的语境检索任务中,模型被提供一个上下文(一个文本段落)和一个 Query (一个相关的问题),它需要提取并复制输入中对应于问题的部分。在视觉定位任务中,模型被提供一个系列的标记符(Patch tokens)作为上下文,以及一个提示,并需要引用与提示相匹配的区域。核心差异在于标记嵌入空间的不同。在标准的检索任务中,输入和模型的输出都是文本形式,而在视觉定位中,VLM通过将文本提示与视觉模态进行匹配,然后提供文本响应进行两次跳步。

因此,根据同时进行的工作[14, 15],作者引入了一个合成任务(见图5),将视觉定位作为一个检索目标,并促进可解释的模型比较。作者提供了一个预训练模型,其中一个上下文是由独特的特殊标记符(例如等)组成的,然后是 Query ()。为了在两个模态之间进行两次跳步,作者要求模型返回与特殊标记符在序列中的位置("z”)相对应的标记符词汇中的标记符ID。这种设置类似于VLM语言模型如何适应两个模态。作者将预训练模型的嵌入层进行调整以容纳新的特殊标记符(VLMs中的 Patch 标记符),并要求模型学习文本和新的嵌入空间之间的映射。最后,视觉定位是这个合成任务的实例,其中输入序列由 Patch 表示, Query 标记符是提示,输出是图像中与提示相匹配的像素。作者以不同的序列长度(50/100/200,参见附录C.4中详细信息)进行实验。在每个序列中,作者使用三种不同的学习率,并对每个特殊标记符的嵌入进行三次初始化(每个序列长度每种学习率有9次运行)。作者在一个单独的评估集上跟踪性能,并且在模型达到或超过95%的准确率时终止训练。

图6展示了两个模型的结果。作者观察到Pythia使用大约10%的训练数据可以一致地解决这个问题。另一方面,Mamba需要的训练样本约为增加序列长度的两倍,并且对于某些更长的序列,在训练结束时甚至无法达到准确率阈值。这些结果表明,在需要访问整个上下文的情况下,Mamba在固定大小的隐藏状态中检索信息的能力不足。Transformer不会遇到这个挑战,因为标记单元的表示由所有先前的单元信息决定。

最后,作者讨论了Transformer和Mamba如何学习在语境中执行检索。图7说明了在序列长度为200的合成定位任务上,两个模型在目标标记符上的表现。Pythia可以均匀地学习目标位置。另一方面,Mamba表现出不同的模式:在训练的早期阶段,它在目标标记符位于序列末尾的情况下表现得相当好,逐渐学习到在目标标记符位于序列开头的序列中检索正确的标记符,并且在训练结束时,它学会了在标记符位于序列中间的情况下执行任务。

6 Conclusion

研究结论在本工作中,作者对用于VLMs的Transformer和基于SSM的语言模型进行了比较。结果表明,Mamba在输出依赖于视觉信息的概括任务上,始终优于Transformer。另一方面,Transformer在视觉定位任务上保持领先,这得益于它能够更准确、更高效地从上下文中检索密集信息。

然而,Mamba和SSM在一般上都具有记忆和计算优势,这在需要模拟长序列的任务(如高分辨率图像、视频或多模态文档)中尤为重要。因此,将注意力机制集成到SSM [24, 25]是一种值得关注的工作途径。这种架构能够产生出能够高效从上下文中检索相关信息的有效VLMs。

特征或是缺陷?此外,作者还研究了将指令放在视觉输入前后的效果。虽然任务感知的图像编码对Mamba在视觉定位任务上提供了微小的性能提升,但其他任务上的结果波动不定。最终,作者希望得到能够无缝编码不同模态而无需强制模型对其展示的顺序分好类的多模态模型。从这个角度来看,由于输入结构不同而产生的性能差异是当前VLMs迭代仅部分地解决了这个问题的重要信号。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 引言
  • 2 Related Work
  • VLMs
  • Structured State Space Models
  • 3 VLM Approach
  • Preliminaries: The Mamba model
  • Model Architecture
  • 4 Datasets
  • 5 Experiments
  • Experimental Setup
  • Results
  • Why is Grounding Difficult for Mamba?
  • 5.3.1 Task-agnostic Visual Encoding
  • 5.3.2 Grounding as Multimodal Retrieval
  • 6 Conclusion
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档