前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >浙大 & 西湖 | 提出Cobra多模态大模型,整合Mamba,计算效率大幅提升!

浙大 & 西湖 | 提出Cobra多模态大模型,整合Mamba,计算效率大幅提升!

作者头像
ShuYini
发布2024-03-27 12:54:34
发布2024-03-27 12:54:34
8620
举报

引言

近年来,多模态大型语言模型(MLLM)在多个领域上取得了成功,但现有MLLM主要是基于Transformer训练得到,计算效率较低。为此,本文作者提出了Cobra,一个具有线性计算复杂度的MLLM,它将Mamba语言模型整合到了视觉模态中。实验结果显示,Cobra在性能上与最先进的方法相当,速度更快,尤其在处理视觉错觉和空间关系判断方面表现突出。Cobra的参数量只有LLaVA的43%,但性能相当。

https://arxiv.org/pdf/2403.14520v2.pdf

研究背景

大语言模型(LLMs)的出现带领自然语言处理迈向了一个新的台阶。相比之前的中小型任务模型,人们对大模型有了更新的期待。只要增加数据量、扩大语言模型的规模,就能显著提升模型在各种应用场景中的能力。

但是,如果仅仅是依赖文本训练的大模型,将不足以适应更多样的任务场景。为此,结合了各种视觉信息、语音信息、文本信息训练得到的多模态大模型(Multimodal Large Language Models,简称MLLM),将是未来大模型的发展趋势。视觉-语言模型(VLMs)作为传统LLMs的自然扩展,通过增强LLMs的视觉信息处理能力,使得模型能够更好地理解和生成与视觉内容相关的文字描述。OpenAI的GPT4V和Google的Flamingo等VLMs展示了出色的视觉理解能力。「尽管VLMs普遍采用Transformer架构来构建模型,但这种架构的二次计算复杂度限制了其在大模型实际的应用」

为了解决这一问题,视觉Transformer(ViT)被用来将图像数据转换为序列标记,为计算机视觉任务提供了强大的基础架构。ViT通过Transformer网络生成序列化的隐藏表示,这在深度学习领域已被证明是一种有效的范式。ViT可以通过各种预训练方案进行训练,包括监督学习和无监督的对比学习。

「状态空间模型(SSMs)在处理长序列建模、图像生成和强化学习任务时表现出了巨大的潜力」。SSMs的一个显著特点是它们可以作为递归神经网络(RNN)来高效地进行自回归推理,或者并行处理整个输入序列,类似于基于注意力的Transformer的高效训练。最近,一种新的选择性状态空间模型——Mamba,因其与相同规模的LLMs相比具有竞争性能,且推理速度随时间线性增长,内存使用量保持恒定,而被认为是Transformer架构的一个强有力的竞争者。

为了提高这些多模态模型(MLLMs)的计算效率,本文作者提出了一种新的方法,该模型使用状态空间模型(SSM)作为骨干网络,而不是基于注意力的Transformer,通过将Mamba语言模型与视觉模态高效相结合,探索和研究了多种模态融合方案,以创建有效的多模态Mamba。

Cobra大模型

「Cobra」模型是一个多模态大语言模型(MLLM),「旨在解决现有多模态大型语言模型(MLLMs)在计算效率上的瓶颈问题」。Cobra模型通过整合高效的Mamba语言模型和视觉信息,以提高模型的推理效率。其模型架构如下图所示:

「Cobra模型的核心是Mamba语言模型」,它是一种基于状态空间模型(SSM)的语言模型,与基于Transformer的模型相比,Mamba在性能上具有竞争力,但计算效率更高。Mamba模型通过其独特的结构,能够以线性的时间复杂度处理序列数据,这一点在处理大规模数据时尤为重要。

为了使Cobra能够处理视觉信息,作者为Mamba模型配备了图像编码器,这样就可以将视觉数据整合到模型中。图像编码器将输入的图像分割成多个小块,然后通过预训练的DINOv2和SigLIP视觉编码器提取特征,生成紧凑的视觉表示。这些视觉表示随后通过一个投影层(projector)与文本嵌入相结合,使得视觉和文本信息在同一潜在空间内得到有效融合。

Cobra模型的采用了一种新的训练策略,即直接对整个LLM骨架和投影层进行微调,而不是仅仅对投影层的预对齐阶段进行训练。这种训练方法存在两个阶段,使用的数据集包括视觉多轮对话数据、视觉指令调整数据和纯文本指令调整数据。

在多个VLM基准测试中,Cobra模型展现出了优异的性能。它不仅在计算效率上超越了Transformer系列模型,而且在速度上也比MobileVLM v2 3B和TinyLLaVA 3B快3到4倍。值得注意的是,Cobra的参数量只有LLaVA的43%,但性能却能与其相当。

实验结果

「在模型性能方面」,Cobra模型在多个基准测试集上,相比当前计算效率较高的几个模型(如LLaVA-Phi、TinyLLaVA和MobileVLM v2)都具有极强的竞争力。

「在推理速度方面」,与基于 Transformer 的模型相比,Cobra模型具有显着优势。与经过多次轻量级优化的 MobileVLM v2 相比,当处理的图像 token 数量显着增加时,Cobra 仅花费了约 30% 的时间来完成推理。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 研究背景
  • Cobra大模型
  • 实验结果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档