Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !

TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !

作者头像
AIGC 先锋科技
发布于 2025-04-13 08:36:37
发布于 2025-04-13 08:36:37
2870
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

Transformer架构在单模态和多模态基础模型中备受青睐,因其在注意力模块上的灵活可扩展性。因此,许多预训练的Transformer模型,例如LLaVA、CLIP和DEIT,已公开可用。近期研究引入了亚二次复杂度的架构,如Mamba,这使得全局感知具有线性复杂度。然而,从零开始训练特定任务的专业亚二次复杂度架构既耗费资源又耗时。 作为推动因素,作者探索了跨架构训练的方法,将现有Transformer模型中的知识转移到替代架构Mamba中,称为TransMamba。作者的方法采用两阶段策略来加速训练新的Mamba模型,并确保其在单模态和跨模态任务中的有效性。 针对架构差异,作者在转移知识之前将中间特征投影到对齐的潜在空间中。此外,作者提出了一种名为Weight Subcloning and Adaptive Bidirectional Distillation (WSAB)的方法,用于无条件限制地进行知识转移。 对于跨模态学习,作者提出了一个跨Mamba模块,将语言 Aware 整合到Mamba的视觉特征中,增强了Mamba架构的跨模态交互能力。尽管使用不到75%的通常所需的训练数据从零开始训练,但TransMamba在多种网络架构和下游任务上,包括图像分类、视觉问答和文本视频检索,表现出了显著的优势。

1. Introduction

Transformer [53] 架构对计算机视觉领域产生了深远的影响,它们灵活的注意力模块结构被认为是其成功的关键因素之一。尽管这些架构非常流行,但 Transformer 遇到了计算复杂度问题,因为其注意力机制的计算复杂度呈二次方增长 [2],这导致了计算和内存使用的增加。因此,这给模型优化和扩展带来了重大挑战,阻碍了它们的广泛应用。为应对这一挑战,近期的研究引入了一些亚二次的架构,例如 Mamba 和 RWKV [13, 40]。然而,为了针对各种下游任务从头开始训练专门的亚二次模型,会面临显著的计算负担,并产生更高的二氧化碳排放量。幸运的是,作者观察到许多基于 Transformer 的预训练模型,例如 LLaVA [42] 和 CLIP [42] 等已经公开可用。

自然地提出一个问题:作者是否可以从这些广泛可用的基于 Transformer 的预训练模型向亚二次模型,如 Mamba,转移知识?本文旨在研究如何利用广泛可用的基于 Transformer 的预训练模型来为亚二次模型,如 Mamba,提供更经济且高效的训练方法。

在作者的研究中,作者着重解决了两个关键挑战:

  1. 跨架构学习问题:这涉及到将一个架构框架(预训练的Transformer模型)的知识适应到另一个框架(Mamba模型)。此外,作者必须确保转移的知识能够保持有效性,并增强目标模型的性能,而不损害其结构完整性。
  2. 为基于SSM的模型配备跨模态交互能力:这包括开发方法以无缝集成和处理来自不同模态(例如文本和图像)的信息,从而提高基于SSM的模型在复杂任务中的通用性和应用范围。作者应该确保基于SSM的模型能够理解和利用各种类型数据之间的关系。

针对第一个挑战,作者的方法引入了一种两阶段策略,通过利用预训练Transformer模型的知识来提高基于SSM模型的训练效率和性能。作者首先使用一个简单的MLP层将不匹配的表示转换到对齐的潜在空间中,从而实现了跨架构中间层的知识蒸馏。然而,最后的Transformer层与不同 Level 的基于SSM的层之间存在一致性不一致的问题。

作者采用余弦相似度来评估各层之间的相关性,并提出自适应知识蒸馏策略,即高相似度特征接收较小的权重系数,反之亦然。为了解决双路逆Mamba处理图像信息时的不一致优化问题,作者提出了双向(前向/后向)蒸馏策略分别优化不同的处理过程。仅仅依赖于蒸馏可能不能有效地促进知识转移,特别是在大型模型中。权重复用对于确保传递知识的准确性和效率至关重要。具有类似架构的模型权重可以直接用于初始化。然而,由于架构差异,跨架构权重复用具有挑战性。受到[45]的启发,作者从预训练Transformer模型中初始化基于SSM的模型。两者之间的区别在于架构相似性和跨架构(注意力机制和SSM)。对于架构差异,除了QKV投影层外,作者重新训练其余权重。对于维度差异,作者使用部分重要权重来自预训练Transformer模型以匹配基于SSM的模型的维度。权重子克隆也有助于加速收敛。

在第二个挑战中,现有基于SSM的模型缺乏跨模态交互能力[9, 27],这对其应用于各种多模态场景造成了重大限制。受跨注意力机制[5]的启发,作者提出了一种跨Mamba模块,用于将多模态理解能力整合到SSM中。通过堆叠Mamba和跨Mamba模块,新型Mamba模型得以有效处理视觉-语言任务,并且保持了高效性和性能。

本工作主要选用Mambas作为SSM-Based模型的实现。作者采用两阶段方法,将预训练Transformer的知识转移到Mamba及其变体中。作者的方法速度快且具有普适性,能够提升Mamba的训练效果,并适用于多种架构。此外,作者通过包括图像分类、视频检索和视觉问答在内的详尽实验设置验证了所提方法的泛化能力。

  1. 作者提出了一种快速且通用的两阶段框架,该框架将现有预训练Transformer模型的知识转移到基于SSM的新模型中,从而在较低的成本下提升训练效率和后续性能。
  2. 重量子克隆与自适应双向蒸馏(WSAB):作者使用重量子克隆技术实现跨架构转移,高效利用预训练知识。
  3. 此外,作者还提出了一种适用于Mamba架构的自适应前向/后向蒸馏方法,并赋予Mamba多模型交互的能力。
  4. 全面验证:作者在广泛的 Backbone 网络架构和多种应用场景下验证了所提出的方法,包括视觉问答、视频检索和图像分类。

2. Related Work

Transformers 变换了范式,在视觉任务中展示了强大的感知能力,并已成为视觉领域最有前景的基础模型之一。单模态任务:早期基于ViT的模型通常需要大规模的数据集进行训练,并且具有相对简单的架构。随后,DeiT 采用了一些训练技术来解决优化过程中遇到的问题,研究逐渐倾向于在网络设计中融入视觉感知的归纳偏置。例如,社区提出了分层ViT[8, 11, 35],逐步降低 Backbone 网络的特征分辨率。此外,其他研究则利用卷积神经网络(CNN)的优势,引入卷积操作[6, 8, 54] 或者设计结合了CNN和ViT模块的混合架构[8]。多模态任务:CLIP 利用多模态预训练重新定义分类任务为目标检索,从而推动了跨领域应用的发展。LLaVA 将CLIP与大语言模型相结合,通过对生成的视觉-语言指令数据进行端到端微调,取得了优秀的多模态指令数据集性能。然而,注意力机制[2]在图像Token长度上表现出二次复杂度,这导致了对诸如目标检测[60]、语义分割[51]等密集预测任务带来了显著的计算开销。这一局限性限制了Transformers的应用效果。

状态空间模型 状态空间模型(SSMs)已被证明在通过状态空间变换捕捉语言序列的动力学和依赖关系方面非常有效。结构化的状态空间序列模型(S4)[20, 21, 49]专门设计用于处理长距离依赖关系,并具有线性复杂度。在引入S4之后,提出了更多相关模型,如S5 [48]、H3 [17] 和GSS [39]。

Mamba通过结合数据依赖的状态空间层和被称为并行扫描的选择机制(S6)[19]而脱颖而出。与依赖于具有二次复杂度的注意力机制的Transformer模型相比,Mamba在处理长序列时具有线性复杂度,表现出色。在计算机视觉领域,SSM最初被应用于像素级图像分类,而S4则用于管理电影剪辑分类中的长程时间依赖关系。此外,Mamba的潜力激发了大量研究,展示了其在诸如目标检测[60]和语义分割[38]等视觉任务中的优越性能以及更高的GPU效率。不同于以往工作,作者的TransMamba旨在以跨架构的方式探索利用预训练Transformer模型的知识来构建具有Mamba架构的新模型的潜力。

迁移学习 多种方法提出了将Transformer的知识转移到卷积神经网络(CNN)的方法。[33]引入了交叉注意力投影和组线性投影,以在两个投影特征空间中对齐学生的特征与教师模型。[18]提出了一种名为跨模型知识蒸馏(CMKD)的新方法用于音频分类,其中使用CNN和音频光谱 Transformer (AST)模型相互作为教师来训练学生模型。[24]讨论了在特征空间中丢弃与架构相关的信息,以防止学生模型受到不相关信息的干扰。最近,在自然语言处理(NLP)领域的一些研究[1, 55]聚焦于从Transformer向Mamba的知识转移过程。

[55]提出利用大型 Transformer 模型的注意力层的线性投影权重进行少GPU资源条件下的跨架构蒸馏,实现了性能与大型 Transformer 模型相当的结果。[1]认为Transformer和自适应统计建模(Adaptive Statistical Models, SSMs)都通过不同的混叠矩阵形式作用于Token序列,并提出了一种渐进式蒸馏策略,通过匹配SSM的不同粒度 Level 来蒸馏Transformer架构。[30]采用简单的蒸馏损失来利用教师网络丰富的表示知识。据作者所知,目前在视觉和多模态领域对Transformer到Mamba的知识转移的研究较少。图像信息的引入复杂化了Mamba结构,使知识转移变得更加困难。本文关注如何快速将Transformer的知识转移到Mamba在视觉和多模态领域的应用上。

3. Method

作者的研究旨在探讨二次架构与次二次架构之间跨架构学习的可能性。具体来说,作者以Mamba作为案例研究,目标是在更经济、高效和稳健的方式下,将预训练的Transformer模型的知识转移到Mamba模型中。本节首先解释SSM的核心原理,随后概述作者提出的训练方法TransMamba。接着,作者深入探讨TransMamba中处理单模型任务和跨模型任务的策略,并详细描述整个Pipeline。

3.1. Preliminary

状态空间模型(SSMs)基于连续系统构建,通过一个隐藏状态将1维函数或序列转换为。形式上,SSMs使用以下常微分方程(ODE)来描述输入数据:

其中, 表示系统的演化矩阵,而 和 分别表示投影矩阵。这种连续的微分方程通过离散化在现代状态空间模型(SSM)中进行近似。Mamba 是连续系统的一种离散版本,引入了一个时间尺度参数 ,用于将连续参数 转换为其离散对应物 。这种转换通常通过零阶保持(ZOH)方法实现,定义如下:

其中包含 (N) 个特征向量时,输出序列 (Y) 可以表示为:

这可以表示为:

3.2. TransMamba

特征校准。首先,需要使Transformer的潜在空间与Mamba的潜在空间对齐。考虑两个潜在空间:(学生模型),(教师模型),目标是将和转移到相似的空间,中。然而,两种模型的特征维度可能会有所不同,Mamba的维度可能小于预训练的Transformer。作者首先通过零填充的方法使Mamba模型的特征维度与Transformer模型的维度相匹配,同时保持其内在结构。一个简单而有效的MLP层被用来实现Mamba特征维度与Transformer特征维度的对齐。这一过程为后续的知识迁移提供了坚实的基础。

自适应双向知识蒸馏。知识蒸馏被用来将基于Transformer的知识转移给mamba模型。在作者的方法中,考虑了一个采用Transformer架构的教师模型和一个采用Mamba架构的学生模型。TransMamba的目标是从预训练的Transformer模型向新型的Mamba基模型转移知识。虽然受到了蒸馏方法的启发,但简单的方法仅利用教师模型的任务逻辑值或特征输出作为监督信号来调整学生模型的结果,但作者发现这种方法效果有限,如表5所示。作者认为原因可能是两模型框架之间的差异。直接通过最后一层特征对模型进行约束可能导致中间特征出现严重不一致,从而无法使Mamba的整体优化方向与Transformer保持一致。因此,作者选择在整个层之间进行余弦相似度的知识蒸馏,并仅使用教师网络的最后一层作为监督信息。

然而,直接优化中间层特征可能会导致某些层与教师网络过度对齐,而其他层则不足对齐。为了解决这个问题,作者提出了一种自适应优化方法,根据特征之间的变化相似度为不同的特征分配不同的权重。作者重用了之前计算的特征相似值来计算总的相似度。然后,为每个层的特征分配了一个权重系数。这样可以确保在所有层上更均衡地优化特征一致性。

其中 是超参数, 表示 Softmax。对于图像任务,双向 Mamba 必要时需要解决 Mamba 无法有效处理全局信息的问题。作者简化了双向 Mamba 的输出形式如下:

双向计算将原始矩阵 从下三角矩阵转换为密集矩阵。

与标准的Transformer形式 ( Y = S V = (S X)V ) 相比,其中 ( S = \operatorname{softmax}(Q K^{\mathrm{T}}/\sqrt{D}) ),双向形式 ( Y = C(M X) ) 包含重复的对角元素,并在VideoMamba [37]中有所展示。如果作者使用普通的Transformer特征来对齐带有重复对角元素的Mamba特征,可能会导致某些矩阵特征的过度优化或不足优化。因此,作者提出了一种双向蒸馏过程以避免这一问题。作者将正向和反向的SSM蒸馏过程分开。对于正向过程,作者直接使用Transformer对齐后的输出特征作为监督信号。

对于反向过程,作者将Transformer的特征反转以与Mamba矩阵的特征对齐。

因此,对于任何任务而言,总的损失函数如下所示:

权重子克隆。通常,具有相同架构的模型可以继承权重。然而,由于结构和维度的不同,跨架构的权重继承极具挑战性。为了探索如何完全继承Transformer架构的知识,作者提出了一种基于Mamba模型的权重子克隆技术。与Transformer和Mamba架构的主要区别在于它们的注意力机制(attn)和状态空间模型(SSM)。对于结构差异,作者在现有的Mamba框架中增加了MLP层,并将RMS层修改为LayerNorm。除了SSM部分外,作者使用Transformer模型参数初始化所有其他部分的参数。然而,在LLaVA模型中,用现有Mamba模型初始化SSM结构对确保训练稳定起着重要作用。对于维度差异,作者根据神经元重要性的显著性选择更多重要的参数,从而更好地进行模型初始化。具体来说,在使用一部分原始数据微调预训练模型之后,相比于变化较大的权重,变化较小的模型权重对于当前任务更为关键。因此,作者使用在梯度更新后权重变化最小的参数来初始化Mamba模型。

下游任务。在作者的工作中,包含两种类型的任务以验证TransMamba的有效性,包括一个单模态任务:图像分类,以及两个跨模态任务:视觉问答和视频检索。

单模态任务:对于图像分类任务,作者采用三种目前最先进的(SOTA)Mamba架构模型——Vmamba[34]、PlainMamba[58]和VisionMamba[59]作为学生模型。作者使用预训练的(ImageNet1k/21k)Transformer DeiT模型[52]展示了从头训练一个Mamba模型的过程。

多模态任务:使用TransMamba构建大型多模态模型的一个关键挑战在于,新的Mamba架构可能会破坏预训练模型的参数分布,导致文本和图像表示之间存在不一致性。重新进行类似于LLaVA的预训练无效,因为预训练的知识已经受损。因此,在TransMamba与LLaVA结合的架构中,应当增强图像与文本之间的交互。为此,作者引入了CrossMamba来解决这一问题。首先简化Mamba的计算公式,,与标准Transformer形式相比。然后,作者将,,。此外,作者也设置了,使其与具有类似的模态输入方式。这样,CrossMamba可以有效促进文本与图像之间的交互。在基于Mamba训练大型模型时,会随机出现梯度发散的现象,这在[50, 61]的NLP研究中也有观察到。适当的初始化对于确保稳定的训练至关重要。作者使用权重子克隆法对SSM以外的参数进行了初始化。但在训练过程中,模型表现出收敛困难的问题。为缓解这一问题,作者采用了来自NLP领域预训练的Mamba模型对SSM参数进行了初始化[61]。此外,作者发现卷积层的初始化显著影响后续训练。因此,这些参数被用标准正态分布进行初始化。这些策略还与前述的蒸馏方法相结合。对于视频检索任务,SSM参数则使用VideoMamba [31]进行初始化。

4. Experiments

4.1. Experimental Setup and Details

在本节中,作者简要介绍了相应模型的数据集、实现细节以及评估指标。更多详细信息详见附录中的数据集部分。单模型实验:对于图像分类,作者在CIFAR100 [29]、ImageNet100 [10] 和 ImageNet1000 [10] 这三个基准数据集上进行了实验。多模型实验:对于视觉问答,作者在论文中使用了LLaVA-1.5-pretrain数据集中50万条通用图例样本和LLaVA-1.5-finetune数据集中60万条通用图例和对话样本。此外,作者还在论文中使用了两个视频-文本数据集,即MSR-VTT [57] 和 DiDeMo [26]。

实施细节。对于图像分类任务,作者基于VMamba [34]、PlainMamba [58] 和ViM [59] 构建了代码库。具体来说,作者使用AdamW [36] 优化器和学习率为5e-04训练所有Mamba模型共计300个epoch。对于视觉问答任务,作者采用预训练的CLIP-ViT-L/14 [43] 作为视觉编码器,并使用两层MLP作为 Projector 。教师和学生模型均利用LLaMA-3.2 [14] 家族构建其基础模型。具体而言,教师模型采用3B参数配置,而学生模型则基于LLaMA-3.2-1B构建0.6B参数规模的基础模型。作者首先使用LLaVA训练方法训练LLaMA-3B模型,以获得LLaVALLaMA3.2-3B模型作为教师模型。随后,作者仅使用0.6百万条通用标题样本训练作者的Mamba模型。作者将批量大小设置为128,并使用Adam优化器和2e-5的学习率。在整个过程中,作者在每个epoch使用16块V100 GPU进行训练。对于视频检索任务,作者使用AdamW优化器 [36] 训练所有Mamba模型共计5个epoch。学习率设置为1e-4并采用余弦衰减策略。作者使用预训练的CLIP4Clip作为冻结的教师模型。批量大小设置为128,并在4块A100 GPU上进行训练。

评价指标。对于分类任务,作者采用顶精度作为评估指标。对于视觉问答任务,作者在GQA[28]、VizWiz[23]、TextVQA[47]和MME[16]上进行实验。对于文本-视频检索任务,作者使用召回率和Mean R来评估模型性能。

4.2. Main Results

图像分类。在表1中,作者展示了针对分类任务的各种Mamba设置的层配置、维度和参数规模。与以往工作中描述的单一PlainMamba配置[58]不同,作者在新的Mamba模型中将PlainMamba扩展为三个尺度:PMambaT、PMamba-S和PMamba-B。ViM、VMamba-T和VideoMamba的层配置与文献[59]、[34]和[31]中所述相同。

作者在表2中展示了CIFAR-100、ImageNet子集和ImageNet1K的实验结果。DeiT-预训练表示在使用ImageNet-2012数据集预训练后,对CIFAR或ImageNet-100进行微调的模型。从表中可以看出,与vanilla Mamba相比,TransMamba超越了最近提出的VMamba、ViM和PlainMamba。例如,TransMamba-P在精度上比Mamba-P高出2.83%。这些结果证实了来自Vision Transformers (ViT)的知识可以有效地转移到Mamba中,从而提升了Mamba后续的表现。

为了验证TransMamba的效率,作者在Mamba训练过程中展示了损失函数收敛图和准确率图(如图3所示)。结果显示,TransMamba表现出更快的收敛速度和更高的准确率,证实了第一章中讨论的训练效率。

视觉问答 在这个实验中,作者保持总层数不变,并用Mamba替代了原有的Transformer结构。Trans-LLaVA 的参数量更少。如表3所示,相比LLaVA-3.2-1B,Trans-LLaVA 在GQA、VQA 和 VisWiz 上取得了更好的性能,并几乎与3B模型持平。由于资源限制,作者使用了一个3B模型作为教师模型。尽管如此,作者的模型在多个指标上仍取得了出色的结果。

作者展示了几个例子来说明Trans-LLaVA的定性结果。如图4所示,Trans-LLaVA能够有效地理解用户的提问,并给出准确的回答。

视频检索 在表4中可以看到,作者的所提出的方法TransMamba在视频领域两个数据集上的表现优于Mamba方法。例如,在MSRVTT数据集上,R1指标的准确率达到了41.6%,比Mamba高出了0.5个百分点,这表明了作者提出的TransMamba在视频检索中的有效性。

4.3. Ablation Studies

在本部分中,作者主要进行了分类任务的实验。更多实验详见附录。蒸馏策略:传统的logit蒸馏策略和特征蒸馏方法对Mamba的学习效果有限,这从表5中可以看出。这表明WSAB能够利用Transformer层获得的丰富表示,从而实现更全面的知识迁移,并提升Mamba模型的性能。

数据规模的影响:在表6中,作者展示了不同数据规模下模型的准确性。在PMamba模型中,仅使用数据的几乎就可以达到最佳性能,这强烈表明Transformer模型生成的丰富表示显著缩短了Mamba模型的训练过程。

5. Conclusion

在本研究中,作者进行了全面的分析和实验,以阐明关于TransMamba模型的以下洞见:1) 两阶段框架有效地将现有预训练Transformer模型的知识转移到SSM基模态上。2) 权重子克隆高效地将Transformer的知识转移至Mamba架构。自适应双向知识蒸馏过程根据不同层之间的相似性分配权重,确保各层优化的均衡。

同时,双向知识蒸馏避免了单向知识蒸馏中存在的过度或不足优化问题。此外,跨Mamba模块有效地将多模态理解能力整合到SSM中,从而在视觉语言任务中实现稳健的表现。在多个数据集上的广泛实验表明,作者的方法表现出优越的性能与效率。此外,作者的算法可以无缝适应其他基于SSM的模型,确保其广泛的应用价值和影响力。

参考

[0]. TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba .

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
自动构建物体周围环境的鸟瞰视图(BEV)对于自动驾驶和驾驶辅助系统等任务非常有益(Wang等,2023a)。这些方法通常会整合多视角摄像头接收到的信号,并将其转换为周围环境的俯视图。此外,由于这些系统在移动边缘环境中运行,因此在考虑构建准确性的同时还需关注计算成本(Ke等,2024)。
未来先知
2025/04/16
2110
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
​MambaDFuse 出手就知道有没有 | 模态问题怎么办?特征融合怎么解?速度怎么变快?这就是标杆!
图像融合旨在从多个源图像中结合基本的信息表示,以生成高质量、内容丰富的融合图像。根据成像设备或成像设置的不同,图像融合可以分为多种类型,包括多模态图像融合(MMIF)、数字摄影图像融合和遥感图像融合。红外-可见光图像融合(IVF)和医学图像融合(MIF)是MMIF的两个典型任务,它们对来自所有传感器的跨模态特征进行建模和融合。特别是,红外传感器捕捉热辐射数据,突出显示显著目标,而可见光传感器捕捉反射光信息,生成富含纹理细节的数字图像。IVF旨在整合源图像中的互补信息,生成在突出显著目标的同时保留丰富纹理细节的高对比度融合图像。这些融合图像提供了增强的场景表示和视觉感知,有助于后续的实际视觉应用,如多模态显著性检测、目标检测和语义分割。
公众号-arXiv每日学术速递
2024/04/25
1K0
​MambaDFuse 出手就知道有没有 | 模态问题怎么办?特征融合怎么解?速度怎么变快?这就是标杆!
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
随着移动网络和社会平台的大量普及,图像文本对的生产爆炸式增长 。如此丰富的数据为视觉语言预训练的推进提供了强大的基础。对比学习预训练(CLIP)[1]在多模态学习上取得了显著成功,通过在大型数据集上align图像文本对。它使用对比损失学习两个独立的单模编码器,这是表示学习中最有效的损失之一 。然而,CLIP的成功在很大程度上依赖于庞大的预训练数据集。原始CLIP模型在4亿图像文本对上进行32个epoch的预训练,需要数千个GPU天。在计算资源有限的情况下,这具有明显的挑战性[1, 17]。最近,从网站爬取的大规模图像文本数据集(如LAION400M 和LAION5B [13])在日常生活中广泛应用于视觉语言预训练。数据Comp 从Common Crawl的网页数据中提取图像文本对,并采用诸如基本过滤、CLIP评分过滤和基于文本图像过滤等策略。然而,训练数据中的语义重复问题仍然存在,这不仅可能影响表示学习,还可能浪费计算资源 。
未来先知
2024/08/29
4810
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
一个既能做CV任务,也能做NLP任务的Transformer模型!谷歌&UCLA提出统一的基础模型
本文分享论文『Towards a Unified Foundation Model: Jointly Pre-Training Transformers on Unpaired Images and Text』,由谷歌& UCLA 联合提出统一的基础模型,是一个既能做 CV 任务,也能做 NLP 任务的 Transformer 模型!
CV君
2022/01/20
5300
一个既能做CV任务,也能做NLP任务的Transformer模型!谷歌&UCLA提出统一的基础模型
突破深度学习难题 | 基于 Transformer ,解决脉冲神经网络(SNN)的性能限制 !
基于事件的相机是受生物启发的传感器,它们异步捕捉视觉信息,实时报告亮度变化[1, 2]。与传统相机相比,基于事件的传感器的主要优势包括触发事件之间的低延迟[3],低功耗[4]和高动态范围[5]。这些优势直接来自于硬件设计,基于事件的相机已经被应用于各种领域,如三维扫描[6],机器人视觉[7]和汽车工业[8]。然而,在实践中,基于事件的传感器捕捉到的是独特的脉冲数据,这些数据编码了场景中光强变化的信息。数据中的噪声极高,且缺乏对这些数据的通用处理算法,以提供与传统数字相机数据上的传统视觉算法相当的能力。
集智书童公众号
2024/05/10
2.5K0
突破深度学习难题  | 基于 Transformer ,解决脉冲神经网络(SNN)的性能限制 !
PPMamba 一种基于金字塔聚类局部辅助SSM的图像语义分割模型 !
遥感(RS)技术的快速发展极大地改变了作者对地球时间和空间尺度的认识。遥感技术在农业、林业、地质学、气象学、军事和环境保护等领域得到广泛应用,实现了系统性的分析、评估和预测。在这些应用中,语义分割在许多下游地质学任务中起着重要的作用,如土地覆盖分类和城市扩张监测等。
未来先知
2024/09/29
3900
PPMamba 一种基于金字塔聚类局部辅助SSM的图像语义分割模型 !
视觉Mamba来了:速度提升2.8倍,内存能省87%
本周四,来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba(Vim)。
机器之心
2024/01/23
3720
视觉Mamba来了:速度提升2.8倍,内存能省87%
每日学术速递2.20
1.Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization
AiCharm
2025/02/21
1380
每日学术速递2.20
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN) 和视频 Transformer 通过利用局部卷积或长距离注意力有效地应对其中之一的挑战,但它们在同时解决这两个挑战方面存在不足。UniFormer 试图整合这两种方法的优势,但它在建模长视频方面存在困难。
机器之心
2024/03/26
2600
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
【源头活水】Mamba成功杀入ECCV 2024!VideoMamba:高效视频理解的状态空间模型
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
马上科普尚尚
2024/07/05
2500
【源头活水】Mamba成功杀入ECCV 2024!VideoMamba:高效视频理解的状态空间模型
多模态Mamba分类器,融合3D GAN 与 ViT 进行高效特征提取与分类 !
阿尔茨海默病(AD)是老年人中常见的一种神经退行性疾病,它影响记忆力、认知功能以及日常生活活动。AD通常从轻度认知障碍(MCI)进展而来,尤其是遗忘型MCI(aMCI),其主要特征是记忆力下降。尽管aMCI患者经历了明显的记忆丧失,但他们的认知功能尚未下降到痴呆症的水平。预测aMCI患者是否会在一到三年内进展为AD对于预后至关重要。早期识别高风险患者可以制定个性化的治疗和干预计划,这有助于减缓疾病进展并提高生活质量。此外,早期预测还支持患者及其家人做出明智的决定,使他们能够在心理和实践上做好准备。研究表明,早期发现和有针对性的干预可以显著减缓或阻止AD的进展。医生使用预后预测来采取适当的管理和治疗策略。对于高风险患者,通常会采用更为积极的干预措施,如药物治疗和认知训练。诸如胆碱酯酶抑制剂(例如,多奈哌齐)和NMDA受体拮抗剂(例如,美金刚)等药物可以减轻认知症状并延缓疾病进展。对于那些预计不会很快恶化的患者,建议进行定期监测和生活方式干预。常规的认知评估和年度神经影像学检查可以早期发现潜在的变化,而非药物治疗,如认知训练有助于维持或改善认知能力。调整生活方式,包括改善饮食、锻炼和心理支持,可以增强整体健康并提高对疾病的抵抗力[1]。
未来先知
2024/08/08
9640
多模态Mamba分类器,融合3D GAN 与 ViT 进行高效特征提取与分类 !
西电 & 上交大提出 S2Mamba, 超越传统 Transformer, 提升高光谱图像分类准确性 !
高光谱图像(HSI)由众多光谱带组成,由于其丰富的物质信息,能够进行土地覆盖分析,在精准农业、矿物勘探和环境监测等领域具有广泛的应用。因此,设计一个更有效、更高效的高光谱图像分类模型具有很强的激励性。作为广泛使用的范例,卷积神经网络(CNNs)在高光谱图像分类中已被广泛研究。然而,这一范例受到局部感受野的限制,无法全面捕捉连续的光谱属性。最近,在光谱和空间维度上提取全局上下文信息能力的Transformer架构已在高光谱图像分类中探索,表现出卓越的性能。
AIGC 先锋科技
2024/08/12
6260
西电 & 上交大提出 S2Mamba,  超越传统  Transformer, 提升高光谱图像分类准确性 !
浙大 & 西湖 | 提出Cobra多模态大模型,整合Mamba,计算效率大幅提升!
近年来,多模态大型语言模型(MLLM)在多个领域上取得了成功,但现有MLLM主要是基于Transformer训练得到,计算效率较低。为此,本文作者提出了Cobra,一个具有线性计算复杂度的MLLM,它将Mamba语言模型整合到了视觉模态中。实验结果显示,Cobra在性能上与最先进的方法相当,速度更快,尤其在处理视觉错觉和空间关系判断方面表现突出。Cobra的参数量只有LLaVA的43%,但性能相当。
ShuYini
2024/03/27
8420
浙大 & 西湖 | 提出Cobra多模态大模型,整合Mamba,计算效率大幅提升!
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
在众多非 Transformer 架构中,Mamba 无疑是声量较大且后续发展较好的一个。然而,与最初发布时那种仿佛「水火不容」的局面不同,最近一段时间,这两种架构似乎正在走向融合。
机器之心
2025/03/27
1070
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
从STM到CTM:MTMamba++如何优化多任务场景理解 !
多任务密集场景理解在计算机视觉领域有着多种实际应用,如自动驾驶、医疗保健和机器人等。此问题的挑战之处在于,需要训练一个模型同时处理多个密集预测任务,如语义分割、单目深度估计、表面法向量估计和物体边界检测等。
未来先知
2024/09/11
2720
从STM到CTM:MTMamba++如何优化多任务场景理解 !
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
机器之心专栏 作者:奇虎360人工智能研究院和清华大学 对于中文社区来说,本文提出的大规模跨模态基准数据集无疑很有价值 视觉语言预训练(VLP)主要学习视觉与自然语言之间的语义对应关系。得益于海量数据、Transformer 等优秀架构、CLIP 等跨模态模型以及硬件设备的支持,一系列开创性的工作探索了 VLP 模型,并在各种视觉语言任务上取得了显著进展。 借助大规模训练语料库(主要是英语),众多 VLP 模型已被证明对下游任务有益。然而中文视觉语言数据集很少,并且存在各种局限性。针对大规模预训练模型加下游
机器之心
2022/06/09
1K0
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
【源头活水】让Mamba涨点!树形SSM来了!清华和腾讯提出GrootVL:多功能多模态框架
“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!
马上科普尚尚
2024/06/18
3150
【源头活水】让Mamba涨点!树形SSM来了!清华和腾讯提出GrootVL:多功能多模态框架
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强
过去几年,Transformer虽稳坐AI架构「铁王座」,但其二次方复杂度带来的算力消耗和长序列处理瓶颈,限制了大模型在推理阶段处理长文本。
新智元
2025/04/22
1190
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强
综合 CNN 和 Transformer, Microscopic-Mamba 仅用 4M 参数揭示微观图像的秘密 !
显微镜成像技术在医学领域中至关重要,已成为现代医学研究和临床诊断的不可或缺的工具[1]。通过对显微镜图像进行分类,医学研究行人可以在组织、细胞和分子水平观察结构和动态变化,进一步理解疾病机制和病理过程[2]。然而,基于卷积神经网络(CNN)和视觉 Transformer (ViTs)的典型显微镜成像分类(MIC)任务存在局限性,这严重影响了它们捕捉长期信息的能力。虽然有些研究提出了一些方法来降低ViTs的计算复杂性,但牺牲了其在自注意力中捕捉全局信息的能力。因此,迫切需要一种新的架构,可以同时有效地捕捉全局和局部特征,同时保持线性复杂性。
未来先知
2024/10/22
3200
综合 CNN 和 Transformer, Microscopic-Mamba 仅用 4M 参数揭示微观图像的秘密 !
LoG-V Mamba ,高效图像分割的新视角 !
医学图像分割(MIS)的目标是2D或3D医学图像中组织和病变的边界和定位。这一过程对于发展自动化疾病识别、分期和治疗,以及开发医学机器人至关重要。近年来,最先进的MIS方法基于深度学习(DL),得益于它从大量数据集中学习复杂模式的能力。这证明在医学应用中产生高质量性能至关重要 。
未来先知
2024/09/11
6090
LoG-V Mamba ,高效图像分割的新视角 !
推荐阅读
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
2110
​MambaDFuse 出手就知道有没有 | 模态问题怎么办?特征融合怎么解?速度怎么变快?这就是标杆!
1K0
小型模型也能拥有大型模型的知识与性能, CLIP-CID在下游任务上表现卓越,超越现有方法 !
4810
一个既能做CV任务,也能做NLP任务的Transformer模型!谷歌&UCLA提出统一的基础模型
5300
突破深度学习难题 | 基于 Transformer ,解决脉冲神经网络(SNN)的性能限制 !
2.5K0
PPMamba 一种基于金字塔聚类局部辅助SSM的图像语义分割模型 !
3900
视觉Mamba来了:速度提升2.8倍,内存能省87%
3720
每日学术速递2.20
1380
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
2600
【源头活水】Mamba成功杀入ECCV 2024!VideoMamba:高效视频理解的状态空间模型
2500
多模态Mamba分类器,融合3D GAN 与 ViT 进行高效特征提取与分类 !
9640
西电 & 上交大提出 S2Mamba, 超越传统 Transformer, 提升高光谱图像分类准确性 !
6260
浙大 & 西湖 | 提出Cobra多模态大模型,整合Mamba,计算效率大幅提升!
8420
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
1070
从STM到CTM:MTMamba++如何优化多任务场景理解 !
2720
从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA
1K0
【源头活水】让Mamba涨点!树形SSM来了!清华和腾讯提出GrootVL:多功能多模态框架
3150
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强
1190
综合 CNN 和 Transformer, Microscopic-Mamba 仅用 4M 参数揭示微观图像的秘密 !
3200
LoG-V Mamba ,高效图像分割的新视角 !
6090
相关推荐
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
更多 >
LV.0
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档