Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【源头活水】再战Transformer!Mamba 2来了,新架构训练效率大幅提升!!!

【源头活水】再战Transformer!Mamba 2来了,新架构训练效率大幅提升!!!

作者头像
马上科普尚尚
发布于 2024-06-18 05:56:28
发布于 2024-06-18 05:56:28
2150
举报

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注!

论文地址:https://arxiv.org/pdf/2405.21060

GitHub 地址:https://github.com/state-spaces/mamba

总体而言,本文提出了 SSD(state space duality)框架,基于此,研究者设计了一个新的体系架构 Mamba-2,其核心层是对 Mamba 的选择性 SSM 的改进,速度提高了 2-8 倍,同时在语言建模方面继续与 Transformers 竞争。

Tri Dao 表示,他们构建了一个丰富的 SSD 理论框架,许多线性注意力变体和 SSM 是等效的,由此产生的模型 Mamba-2 比 Mamba-1 更好、更快。

Mamba-2 的新算法使其能够利用更大的状态维度 (16 → 256),同时训练速度更快。在需要更大状态容量的任务上,例如 MQAR 任务,它比 Mamba-1 有了显著的改进。

此外研究者还发现,最近新出的混合模型(Jamba、Zamba)增加了一些注意力层来提高模型质量。基于这些发现,研究者将 4-6 个注意力层与 Mamba-2 层混合,其表现优于 Transformer++ 和纯 Mamba-2,因而得出注意力和 SSM 是互补的。

这项研究的贡献概括为:

本文展示了状态空间模型与一类称为半可分矩阵的结构化矩阵族之间的等价性。这一联系是 Mamba-2 框架的核心,揭示了状态空间模型的新属性和算法。

本文显著改进了线性注意力理论,首先通过张量收缩的语言对其循环形式提供了一个明确的证明,然后将其推广到一种新的结构化掩码注意力(SMA)家族。

本文将 SSM(状态空间模型)和 SMA(结构化掩码注意力)联系起来,显示它们有一个很大的交集,彼此是对偶的,同时具有 SSM 式的线性形式和类似注意力的二次方形式。本文还证明了任何具有快速循环形式的核注意方法都是 SSM。

除了内在的理论价值外,研究者所提出的框架为理解和改进序列模型开辟了广阔的方向。

在算法层面。所提框架为计算 SSM 提供了新的高效且易于实现的算法。本文提出了一种基于半可分离矩阵块分解的 SSD 算法,该算法利用了 SSM 线性递推和二次对偶形式,在所有主要效率轴上获得了最优的权衡。基于 SSD 的实现比 Mamba 的优化选择性扫描实现快 2 到 8 倍,同时允许使用更大的循环状态大小(是 Mamba 的 8 倍甚至更高,且几乎不影响速度)。SSD 与优化过的 softmax 注意力实现(FlashAttention-2)具有高度竞争力,在序列长度 2k 时性能相当,在序列长度 16K 时速度快 6 倍。

架构设计。采用 SSM 等新架构的一个主要障碍是针对 Transformers 量身定制的生态系统,例如用于大规模训练的硬件高效优化和并行技术。本文框架允许使用已建立的惯例和技术来构建 SSM 的架构设计选择词汇表,并进一步改进它们。

本文还对 Mamba 块做了一些修改,这些修改允许实现张量并行,其主要思想包括引入分组值注意力 (GVA,grouped-value attention) 头结构。

将修改后的并行 Mamba 块与作为内部 SSM 层的 SSD 结合使用,形成了 Mamba-2 架构。研究者在与 Mamba 相同的设置中研究了 Mamba-2 的 Chinchilla 扩展法则,发现它在困惑度和实际运行时间方面均优于 Mamba 和 Transformer++。研究者还在 Pile 数据集上训练了一系列 Mamba-2 模型,结果显示 Mamba-2 在标准下游评估中匹配或超过 Mamba 和开源的 Transformers。例如,在 Pile 上训练了 3000 亿 token 的 2.7B 参数的 Mamba-2 在性能上超过了在同一数据集上训练的 2.8B 参数的 Mamba 和 Pythia 以及 6.9B 参数的 Pythia。

系统优化:SSD 框架连接 SSM 和 transformer,允许利用为 transformer 开发的丰富的系统优化工作。

SSD 层

Mamba-2 的核心贡献是新的 SSD(state space dual)层。SSD 层可以被定义为选择性 SSM 的特例。与 Mamba 相比,Mamba-2 的改动会略微降低表达能力,但却显著提高了训练效率,特别是允许在现代加速器上使用矩阵乘法单元。

SSD 层的对偶注意力:

除了最新的 SSD 层,研究者也对 Mamba 的神经网络架构做了一些小的改变,Mamba-2 架构如下所示。

Mamba-2 在网络架构上的主要变化是从顺序生成变为并行生成 SSM 参数,并且 Mamba-2 更适合张量并行等扩展方法。

通过提供状态空间模型的显式矩阵变换形式,研究团队揭示了理解和使用它们的新方法。从计算的角度来看,任何计算状态空间模型前向传播的方法都可以看作是半可分离矩阵上的矩阵乘法算法。半可分离矩阵视角为 SSD 提供了一个视角,其中双重模式分别指的是线性时间半可分离矩阵乘法算法和二次时间朴素矩阵乘法。

研究团队定义了结构化状态空间模型和结构化注意力,讨论了它们的属性,并表明它们都有二次算法和线性算法。

自最初的 Mamba 论文研究了合成任务 —— 如:合成复制和归纳 Head 以来,许多后续工作开始研究更难的关联回忆任务。由 Zoology 和 Based 系列工作引入的 MQAR(multi-query associative recall)任务已成为事实上的标准。

通过运行一个比文献中通常报告的版本要难得多的任务,该团队发现 Mamba-2 明显优于 Mamba-1,而改善性能的一个原因是状态大小(比 Mamba-1 大约 16 倍)。

在这篇文章中,作者深入探讨了模型背后的理论。

从两个完全不同的角度推导出 SSD 的「对偶性」:

  • 一个从 SSM 的角度出发;
  • 另一个从注意力机制的角度出发。

SSD 框架提供了状态空间模型、注意力机制和结构化矩阵之间丰富的联系。

虽然 SSD 模型可以被视为框架内每个分支的具体实例,但 SSD 框架本身更加通用,为未来的工作开辟了许多方向。

SSD 算法

通常,矩阵乘法(matmul)的 FLOPs 速度要比非矩阵乘法 FLOPs 快得多(高达 16 倍):A100 GPU 具有 312 TFLOPS 的 BF16 矩阵乘法性能,但只有 19 TFLOPS 的 FP32 算术性能,而 H100 具有 989 TFLOPS 的 BF16 矩阵乘法性能,但只有 67 TFLOPS 的 FP32 算术性能。

Mamba-2 的主要目标之一是「利用张量核心加速 SSM」。

在绑定参数并引入 Head 结构后,Mamba-1 中的 SSM 变成了 SSD,这是一种更具限制性的形式,具有类似注意力的公式。并且由于 SSD 连接 SSM 和结构化矩阵,计算 SSM 的高效算法直接对应于「token-mixing」或「sequence-mixing」矩阵 M 的不同分解。

因此,可以通过寻找替代的矩阵乘法方式,例如通过各种方式对其进行分解,从而创建计算 SSM 的新算法。

通过精心选择块大小,对这个矩阵进行简单块分解,就可以集 SSD 线性递归和二次注意力对偶形式的两种优势于一身。

而这也就是 SSD 算法的起源,它有 4 个步骤,并且对于这个算法有两种完全不同的诠释。

SSD 算法:分块矩阵分解

首先将半可分 SSM 矩阵划分为大小为 Q×Q 的块,然后,利用半分矩阵的性质来分解每个低秩的非对角块:

  1. (橙色)每个对角块是一个更小的半可分矩阵,可以以喜欢的方式计算这个乘法,特别是使用 SSD 的二次(类似注意力机制)形式。
  2. (绿色)总共有 T/Q 个不同的绿色块,通过批处理矩阵乘法来计算。
  3. (黄色)注意,黄色项本身是一个 1 - 半可分矩阵,这一步等价于对某些修改后的 A 因子的 SSM 扫描。
  4. (蓝色)与绿色类似,通过批处理矩阵乘法来计算。

SSD 算法:分块和状态传递

该算法的另一种诠释涉及「推理 SSM 如何在实际序列上进行操作」。

首先将输入序列分割成大小为 Q 的块,步骤可以分为:

  1. 分块内部输出:计算每个块的局部输出(假设初始状态(对于块)为 0,则每个块的输出是多少?)
  2. 块状态:计算每个块的最终状态(假设初始状态(对于块)为 0,则每个块的最终状态是多少?)
  3. 传递状态:计算所有块的最终状态的递归 - 使用任何所需的算法,例如并行或顺序扫描(考虑到所有先前输入,每个块的实际最终状态是多少?)
  4. 输出状态:对于每个块,根据其真实的初始状态(在步骤 3 中计算),仅从初始状态得出的输出计算贡献

可以看到,大部分算法(步骤 1、2 和 4)利用了矩阵乘法(因此利用了张量核心),而且可以并行计算

只有步骤 3 需要扫描,但它只操作一个非常短的序列,通常只需要很少时间。

系统及扩展优化

张量并行

使用张量并行对 Mamba-1 进行大规模训练的一项困难是,每层都需要 2 次 all-reduce,而在 Transformer 中,每个注意力或 MLP 层只需 1 次 all-reduce。这是因为 SSM 的一些参数是内部激活的函数,而不是层的输入函数。在 Mamba-2 中,由于采用了「并行投影」结构,所有 SSM 参数都是层输入的函数,因此可以轻松地将张量并行应用于输入投影:将输入投影和输出投影矩阵分割成 2、4、8 个碎片,具体取决于张量并行度。研究者使用 grouped norm,分组数除以张量并行度,这样每个 GPU 都能单独完成归一化。这些变化导致每层只需 1 次 all-reduce,而不是 2 次。

序列并行

在对超长序列进行训练时,可能需要沿着序列长度进行分割,并将不同部分分配给不同的设备。序列并行主要有两种形式:对于残差和归一化操作,用 reduce-scatter、残差 + 归一化、然后 all-gather,取代张量并行中的 all-reduce。由于 Mamba-2 使用与 Transformer 相同的残差和归一化结构,因此这种形式的序列并行无需修改即可直接应用。对于注意力或 SSM 操作,又称上下文并行(CP)。对于注意力,可以使用环形注意力沿序列维度进行分割。对于 Mamba-2,SSD 框架再次提供了帮助:使用相同的蒯分解,可以让每个 GPU 计算其本地输出和最终状态,然后在更新每个 GPU 的最终输出之前,在 GPU 之间传递状态(使用发送 / 接收通信原语)。

实验结果

该研究在 MQAR 的一种具有挑战性的版本上,使用更难的任务、更长的序列和更小的模型进行了对比实验。基线包括标准的多头 softmax 注意力以及 Based 架构,实验结果如图 8 所示。

下表显示了 Mamba-2 在一系列下游零样本评估任务上的性能:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能前沿讲习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,一直稳居语言建模方面 C 位。
机器之心
2024/06/04
6450
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
【他山之石】Mamba 2模型携SSD算法,让长序列处理更高效,一举解决AI大模型的效率痛点!
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
马上科普尚尚
2024/06/06
1.2K0
【他山之石】Mamba 2模型携SSD算法,让长序列处理更高效,一举解决AI大模型的效率痛点!
Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
开源代码和模型权重:https://github.com/state-spaces/mamba
新智元
2024/06/05
5070
Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
更重要的是,团队研究发现原来Transformer和状态空间模型(SSM)竟然是近亲??‍
量子位
2024/06/04
5160
SSM 能取代 Transformer 搞出更「牛」的大模型吗?
---- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ----
机器之心
2024/06/17
4830
SSM 能取代 Transformer 搞出更「牛」的大模型吗?
Transformers是SSMs:通过结构化状态空间对偶性的广义模型和高效算法(一)
尽管Transformer一直是深度学习在语言建模中取得成功的主要架构,但最近的研究表明,如Mamba之类的状态空间模型(SSMs)在小到中等规模上能够匹敌或超越Transformer的性能。我们表明,这两类模型实际上是非常相关的,并在一个经过充分研究的结构化半可分离矩阵类的各种分解之间,发展出SSM和注意力变体之间丰富的理论联系框架。我们的状态空间对偶性(SSD)框架使我们能够设计一种新的架构(Mamba-2),其核心层是对Mamba的选择性SSM的改进,速度提高了2-8倍,同时在语言建模方面继续与Transformer保持竞争力。
AI浩
2024/10/22
3900
Transformers是SSMs:通过结构化状态空间对偶性的广义模型和高效算法(一)
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
自动构建物体周围环境的鸟瞰视图(BEV)对于自动驾驶和驾驶辅助系统等任务非常有益(Wang等,2023a)。这些方法通常会整合多视角摄像头接收到的信号,并将其转换为周围环境的俯视图。此外,由于这些系统在移动边缘环境中运行,因此在考虑构建准确性的同时还需关注计算成本(Ke等,2024)。
未来先知
2025/04/16
3900
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强
过去几年,Transformer虽稳坐AI架构「铁王座」,但其二次方复杂度带来的算力消耗和长序列处理瓶颈,限制了大模型在推理阶段处理长文本。
新智元
2025/04/22
1620
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强
Mamba-2发布状态空间扩大8倍,训练速度提高50%,提出结构化状态空间二元性的理论将Transformer和SSM进行统一
Mamba-2最新发布,其研究成果在顶级学术会议ICML 2024上被正式接收,标志着在深度学习序列模型领域的一个重要进展。该模型相较于前作Mamba展示了在计算效率和模型泛化能力上的显著提升,特别是在处理大规模数据集时,显示出其卓越的性能优势。
deephub
2024/06/17
4020
Mamba-2发布状态空间扩大8倍,训练速度提高50%,提出结构化状态空间二元性的理论将Transformer和SSM进行统一
算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代
这次Mamba作者Tri Dao、华人AI领域大牛Eric P. Xing等联手MIT、普林斯顿、CMU等机构的研究人员,提出了全新的注意力机制:对数线性注意力(Log-Linear Attention)。
新智元
2025/06/09
1540
算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代
五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈
在别的领域,如果你想形容一个东西非常重要,你可能将其形容为「撑起了某领域的半壁江山」。但在 AI 大模型领域,Transformer 架构不能这么形容,因为它几乎撑起了「整个江山」。
机器之心
2023/12/05
1.4K0
五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈
颠覆Transformer霸权!CMU普林斯顿推Mamba新架构,解决致命bug推理速度暴增5倍
2017年6月12日横空出世,让NLP直接变天,制霸自然语言领域多年的Transformer,终于要被新的架构打破垄断了。
新智元
2023/12/05
1.2K0
颠覆Transformer霸权!CMU普林斯顿推Mamba新架构,解决致命bug推理速度暴增5倍
Mamba详细介绍和RNN、Transformer的架构可视化对比
Transformer体系结构已经成为大型语言模型(llm)成功的主要组成部分。为了进一步改进llm,人们正在研发可能优于Transformer体系结构的新体系结构。其中一种方法是Mamba(一种状态空间模型)。
deephub
2024/02/23
3.7K0
Mamba详细介绍和RNN、Transformer的架构可视化对比
推理速度暴增,Mamba终结Transformer的统治 !!
在这篇关于 Mamba 的文章中,我们来探索这个创新的状态空间模型(state-space model,SSM)如何在序列建模领域带来革命性的变革。Mamba 是由 Albert Gu 和 Tri Dao开发的,因其在语言处理、基因组学、音频分析等领域的复杂序列时表现出色而受到关注。Mamba 采用线性时间序列建模和选择性状态空间,因此在这些不同的应用领域都展现出了卓越的性能。
JOYCE_Leo16
2024/03/19
7740
推理速度暴增,Mamba终结Transformer的统治 !!
视觉Mamba来了:速度提升2.8倍,内存能省87%
本周四,来自华中科技大学、地平线、智源人工智能研究院等机构的研究者提出了 Vision Mamba(Vim)。
机器之心
2024/01/23
4100
视觉Mamba来了:速度提升2.8倍,内存能省87%
【源头活水】Mamba-YOLO性能超越 YOLO!:SSM+CNN的新型主干网络
作者提出了Mamba-YOLO,它基于SSM,为YOLO系列在目标检测方面建立了新的基准。实验结果显示 Mamba-YOLO 在一般目标检测任务中非常有竞争力,在 MSCOCO 上的 mAP 比 baseline YOLOv8 高出 8.1%。
马上科普尚尚
2024/07/05
3.9K0
【源头活水】Mamba-YOLO性能超越 YOLO!:SSM+CNN的新型主干网络
Mamba增强!华为诺亚 | 提出密集状态空间模型:DenseSSM,准确度显著提升
随着 ChatGPT 的突破性进展,大型语言模型(LLMs)迎来了一个崭新的里程碑。这些模型在语言理解、对话交互和逻辑推理方面展现了卓越的性能。过去一年,人们目睹了 LLaMA、ChatGLM 等模型的诞生,它们基于 Transformer 架构,采用多头自注意力(MHSA)机制来捕捉词汇间的复杂关系,尽管 MHSA 模块在模型中扮演着核心角色,但其在推理过程中对计算和内存资源的需求却极为庞大。具体来说,对于长度为 N 的输入句子,自注意力的计算复杂度高达 O (N^2),而内存占用则达到了 O (N^2D),其中 D 是模型的维度。
ShuYini
2024/03/12
3790
Mamba增强!华为诺亚 | 提出密集状态空间模型:DenseSSM,准确度显著提升
【他山之石】Mamba真比Transformer更优吗?Mamba作者:混合架构才是最优解!
Mamba模型由于匹敌Transformer的巨大潜力,在推出半年多的时间内引起了巨大关注。但在大规模预训练的场景下,这两个架构还未有「一较高低」的机会。最近,英伟达、CMU、普林斯顿等机构联合发表的实证研究论文填补了这个空白。
马上科普尚尚
2024/07/16
7440
【他山之石】Mamba真比Transformer更优吗?Mamba作者:混合架构才是最优解!
TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !
Transformer [53] 架构对计算机视觉领域产生了深远的影响,它们灵活的注意力模块结构被认为是其成功的关键因素之一。尽管这些架构非常流行,但 Transformer 遇到了计算复杂度问题,因为其注意力机制的计算复杂度呈二次方增长 [2],这导致了计算和内存使用的增加。因此,这给模型优化和扩展带来了重大挑战,阻碍了它们的广泛应用。为应对这一挑战,近期的研究引入了一些亚二次的架构,例如 Mamba 和 RWKV [13, 40]。然而,为了针对各种下游任务从头开始训练专门的亚二次模型,会面临显著的计算负担,并产生更高的二氧化碳排放量。幸运的是,作者观察到许多基于 Transformer 的预训练模型,例如 LLaVA [42] 和 CLIP [42] 等已经公开可用。
AIGC 先锋科技
2025/04/13
4300
TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !
VSSD 在图像分类、检测与分割中的应用, 刷新基于 SSM 的模型 SOTA 榜 !
近年来,由Vision Transformer(ViT)[9]引领的视觉 Transformer (vision transformers)在计算机视觉领域取得了巨大成功。得益于注意力机制的全局感受野和强大的信息建模能力,基于视觉 Transformer 的模型在分类[7]、检测[32]和分割[66]等各项任务中均取得了显著进展,超越了经典的基于CNN的模型。然而,注意力机制的二次计算复杂度使得它在处理长序列的任务中资源消耗巨大,这限制了其更广泛的应用。
未来先知
2024/08/08
8220
VSSD 在图像分类、检测与分割中的应用, 刷新基于 SSM 的模型 SOTA 榜 !
推荐阅读
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
6450
【他山之石】Mamba 2模型携SSD算法,让长序列处理更高效,一举解决AI大模型的效率痛点!
1.2K0
Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
5070
新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
5160
SSM 能取代 Transformer 搞出更「牛」的大模型吗?
4830
Transformers是SSMs:通过结构化状态空间对偶性的广义模型和高效算法(一)
3900
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
3900
Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强
1620
Mamba-2发布状态空间扩大8倍,训练速度提高50%,提出结构化状态空间二元性的理论将Transformer和SSM进行统一
4020
算力终结者来了!华人天团「降维打击」注意力瓶颈,AI狂飙进对数时代
1540
五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈
1.4K0
颠覆Transformer霸权!CMU普林斯顿推Mamba新架构,解决致命bug推理速度暴增5倍
1.2K0
Mamba详细介绍和RNN、Transformer的架构可视化对比
3.7K0
推理速度暴增,Mamba终结Transformer的统治 !!
7740
视觉Mamba来了:速度提升2.8倍,内存能省87%
4100
【源头活水】Mamba-YOLO性能超越 YOLO!:SSM+CNN的新型主干网络
3.9K0
Mamba增强!华为诺亚 | 提出密集状态空间模型:DenseSSM,准确度显著提升
3790
【他山之石】Mamba真比Transformer更优吗?Mamba作者:混合架构才是最优解!
7440
TransMamba:跨架构训练实现Transformer知识向Mamba迁移,两阶段策略及多方法赋能单多模态任务 !
4300
VSSD 在图像分类、检测与分割中的应用, 刷新基于 SSM 的模型 SOTA 榜 !
8220
相关推荐
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档