前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

Transformer+Mamba黄金组合!长文推理性能飙升3倍,性能还更强

作者头像
新智元
发布于 2025-04-22 02:51:00
发布于 2025-04-22 02:51:00
13300
代码可运行
举报
文章被收录于专栏:新智元新智元
运行总次数:0
代码可运行
新智元报道

编辑:LRS

【新智元导读】Nemotron-H模型混合了Transformer和Mamba架构,使长文本推理速度提升3倍,同时还能保持高性能,开源版本包括8B和56B尺寸。训练过程采用FP8训练和压缩技术,进一步提高了20%推理速度

过去几年,Transformer虽稳坐AI架构「铁王座」,但其二次方复杂度带来的算力消耗和长序列处理瓶颈,限制了大模型在推理阶段处理长文本。

Mamba凭借「线性复杂度」异军突起,非常适合长序列任务,有望成为Transformer架构的替代品,但在处理全局关系上偏弱。

Mamba+Transformer混合架构可以将二者的优势互补,实现「效率」和「性能」的双丰收。

最近英伟达发布了Nemotron-H系列模型,模型尺寸为8B和56B(蒸馏版本47B),用Mamba-2层替换了Transformer中的自注意力层,关键创新在于对Transformer和Mamba的平衡,实现了高效处理长上下文的同时,还不牺牲模型性能,显著提高了推理速度,并且内存占用更少。

论文链接:https://arxiv.org/pdf/2504.03624

实验结果表明,Nemotron-H模型在准确度上优于同尺寸的开源Transformer模型(例如Qwen-2.5-7B/72B和Llama-3.1-8B/70B),同时在推理速度上提速3倍。

为了进一步提高推理速度并降低推理时所需的内存量,研究人员使用一种剪枝和蒸馏压缩技术MiniPuzzle,将56B尺寸的模型蒸馏为NemotronH-47B-Base,在基准的准确率上与56B模型相当,同时推理速度提升20%

论文中还提出了一种基于FP8的训练方案,使56B模型实现了与BF16训练相当的性能。

Nemotron-H架构

Nemotron-H模型由Mamba-2、自注意力层和前馈神经网络(FFN)层组成,其中总层数的8%为自注意力层,均匀分布在模型中。

即,Nemotron-H-8B模型包含52层,其中4层为注意力层;Nemotron-H-56B模型包含118层,其中10层为注意力层,其余层平均分配为FFN层和Mamba-2层。

为了与标准Transformer模块的结构一致,研究人员提出三条设计准则:模型的第一层必须是Mamba-2层,最后一层必须是FFN层,并且自注意力层总是位于FFN层之前。

模型的具体参数

需要注意的是,8B和56B模型在FFN隐藏维度、注意力查询头和状态维度设置上存在差异;

  • 对于Mamba-2层,保持默认的头维度(64)、扩展因子(2)和卷机窗口(4);
  • 使用RMSNorm进行归一化;
  • 不适用位置嵌入;
  • 模型的嵌入层和输出层使用了独立的权重,没有使用线性层的偏置权重,也没有使用dropout;
  • 在每个Mamba-2层、自注意力层和FFN层周围都加入了残差跳跃连接。

训练过程

数据准备

训练数据从来源上大体上可以分为多语言、网络爬取、学术、代码、维基百科和数学数据,这种数据组合可以全面覆盖通用知识,同时在编程和数学等领域培养强大的专业能力。

其中多语言数据涵盖了九种语言:德语、西班牙语、法语、意大利语、葡萄牙语、中文、日语、韩语和俄语。

研究人员设计数据组合时,确保所有相同质量的数据源权重相似,而高质量的数据源权重会高于低质量的数据源。

在训练56B尺寸的模型时,使用了大约20万亿个token的数据,其中,网页爬取数据占比最大,达到了59%,其次是代码数据,占20%,学术内容占8.8%

在预训练Nemotron-H基础模型时,研究人员采用了分阶段的数据混合方法:

第一阶段,使用一种促进数据多样性的数据组合;在第二和第三阶段,主要使用高质量的数据集(例如维基百科),其中第二阶段为训练进度达到60%时,第三阶段为训练进度达到80%时;第四阶段则使用最后3800亿个训练token

在后训练阶段,研究人员调整了数据的分布,更加注重有监督的微调(SFT)样本。

FP8训练策略

Nemotron-H训练的一个创新在于使用8位浮点数(FP8),在降低内存需求和计算成本的同时,还能保持模型的质量,主要包括以下关键点:

采用逐张量(per-tensor)的当前缩放技术,以提高训练的稳定性。

将模型中最初的四个和最后四个矩阵乘法(GEMM)操作保持在BF16精度,以确保关键部分的高精度处理;

在训练过程中,FP8训练逐渐与BF16训练收敛,最终达到类似的性能水平。

实验结果表明,FP8训练在多种基准测试中能够达到或超过BF16训练的性能,不仅提高了训练效率,还通过在MMLU、常识理解、代码生成和GSM8K等基准测试中的表现,证明了其在保持或提升模型质量方面的有效性

模型压缩

为了进一步提高模型部署的效率,研究人员开发了一种新型压缩框架MiniPuzzle的,结合了剪枝、神经架构搜索和知识蒸馏技术。

MiniPuzzle压缩框架的工作流程如下图所示,展示了从预训练模型到压缩模型的转变过程,包括重要性评估、神经架构搜索和蒸馏等步骤。

MiniPuzzle方法包含五个阶段:

1. 重要度估计:分析每一层对模型性能的贡献。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def importance_estimation(model, dataset):
# Compute per-layer importance scores
    scores = []for layer in model.layers:
# Zero out layer outputs and measure impact on loss
        scores.append(measure_impact_on_loss(model, layer, dataset))return scores

2. 层重要度分析:研究人员需要分析出哪些层对模型性能的贡献最大。

3. 条件神经架构搜索:探索不同压缩架构方案,在每个候选压缩模型中保留不同的层。

4. 内存与性能权衡:根据内存使用量和准确度对模型进行评估,对候选架构的内存负载与基准性能进行权衡。

5. 知识蒸馏:通过训练,使压缩后的模型能够匹配甚至超越原始模型的能力。

通过这一过程,Nemotron-H-56B模型成功被压缩为Nemotron-H-47B模型,参数减少了16%,同时保持了相当的准确度,并将推理吞吐量提高了20%。

实验结果

Nemotron-H模型在性能和效率方面相较于其他基于Transformer的模型取得了显著进步。

推理吞吐量

混合架构使得推理速度大幅提升,尤其是在处理长序列时:

  • Nemotron-H-56B的推理吞吐量比Qwen-2.5-72B和Llama-3.1-70B高出多达3倍。
  • Nemotron-H-8B在类似准确度水平下,比Qwen-2.5-7B的吞吐量高出1.8倍。

效率提升在处理长序列(例如65,536个token)时尤为明显,突显了Mamba层在输出token时计算复杂度固定的优势。

多基准测试中的准确度

尽管架构发生了变化,但Nemotron-H模型在广泛的基准测试中仍保持了强劲的性能表现。

在评估的17项任务中,Nemotron-H-56B在16项任务中的表现优于Llama-3.1-70B,在数学推理任务上表现尤为出色。

应用与多功能性

Nemotron-H模型可以进行扩展,以适应各种应用场景。

  • 视觉-语言能力:基础模型通过NVLM-D架构扩展,创建了视觉-语言模型(VLM),在VQAv2、GQA和VizWiz等基准测试中表现出色,显示出混合架构对多模态任务的适应性。
  • 代码生成:模型在与代码相关的任务上表现尤为出色。训练数据中包含大量代码数据(占比20%),使得模型能够理解和生成多种编程语言的高质量代码。
  • 长文本处理:混合架构的一个显著优势是能够高效处理长文本。Nemotron-H-8B模型经过专门的长文本处理能力微调,在RULER基准测试和其他长文本评估任务中表现出色。
  • 针对不同能力的数据分布:研究人员针对不同的训练阶段精心调整了数据分布,以培养特定的能力,通过调整不同数据类型(网页爬取、代码、数学、学术等)的比例,可以在不需要架构变更的情况下增强模型的特定能力。比如针对STEM能力优化时,训练数据增加了数学和代码内容的比重。

Mamba架构简介

原版Mamba架构

Mamba是一种新型的序列建模架构,通过选择性状态空间模型(Selective State Space Model, SSM)和硬件优化算法,将计算复杂度降低到线性级别O(L),能够高效处理长达百万级的序列长度,推理速度比Transformer快5倍,在短序列任务中也实现了超越Transformer的性能。

选择性SSM的思路是,通过让模型参数依赖于输入内容,实现对信息的选择性传播和遗忘,过滤无关信息,从而提高对密集模态(如语言和基因组)的建模能力。

Mamba中的硬件感知并行算法,可以避免显式存储扩展状态,利用GPU的内存层次结构优化计算过程,实现线性时间复杂度,并显著提升推理速度。

论文链接:https://arxiv.org/pdf/2312.00752

Mamba-2架构

Mamba-2结合了状态空间模型(SSMs)和注意力机制,基于State Space Duality (SSD) 框架,通过结构化矩阵的分解和优化算法,实现了线性扩展的训练效率。

与Mamba相比,Mamba-2对核心层进行了优化,简化了状态转移矩阵的结构,并引入了更大的头维度,从而显著提高了训练效率,速度提高了2-8倍;还引入了多头结构和张量并行等技术,进一步增强了模型的表达能力和并行计算效率,在大规模训练和推理中更加高效。

在实验中,Mamba-2在语言建模和多查询关联回忆任务上均优于Mamba和基于注意力的模型。

论文链接:https://arxiv.org/abs/2405.21060

参考资料:

https://arxiv.org/pdf/2504.03624

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
NASA:ASTER L2 表面辐射率(E(辐射率)和 T(地表温度)) V003数据集
ASTER L2 地表发射率是一种按需生成的产品((https://lpdaac.usgs.gov/documents/996/ASTER_Earthdata_Search_Order_Instructions.pdf)),利用 8 至 12 µm 光谱范围内的五个热红外(TIR)波段(白天或夜间获取)生成。 它包含 90 米空间分辨率的陆地表面发射率。 迄今为止,地表发射率的估算只能通过土地覆盖类型或植被指数等代用指标得出。 温度/辐射率分离(TES)算法用于得出 E(辐射率)和 T(地表温度)。 TES 算法的主要目标包括:恢复矿物基质的准确和精确的发射率,以及估算准确和精确的表面温度,尤其是植被、水和雪的表面温度。 每个像素的离地辐射度和下沉辐照度矢量都被考虑在内。 发射率采用归一化发射率法(NEM)估算,并对反射太阳光进行迭代补偿。 利用每个像素的平均发射率对发射率光谱进行归一化处理。 计算归一化光谱的最小-最大差值(MMD),并通过回归分析得出最小发射率的估计值。 这些估算值用于对归一化发射率进行缩放,并利用得出的细化发射率对反射天光进行补偿。 2020 年 5 月 27 日之后的 ASTER 2 级观测数据请求将恢复使用气候学臭氧输入。 更多信息可查阅 ASTER L2 处理选项更新(https://lpdaac.usgs.gov/news/aster-l2-processing-options-update/)。 V003 数据集发布日期:2002-05-03 自 2021 年 6 月 23 日起,辐射校准系数第 5 版(RCC V5)将应用于新观测到的 ASTER 数据和存档的 ASTER 数据产品。 有关 RCC V5 的详细信息,请参阅以下期刊文章。
此星光明
2024/09/07
1300
NASA:ASTER L2 表面辐射率(E(辐射率)和 T(地表温度)) V003数据集
NASA数据集:ASTER L2 地表辐射率 - VNIR 和串扰校正 SWIR V003
ASTER L2 Surface Radiance - VNIR and Crosstalk Corrected SWIR V003
此星光明
2024/09/13
1250
NASA数据集:ASTER L2 地表辐射率 - VNIR 和串扰校正 SWIR V003
ASTER L2 表面反射率 SWIR 和 ASTER L2 表面反射率 VNIR V003
ASTER L2 Surface Reflectance SWIR and ASTER L2 Surface Reflectance VNIR V003
此星光明
2024/09/07
990
ASTER L2 表面反射率 SWIR 和 ASTER L2 表面反射率 VNIR V003
NASA数据集:ASTER全球数字海拔模型(GTEM)V003
ASTER全球数字海拔模型(GTEM)第3版(ASTG TM)提供了地球陆地区域的全球数字海拔模型(TEM),空间分辨率为1角秒(赤道处水平位置约30米)。ASTER GTEM数据产品的开发是美国国家航空航天局(NASA)和日本经济产业省(METI)之间的合作成果。ASTER GTEM数据产品由东京的传感器信息实验室公司(SILC)创建。ASTER GTEM第3版数据产品是根据对整个ASTER 1A级(https://doi.org/10.5067/ASTER/ASTER/AST_L1A.003)档案的自动处理创建的,该档案是在2000年3月1日至2013年11月30日期间获取的场景。使用立体相关来生成超过一百万个基于单个场景的ASTER数字元,并对其应用了云掩蔽。所有云屏蔽的数字元和非云屏蔽的数字元都被堆叠。删除了剩余坏值和离群值。在数据堆叠有限的地区,使用了几个现有的参考数字元来补充ASTER数据以纠正剩余异常。对选定的数据进行平均以创建最终像素值,然后将数据分割为1度纬度乘1度经度的区块,并具有一个像素重叠。为了纠正水体表面的海拔值,还生成了ASTER全球水体数据库(ASTWBD)(https://doi.org/10.5067/ASTER/ASTWBD.001)第1版数据产品。ASTER GTEM的地理覆盖范围从北纬83°延伸到南纬83°。每个图块以GeoTivf格式分布,并投影在1984年世界大地测量系统(WGS 84)/1996年地球引力模型(EGM 96)大地水准面上。该系列中的22,912块瓷砖中的每一块都至少包含0.01%的土地面积。ASTER GTEM产品中提供了用于TEM和场景数(NUM)的层。
此星光明
2024/09/05
2700
NASA数据集:ASTER全球数字海拔模型(GTEM)V003
NASA数据集:高级星载热发射和反射辐射计(ASTER)1B 级快速传感器辐射度登记全球数据产品
ASTER L1B Registered Radiance at the Sensor V003
此星光明
2024/09/13
1480
NASA数据集:高级星载热发射和反射辐射计(ASTER)1B 级快速传感器辐射度登记全球数据产品
NASA:ASTER 1 级精确地形校正登记传感器辐射率 V003
高级星载热发射和反射辐射计(ASTER)1 级精确地形校正注册传感器辐射度(AST_L1T)数据包含校正传感器辐射度,与 ASTER 1B 级(AST_L1B)(https://doi.org/10.5067/ASTER/AST_L1B.003)相对应,经过几何校正,并旋转到 UTM 投影北上。 AST_L1T 由相应的 ASTER L1A (AST_L1A) (https://doi.org/10.5067/ASTER/AST_L1A.003) 产品的一次重新采样生成。 AST_L1T 中可用的波段取决于 AST_L1A 中的波段,最多可包括 3 个可见光和近红外(VNIR)波段、6 个短波红外(SWIR)波段和 5 个热红外(TIR)波段。 AST_L1T 数据集不包括后视 VNIR 波段 3。 精确地形校正过程将 GLS2000 数字高程数据与衍生的地面控制点(GCP)结合起来,以实现所有相关统计数据达到最小阈值的日间场景的地形精度。 对于夜间获取的场景或质量较差的地面图像(如云层),可采用其他级别的校正(系统地形、系统或精确)。 对于白天的图像,如果使用 VNIR 或 SWIR 望远镜采集数据并尝试进行精确校正,则每幅精确地形校正图像都将附带独立的质量评估。 它将包括可供分发的几何校正文本文件和叠加有效 GCP 的单波段浏览图像。 该多文件产品还包括地理坐标全分辨率浏览图像。 浏览图像的数量和图像的波段组合取决于相应 (AST_L1A) 数据集 (https://doi.org/10.5067/ASTER/AST_L1A.003) 中可用的波段。
此星光明
2024/09/17
1170
NASA:ASTER 1 级精确地形校正登记传感器辐射率 V003
NASA数据集——对流层二氧化碳垂直分辨率剖面图
AIRS/Aqua L2 CO2 support retrieval (AIRS+AMSU) V005 (AIRX2SPC) at GES DISC
此星光明
2024/05/24
920
NASA数据集——对流层二氧化碳垂直分辨率剖面图
NASA数据集——对流层中的 AIRS/Aqua L2 CO2 数据集
AIRS/Aqua L2 CO2 in the free troposphere (AIRS+AMSU) V005 (AIRX2STC)
此星光明
2024/05/24
1170
NASA数据集——对流层中的 AIRS/Aqua L2 CO2 数据集
GHRSST Level 3U 全球海面下温度第 8a 版,来自 GCOM-W 卫星上的高级微波扫描辐射计 2(GDS 第 2 版)和(AMSR2) 近地表实时温度8.2版本
GHRSST Level 3U Global Near-Real-Time Subskin Sea Surface Temperature version 8a from the Advanced Microwave Scanning Radiometer 2 on the GCOM-W satellite
此星光明
2024/07/12
1160
GHRSST Level 3U 全球海面下温度第 8a 版,来自 GCOM-W 卫星上的高级微波扫描辐射计 2(GDS 第 2 版)和(AMSR2) 近地表实时温度8.2版本
Google Earth Engine ——高级星载热辐射和反射辐射计全球发射率数据库(ASTER-GED)地表温度数据集
The Advanced Spaceborne Thermal Emission and Reflection Radiometer Global Emissivity Database (ASTER-GED) was developed by the National Aeronautics and Space Administration's (NASA) Jet Propulsion Laboratory (JPL), California Institute of Technology. This product includes the mean emissivity and standard deviation for all 5 ASTER Thermal Infrared bands, mean land surface temperature (LST) and standard deviation, a re-sampled ASTER GDEM, land-water mask, mean Normalized Difference Vegetation Index (NDVI) and standard deviation, and observation count.
此星光明
2024/02/02
3280
Google Earth Engine ——高级星载热辐射和反射辐射计全球发射率数据库(ASTER-GED)地表温度数据集
中科星图——Landsat8_C2_ST数据集是经大气校正的地表温度数据
Landsat8_C2_ST数据集是经大气校正的地表温度数据,属于Collection2的二级数据产品,以开尔文为单位测量地球表面温度,是全球能量平衡研究和水文模拟中的重要地球物理参数。地表温度数据还有助于监测作物和植被健康状况,以及极端高温事件,如自然灾害(如火山爆发、野火)和城市热岛效应。前言 – 人工智能教程
此星光明
2024/02/20
3530
中科星图——Landsat8_C2_ST数据集是经大气校正的地表温度数据
MODIS数据介绍——波段、产品
MODIS是搭载在terra和aqua卫星上的传感器,MODIS扫描周期为1.477秒,每条扫描线沿扫描方向有1354个Pixels,沿卫星轨道方向有10个1KMD的IFOV。在每个IFOV中,1KM分辨率波段有1个采样,500M分辨率波段有4个采样,250M波段有16个采样。通过网址进行下载:https://ladsweb.modaps.eosdis.nasa.gov/
全栈程序员站长
2022/08/25
5.4K0
MODIS数据介绍——波段、产品
利用热红外遥感影像提取地表温度的草垛
地表温度作为地球环境分析的重要指标,而遥感技术作为现代重要的观测手段,使得基于遥感图像的地表温度反演的研究越来越多。主要的地表温度反演方法有:大气校正法,单窗算法,单通道法等等。本文以2013年花溪区的遥感影像为基础,介绍用辐射传输方程法对地表温度进行反演。
陈南GISer
2021/08/19
3.1K0
利用热红外遥感影像提取地表温度的草垛
NASA数据集:大气红外探测器(AIRS)是第二个地球观测系统(EOS)极轨道平台 EOS Aqua 上表层温度(陆地和海洋表面)、表层气温、气温和水汽剖面、对流层顶特征、柱状可降水量等数据
AIRS/Aqua L3 8-day Standard Physical Retrieval (AIRS+AMSU) 1 degree x 1 degree V006 (AIRX3ST8) at GES DISC
此星光明
2024/05/26
2190
NASA数据集:大气红外探测器(AIRS)是第二个地球观测系统(EOS)极轨道平台 EOS Aqua 上表层温度(陆地和海洋表面)、表层气温、气温和水汽剖面、对流层顶特征、柱状可降水量等数据
基于ENVI与ERDAS的Landsat 7 ETM+单窗算法地表温度(LST)反演
更新:基于GEE的Landsat地表温度反演可以看这篇博客[1],自动批量操作,处理更快。
疯狂学习GIS
2021/07/22
1.7K0
Landsat8_C2_ST是经大气校正的地表温度数据
Landsat8_C2_ST数据集是经大气校正的地表温度数据,属于Collection2的二级数据产品,以开尔文为单位测量地球表面温度,是全球能量平衡研究和水文模拟中的重要地球物理参数。地表温度数据还有助于监测作物和植被健康状况,以及极端高温事件,如自然灾害(如火山爆发、野火)和城市热岛效应。前言 – 人工智能教程
此星光明
2024/02/13
2490
基于ENVI与ERDAS的Hyperion高光谱经验比值、一阶微分法叶绿素及地表参数反演
  前面几篇博客介绍了基于Landsat这一多光谱遥感图像数据的多种地表温度(LST)反演方法,大家可以参考博客1[1]、博客2[2]、博客3[3];那么接下来,我们就将基于比多光谱数据可以说是更进一步的高光谱卫星数据——大名鼎鼎的Hyperion数据,进行多种其他地表参数的反演。其中,在此之前可以先了解一下国内外主流的星载高光谱传感器及其平台的相关信息[4]。
疯狂学习GIS
2021/07/22
1.9K0
推荐阅读
NASA:ASTER L2 表面辐射率(E(辐射率)和 T(地表温度)) V003数据集
1300
NASA数据集:ASTER L2 地表辐射率 - VNIR 和串扰校正 SWIR V003
1250
ASTER L2 表面反射率 SWIR 和 ASTER L2 表面反射率 VNIR V003
990
NASA数据集:ASTER全球数字海拔模型(GTEM)V003
2700
NASA数据集:高级星载热发射和反射辐射计(ASTER)1B 级快速传感器辐射度登记全球数据产品
1480
NASA:ASTER 1 级精确地形校正登记传感器辐射率 V003
1170
NASA数据集——对流层二氧化碳垂直分辨率剖面图
920
NASA数据集——对流层中的 AIRS/Aqua L2 CO2 数据集
1170
GHRSST Level 3U 全球海面下温度第 8a 版,来自 GCOM-W 卫星上的高级微波扫描辐射计 2(GDS 第 2 版)和(AMSR2) 近地表实时温度8.2版本
1160
Google Earth Engine ——高级星载热辐射和反射辐射计全球发射率数据库(ASTER-GED)地表温度数据集
3280
中科星图——Landsat8_C2_ST数据集是经大气校正的地表温度数据
3530
MODIS数据介绍——波段、产品
5.4K0
利用热红外遥感影像提取地表温度的草垛
3.1K0
NASA数据集:大气红外探测器(AIRS)是第二个地球观测系统(EOS)极轨道平台 EOS Aqua 上表层温度(陆地和海洋表面)、表层气温、气温和水汽剖面、对流层顶特征、柱状可降水量等数据
2190
基于ENVI与ERDAS的Landsat 7 ETM+单窗算法地表温度(LST)反演
1.7K0
Landsat8_C2_ST是经大气校正的地表温度数据
2490
基于ENVI与ERDAS的Hyperion高光谱经验比值、一阶微分法叶绿素及地表参数反演
1.9K0
相关推荐
NASA:ASTER L2 表面辐射率(E(辐射率)和 T(地表温度)) V003数据集
更多 >
LV.0
南京大学博士生
目录
  • 【新智元导读】Nemotron-H模型混合了Transformer和Mamba架构,使长文本推理速度提升3倍,同时还能保持高性能,开源版本包括8B和56B尺寸。训练过程采用FP8训练和压缩技术,进一步提高了20%推理速度
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档