采访嘉宾|摩尔线程技术团队、清程极智技术团队
DeepSeek 上周一口气开源了五个开源库,这些项目看似技术名词堆砌,但实际上都是在解决 AI 计算中的关键问题,尤其是针对英伟达 GPU 的优化。
英伟达的 CUDA 生态是其最大的护城河,几乎所有 AI 开发者都依赖 CUDA 来优化 GPU 计算。然而,CUDA 的优化是通用的,不一定适合所有场景,尤其是国产芯片和特定 AI 任务的需求。
DeepSeek 的五个开源项目,从计算效率、通信优化、矩阵计算、任务调度到负载平衡,覆盖了 AI 计算中的多个关键环节。那这些对于开发者和国产芯片厂有什么意义?
1 DeepSeek 放出的开源大招,相当于在 CUDA 上架起一座桥
2 月 24 日,DeepSeek 发布了显卡的“加速器”FlashMLA,这是一个专门优化 GPU 计算效率的工具,特别适合处理不同长度的数据(比如长短不一的文本)。
它能让 GPU 在处理 AI 任务时更“聪明”,动态分配算力,避免资源浪费。比如翻译一段长文本和一段短文本时,它能根据任务需求调整算力,让速度更快、成本更低。
英伟达的 CUDA 生态虽然强大,但它的优化是通用的,不一定适合所有场景。FlashMLA 通过针对性地优化 GPU 计算效率,相当于在 CUDA 的基础上“开了一条快车道”,让国产芯片和开发者能更高效地利用英伟达 GPU。
2 月 25 日,DeepSeek 亮相了大模型训练的“通信管家”DeepEP,这是一个专门用于提升大模型训练效率的通信库,特别适合 MoE(混合专家)模型。
当多个 AI 模型协同工作时,DeepEP 能高效协调它们之间的通信,减少延迟和资源消耗。它还支持低精度计算(如 FP8),进一步节省算力。
大模型训练需要高效的通信和资源调度,而 CUDA 在这方面的优化有限。DeepEP 通过优化通信和低精度计算,让国产芯片和开发者能更高效地训练大模型。
2 月 26 日,我们迎来了矩阵计算的“省电小能手”DeepGEMM。众所周知,矩阵乘法是 AI 计算的基石,这款优化矩阵乘法的工具通过低精度计算(FP8)提升速度,再用 CUDA 技术修正误差,既快又准。DeepGEMM 的先进性在于,其代码只有 300 行,安装简单,适合快速部署。
2 月 27 日,DeepSeek 开源了两个工具和一个数据集:DualPipe、EPLB 以及来自训练和推理框架的分析数据,梁文锋本人也参与了两个项目的开发。
DualPipe 可以算得上是流水线并行的“调度大师”,当多个任务步骤速度不一致时,它能双向调度,减少空闲时间,让任务更流畅地完成。
2 月 28 日,DeepSeek 开源了 GPU 负载的“平衡大师”EPLB,当某些 AI 模型任务过重时,它会复制任务到空闲显卡,避免“忙的忙死,闲的闲死”。
可以说,DeepSeek 通过这一系列开源项目,证明了他们有能力深入剖解英伟达 CUDA 并对其进行调优,他们针对具体问题给出的解决方案让国产芯片厂和 AI 开发者能够更高效地利用 GPU 资源。
2 暂时绕不过 CUDA,但也有其他解决方案
相比于此次开源周带来的震撼,国产芯片厂早在 DeepSeek R1 发布后已经进行过一场酣畅淋漓的狂欢。
DeepSeek R1 发布几天后,似乎所有国产芯片厂商都陆续官宣已完成 DeepSeek 适配,算力芯片厂商华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、燧原科技、昆仑芯等相继宣布适配或上架 DeepSeek 模型服务,有些厂商部署的是蒸馏版模型,而华为昇腾、寒武纪、摩尔线程以及昆仑芯都在公开场合表示其完成满血版 DeepSeek 模型的适配。
那么,满血版和蒸馏版模型之间的区别是什么?
满血版模型与蒸馏版模型从模型结构上就是不同的,满血版是包含了 256 个专家的 MoE 混合专家模型,目前流行的蒸馏版一般都是稠密模型,基础模型一般是 Llama 或 Qwen。
满血版模型通常需要更强的硬件支持比如更多显存和更复杂的推理方案,比如 prefill 和 decode 分离、推理集群调度等。相比之下,蒸馏版模型通过知识蒸馏技术将大模型的能力迁移到较小的模型上,降低了对硬件的要求,但同时也牺牲了一定的性能。
适配满血版模型的关键技术包括混合精度计算、多机互联、以及对 MoE(混合专家系统)的支持。MoE 模型涉及多个专家,每次推理只激活部分参数,与传统的 Transformer 模型部署有很大不同,这里面可优化空间很大。
除了上述关键技术外,许多国产 AI 芯片厂商在部署满血版模型时还有一个硬伤——无法原生支持 FP8 数据类型。
DeepSeek 模型采用了 FP8 混合精度训练,英伟达从 H100 开始,AMD MI325X 都原生支持 FP8。那是否意味着,不原生支持 FP8 就无法适配满血版模型?
在采访中有业内人士表示:“原生支持 FP8 数据类型确实能够更好的支持满血版 DeepSeek 大模型,但不支持 FP8 的芯片也有解决方案,它们可以通过算子优化、参数量化等技术手段来弥补这一差距。例如,通过使用 FP16 或 INT8 进行推理,但这样会增加存储需求或降低精度。
国产芯片 / 服务器如果要适配满血版 DeepSeek 模型,简单来说就是要大容量显存、多机互联、混合精度和软件兼容。
首先,DeepSeek 参数量高达 671B,FP16 的精度下,单纯的参数量就高达 1.3T,而低精度量化虽然可以降低显存要求,但也带来了模型精度损失。
其次,需要具备强大的多机互联能力,以优化推理时服务器的通信效率,因为不降低精度的满血版模型往往需要数台多卡服务器协同运行。此外,如果要最大化发挥 DeepSeek 模型技术优势,尤其是要参考 DeepSeek 模型架构如何进行基础模型训练,因此芯片对 FP8 的原生支持是必不可少的,单纯的推理场景 FP8 支持也有重大价值。芯片 / 服务器还需要支持 MoE 训练 / 推理软件。
以摩尔线程为例,目前摩尔线程已经率先支持包括 FP8 在内的混合精度模型训练。摩尔线程全功能 GPU,原生支持 FP8 数据精度,支持 MTLink 高速互联技术,可以为 DeepSeek 满血版推理以及类 DeepSeek 架构模型训练提供优质的国产算力。
DeepSeek 的火爆为国产芯片注入了一剂强心剂。国产芯片可以跑通 DeepSeek,是不是证明我们已经可以绕过 CUDA 架构解决兼容性问题?答案是:我们正在接近这个目标,但尚未完全实现。
在摩尔线程看来,DeepSeek 绕过 CUDA 是误读,其技术实现仍深度依赖 NVIDIA 生态的核心组件(PTX)。即使框架层试图抽象化 CUDA API,只要底层运行在 NVIDIA GPU 上,就不可避免与 CUDA 工具链和硬件驱动绑定。这种依赖关系反映了当前 AI 算力领域“NVIDIA 主导,开源生态依附”的现实格局。DeepSeek 的实践更多是在 CUDA 生态内优化,而非真正“绕过”它。
CUDA 生态壁垒的核心在于硬件与软件的深度耦合,以及由此形成的强大生态绑定效应。英伟达的 GPU 架构通过 CUDA 进行了深度优化,能够充分发挥硬件的并行计算能力。同时,CUDA 生态涵盖了从编程语言、API 到优化库的完整工具链,并与主流深度学习框架深度集成,形成了强大的开发者社区和应用生态。
摩尔线程表示:“如果希望在全球市场上挑战英伟达的 CUDA 生态,国产 GPU 厂商需要从多个方面寻找突破口。一是构建自主可控的软件生态是关键,其次,兼容与创新并行的策略也至关重要。此外,抓住新技术的机遇也是一个重要方向,比如 DeepSeek 的爆火,它的核心突破在于算法优化和计算效率的提升,这种低算力需求模型对国产芯片的发展是一个重要机遇。再有,通过开源和合作,吸引开发者参与,加速技术迭代,以及硬件层面的优化也非常重要。”
不得不承认的事实是,DeepSeek 等企业的技术迭代短期内难以完全脱离 CUDA 生态。但长期来看,随着国产替代的推进、算法优化能力的提升,以及行业对供应链安全的重视,将逐步降低单一依赖风险。这一过程需要时间和技术积累,但已是不可逆的趋势。未来的算力底座更可能呈现“多元共存”的形态,而非某一厂商的绝对主导。
3 国产芯片厂,在焦虑中狂欢
多年来,在全球 AI 算力市场,英伟达的 CUDA 生态牢牢把持着一切,包括其他厂商只能眼巴巴看着英伟达市值一再创新高,那个爱穿皮夹克的创始人黄仁勋“躺在印钞机上数钱”。但现在,DeepSeek 就像一条“鲶鱼”,给国产芯片厂商带来了“翻身”的希望。
DeepSeek 在技术上的突破,如 GRPO、MLA、FP8 训练等,共同构建了其深而宽的技术护城河。
以 FP8 为例,大模型不断演进,低精度计算成为 GPU 硬件的发展趋势。从最初的 FP32,到目前主流的 FP16、BF16,再到如今备受关注的 FP8,低精度计算不仅能显著提升计算速度和能效,还能减少内存占用,非常符合大模型时代对 GPU 硬件的要求。
采用 FP8 训练已逐渐成为大模型训练的一个重要研究方向。相较于主流的 FP16 和 BF16,FP8 在大模型训练和推理中展现出显著优势:首先,FP8 格式在相同硬件加速平台上的峰值性能显著超越 FP16 和 BF16,理论估计可提供两倍的性能提升。其次,得益于架构设计上的特殊优化,FP8 在实现 2 倍计算性能的同时,功耗更低。此外,FP8 的数值位数比 FP16 和 BF16 更少,这使得在一些内存占用较大的操作中,可以有效降低内存占用消耗。同时,传输数据量减半,从而显著降低通信开销。
摩尔线程 AI 技术专家观察到 ,DeepSeek 团队在实践中,尽量克制地去使用 FP8,仅在模型的 MLP 部分使用了 FP8 GEMM。
不过在使用时对激活和权重做了细致的设计。考虑到激活和权重的数值分布区别,对其分别采用了 1x128 和 128x128 大小的 block-wise 量化,在尽可能保证训练精度的情况下利用到 FP8 带来的计算和传输优势,这样的设计得以让其 671B 的模型也能够保持稳定训练。
此外,算力资源和人才储备也是 DeepSeek 成功的关键因素。DeepSeek 通过分布式计算框架,将训练成本大幅降低,实现了算力的民主化。这些因素共同构成了 DeepSeek 的核心竞争力,使其在 AI 领域具有难以复制的优势。
遍地是机遇
DeepSeek 的成功,也证明了国产芯片即使“底子”差一点,也能通过软件优化“弯道超车”。
摩尔线程表示,DeepSeek 的核心突破在于算法优化和计算效率的提升,这种低算力需求模型对国产芯片的发展是一个重要机遇。
首先,DeepSeek 的成功表明,通过模型压缩、稀疏计算、混合精度训练等技术手段降低算力需求,可以在一定程度上弥补硬件性能的不足,为国内芯片提供了软硬件协同设计的新思路,证明了在硬件性能短期内难以赶超的情况下,通过软件层面的创新仍可提升整体计算效能。
其次,DeepSeek 在混合精度训练方面的成功,展示了低精度计算在 AI 训练中的潜力。国内芯片厂商可以借鉴这种模式,优化芯片的计算单元,支持更灵活的精度配置。
与此同时,DeepSeek 的开源模式为国产芯片厂商提供了与软件开发者合作的机会。通过与 DeepSeek 等开源模型的合作,国内芯片厂商可以更好地理解 AI 应用的需求,进行针对性优化,国产模型 + 国产芯片可以形成完整的 AI 闭环,加速国产 AI 生态发展进程。
另外,DeepSeek 大幅降低 AI 成本,让 AI 更加普及,反过来又会提升对算力规模的需求。整体来看,国产芯片通过聚焦能效比、本地化服务和政策红利,有望在边缘和端侧市场、行业 AI 等场景实现突围。
竞争加剧也是必然
DeepSeek 的出现,带来的当然不仅仅是遍地机遇,它也一定将会加速国产 AI 芯片领域的竞争。这种竞争不仅体现在技术突破和产品性能上,还体现在生态构建、市场落地和成本控制等多个维度。
DeepSeek 对竞争的影响主要是几个方面:
值得注意的是,这种竞争并非一味打价格战,疯狂内卷,未来算力竞争的核心在于性价比,而性价比的本质是“场景定义算力”。国产 GPU 厂商需摆脱单纯参数对标的思维,转而围绕客户真实需求定义芯片规格。
4 ⼤模型算⼒的未来趋势
那么未来,大模型算力的发展趋势将是怎样的?
清程极智判断,未来⼤模型的算⼒趋势将是:推理侧算力需求大幅增长、算力需求多样化,而企业侧追求算力成本最优化。
随着 DeepSeek 等开源大模型的推出,越来越多的企业开始尝试将大模型与自身业务场景结合,推动了大模型推理侧算力需求的显著增长。此外,大模型的发展呈现出模型规模扩大、算法和模型结构复杂化的趋势。例如,DeepSeek 采用的 MoE(混合专家)架构,进一步增加了推理环节的计算需求。
算力需求的增长必然带来企业成本的上升,因此,如何节省算力、压缩成本成为企业关注的重点。清程极智表示,企业更倾向于采用性价比最高的软硬件一体化解决方案,以满足自身业务场景的需求。
清程极智还指出,未来算力需求将呈现多样化趋势,无论是小规模还是大规模算力需求都将并存。特别是中小企业的快速发展,大量小规模算力的大模型部署和微调需求将越来越多。
声明:本文为 InfoQ 整理,不代表平台观点,未经许可禁止转载。