摘要:昇思已支持在昇腾集群上训练和推理DeepSeek-V3 671B
近日,基于昇腾AI硬件与昇思MindSpore AI框架版本的DeepSeek-V3完成开发支持并上线昇思开源社区,面向开发者提供开箱即用的预训练和推理能力,并已成功在大规模集群上预训练和部署。
应用昇思MindSpore大模型使能套件,依托昇思多维混合分布式能力、自动并行、Dryrun集群内存仿真等技术,天级快速适配DeepSeek V3新增模型结构和分布式并行训练能力。同时,昇思MindSpore通过深度优化MLA、DeepSeekMoE等网络结构的推理,实现了高效的推理部署性能。
当前,通过获取昇思MindSpore版DeepSeek V3开源镜像,开发者可直接进行DeepSeek-V3的预训练和推理部署。
1. MindSpore支持DeepSeek V3增量模块的快速开发
在MTP模块中,MindSpore对MTP入口处的激活融合结构配置了序列并行,从而消除不必要的通讯重排。此外,MindSpore的MoE模块中已支持全局的Expert负载统计, 通过新增更新专家偏置的逻辑,实现AuxFree Balance机制。MindSpore在Router score后的激活函数部分也新增了可配置项,供开发者灵活选择。
2. MindSpore对于DeepSeek V3推理网络的实现和优化
MindSpore针对DeepSeek V3的网络结构特点,实现和优化了更高效的推理网络,最大化地压缩算子下发耗时和提升网络推理性能。
● MLA:将超 10 个小算子融合成单个算子,再与已有算子组合实现 MLA 模块功能。通过设计 Key-Value 张量存储复用机制,减少存储占用。
图1 MLA推理网络实现原理
● DeepSeekMoE:MindSpore优化精简了MoE的推理代码实现,并新增实现多个融合大算子,用于组合实现DeepSeek-V3的MoE单元,降低了单个MoE单元的推理时延。
图2 DeepSeekMoE推理网络实现原理
● 图编译:MindSpore推理使用了图编译进行加速,通过在整图范围内进行Pattern匹配,无需修改模型脚本,即可实现整图的通用融合。
图3 图编译原理
3. MindSpore框架特性助力DeepSeek V3训练性能提升
DeepSeek V3的适配过程中,通过MindSpore的MoE模块优化、Dryrun仿真等技术,在优化MoE的训练流程的同时,还实现了更高效的多维混合并行。
● MoE模块优化:在MoE模块中可支持多种主流结构可配置,如共享专家、路由专家个数、激活函数等,并支持多种并行模式和并行优化,极大地提升了模型的灵活性。
● Dryrun集群内存仿真与自动负载均衡:Dryrun工具可根据训练任务模拟出集群中每卡的内存占用情况,为训练的分布式并行策略调优提供快捷反馈。自动负载均衡工具SAPP通过精确建模内存和计算负载,实现分钟级开销内自动获得最优流水线配置。
下一步,昇思MindSpore开源社区将上线DeepSeek V3微调样例与R1版本镜像,为开发者提供开箱即用的模型。未来,昇思开源社区将依托丰富的技术能力,持续优化DeepSeek V3系列模型的性能,加速模型从训练到生产部署端到端的创新效率,为开源开发者进行大模型创新提供高效易用的基础软件与技术生态,促进千行万业智能化转型升级。
领取专属 10元无门槛券
私享最新 技术干货