Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >腾讯TRMT助力DeepSeek-MoE模型通信提速30%

腾讯TRMT助力DeepSeek-MoE模型通信提速30%

作者头像
腾讯开源
发布于 2025-04-26 13:33:42
发布于 2025-04-26 13:33:42
4180
举报

腾讯网平团队基于自研TRMT技术体系,结合在RoCEv2网络协议栈与双端口网卡架构的深度研究,对DeepSeek开源项目DeepEP进行了优化和增强:通过GPU直控RDMA通信消除控制面开销,创新多信道并行传输架构突破带宽瓶颈。最终实现了在RoCEv2网络性能提升100%、IB网络性能提升30%的突破性进展。

相关成果已反哺开源社区,为MoE生态注入新动能。(https://github.com/deepseek-ai/DeepEP/pull/130)

DeepSeek开源社区Merge记录

TRMT(Tencent Remote Memory Transport)作为腾讯网平团队打造的GPU中心化通信基座,沉淀三大核心技术特征:1)基于内存语义的计算通信编排体系,支持EP/TP级流水线深度优化。2)完全硬件卸载的控制平面架构,实现纳秒级通信调度。3)智能数据流调度引擎,通过PTX接口实现缓存策略与计算单元的精准协同。这些技术积累为后续优化奠定基础。

在与南京大学田臣、曹培睿教授团队的合作研究中,腾讯网平团队发现DeepEP开源项目恰能验证TRMT技术体系的创新价值。当在双端口RoCEv2网络场景进行部署验证时,基于对RDMA协议栈的深度理解,腾讯网平团队敏锐发现两大优化契机

1)双端口网卡架构下,原生QP映射策略难以充分发挥多通道带宽潜力。

2)RoCEv2网络环境中,传统CPU代理机制导致通信控制面成为性能瓶颈。

这些发现恰好源自TRMT技术团队在以GPU为核心的通信和基于RoCEv2的以太网数据中心网络架构领域的深厚积累。

TRMT-DeepEP的优化方案

TRMT-DeepEP设计要点

基于TRMT技术体系对DeepEP进行优化时,聚焦三个核心维度:

1. 拓扑感知的多QP建链

依托TRMT-SHMEM模块构建的全互联通信架构,通过动态QP端口分配算法实现网络流量的智能散列。该技术突破源于团队在超大规模集群组网实践中积累的拓扑感知经验,通过UDP源端口动态规划技术,使双端口网卡带宽利用率达到理论峰值。

2. IBGDA驱动的多信道并行传输

将TRMT中长期积累的IBGDA(InfiniBand GPU Direct Accelerator)技术与DeepEP深度整合,实现三个层级创新:

● GPU直控RDMA:消除传统GDR方案的CPU代理开销,控制时延降低至硬件极限

● 动态WQE填充:基于PTX指令集的缓存管理策略,确保QP深度与计算节奏精准匹配

● 多信道负载均衡:通过QP-WQE的矩阵式映射,构建自适应的带宽分配模型

IBGDA和IBRC通信模式对比

3. 原子化信令协同

NVSHMEM 底层机制使用RDMA Write 直接写入对端GPU内存,接收端无感知,需显式信令协调收发顺序。信令必须在数据传输后完成,否则可能因乱序导致逻辑错误。

针对多QP场景的信令乱序难题,创新提出"QP内时序锁"机制。通过IBGDA原子操作实现信令与数据的硬件级绑定,该方案继承自TRMT在分布式一致性协议领域的研究成果,在保持零CPU介入的同时确保传输时序正确性。

TRMT-DeepEP的优化成果

在腾讯星脉网络的实测中,优化后的TRMT-DeepEP展现卓越性能:RoCEv2网络环境下性能较原生实现提升100%,IB网络场景性能提升30%(DeepSeek官方测试数据)。性能提升成果不仅验证了技术方案的有效性,更体现了腾讯网平团队在数据中心网络通信领域的独特技术视角——通过GPU中心化架构重构,释放硬件协同潜力。

TRMT-DeepEP和原生DeepEP性能对比

腾讯网平团队优化后的TRMT-DeepEP已经在腾讯内部多个模型训练/推理框架集成使用,在星脉网络+H20服务器部署环境中取得非常好的性能表现。

目前,TRMT技术优化方案已全面融入DeepEP开源社区,相关代码提交获得社区核心开发者高度认可。这一技术融合的案例,既展现了开源协作的生态价值,也印证了腾讯在GPU通信架构领域持续创新的技术路线。

欢迎关注公众号“鹅厂网事”,我们给你提供最新的行业动态信息、腾讯网络最接地气的干货分享。

注1:凡注明来自“鹅厂网事”的文字和图片等作品,版权均属于“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用,如有违反,一经查实,将保留追究权利;

注2:本文图片部分来自互联网,如涉及相关版权问题,请联系sandyshuang@tencent.com;


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯开源 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档