首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

重磅消息!DeepSeek 推出通信神器

大家好,我是吴哥,头部AI社群合伙人| AI工具赋能专家。

就在今天早上,DeepSeek 开源周第2天推出了——DeepEP。

官方内容翻译

#开源周第2天:DeepEP

很高兴介绍 DeepEP —— 首个用于 MoE 模型训练和推理的开源 EP 通信库。

高效且优化的全对全通信

支持节点内(intranode)和节点间(internode)的 NVLink 和 RDMA

用于训练和推理预填充的高吞吐量内核

用于推理解码的低延迟内核

原生 FP8 分派支持

灵活的 GPU 资源控制,实现计算与通信重叠

DeepEP 是个很牛的开源工具,专门为 MoE 这种复杂模型的训练和推理设计的通信库。简单来说,它能让多台 GPU 高效地“聊天”,不管是同一台机器里还是不同机器之间,都能跑得又快又稳。训练时数据吞吐量大,推理时延迟低,还支持 FP8 这种省资源的格式,特别适合想省钱又要效果的团队。它还能灵活调配 GPU,让计算和通信同时进行,不浪费时间。

还是听不懂? 吴哥打个比喻

我把 DeepEP 比喻成一个“超级快递系统”:

想象你是个大厨,要给全国各地的顾客做饭(MoE 模型训练和推理)。你厨房里有很多助手(GPU),但他们得分工合作,还要把食材(数据)快速送到彼此手上。DeepEP 就像一个超厉害的快递公司:

高效送货:不管助手在同一个厨房(节点内,NVLink)还是外地厨房(节点间,RDMA),包裹都能飞快送到,不耽误炒菜。

大单快送:要做大份菜(训练和高吞吐量推理),它能一次送一大堆食材;要快点端盘子(低延迟推理),它就跑得跟闪电一样。

省油神器:支持 FP8 就像用小份包装,既省油(计算资源)又不浪费味道(精度)。

灵活调度:一边送货一边炒菜(计算通信重叠),还能随便挑几个助手干活(GPU 资源控制),效率拉满。

关键这个“快递系统”还免费开放,谁都能用,还能提建议改服务。对想开饭店但设备不多的人来说,简直是救星。总之,DeepEP 就是帮你把饭做得又快又好的幕后英雄!

结语

MoE 小团队看到这,估计这一周都要开心到飞起!DeepSeek一直走Open道路,顶起!

推特链接:

https://x.com/deepseek_ai/status/1894211757604049133

GitHub:

https://github.com/deepseek-ai/DeepEP

今天吴哥干货就分享到这啦!

(在碎片化阅读时代,如果你阅读到了这里,请为自己点个赞吧~)

我是吴哥,专注于AI赋能战略思维训练,专注孵化并影响10000人构建自己智能时代核心竞争力。

要是觉得今天这碗饭喂得够香,随手点个赞、在看、转发三连吧!如果想第一时间收到推送,也可以用⭐星标把我焊死在你主页哈!

彩蛋

吴哥建立了AI知识库宝藏材料,包含清华大学5个版本PPT资料。欢迎感兴趣朋友扫码加入学习,一起破局!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OFbX5An29I4YlxuCg3XHRmbg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券