来自SGLang、英伟达等机构的联合团队最新发布的技术报告显示,他们成功在短短4个月内将DeepSeek-R1在H100上的性能提升了惊人的26倍。这一开源复现版本的吞吐量已非常接近DeepSeek官方数据,标志着开源AI社区在大型语言模型优化方面取得了重大突破。
团队通过全面升级SGLang推理系统,实现了多项技术创新:
支持PD(并行-分布式)分离架构
大规模EP(专家并行)技术
DeepEP深度专家并行优化
DeepGEMM高效矩阵计算
EPLB(专家并行负载均衡)机制
系统架构与优化策略
在硬件配置方面,团队在12个节点共96块GPU的集群上成功复现了DeepSeek的推理系统。优化后的方案在处理2000个token的输入序列时,实现了每个节点每秒52.3k输入token和22.3k输出token的惊人吞吐量。
团队特别强调了以下关键优化策略:
注意力层优化:采用混合精度计算和内存高效注意力机制
稠密FFN优化:通过张量并行和算子融合提升计算密度
稀疏FFN优化:利用专家并行和动态路由减少冗余计算
LM头优化:实现高效词汇表投影和采样策略
成本效益:商业化应用的新可能
最引人注目的是,该优化方案在本地部署的成本可降至0.20美元/1M输出token,约为DeepSeek Chat API官方定价的五分之一。这一突破性进展为AI技术的商业化应用开辟了新的可能性,使得中小企业和研究机构也能负担得起高性能的AI推理服务。
Hugging Face联创、首席科学家Thomas Wolf对此评价道:"DeepSeek的出现,是开源AI领域的ChatGPT时刻。正如ChatGPT让全世界认识到AI的存在,DeepSeek则让全世界意识到,原来还有着这样一个充满活力的开源社区。"
行业影响与未来展望
这一成果不仅证明了开源社区在AI领域的创新能力,也展示了产学研合作在推动技术进步中的关键作用。DeepSeek-R1的性能已经媲美甚至超越美国最顶尖的闭源AI模型,对于全球AI生态的发展具有深远意义。
随着这一优化方案的公开,预计将有更多机构基于此开展进一步研究和应用开发,推动开源AI生态进入新的发展阶段。英伟达等硬件厂商也在同步推进相关优化,如最新展示的Blackwell平台和NVLink互连技术,将为AI计算提供更强大的基础设施支持。