前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >DeepSpeed v0.16.8震撼发布,支持CPU加速FP16和最新Torch 2.7,性能与兼容性大幅提升!

DeepSpeed v0.16.8震撼发布,支持CPU加速FP16和最新Torch 2.7,性能与兼容性大幅提升!

作者头像
福大大架构师每日一题
发布于 2025-05-21 06:13:56
发布于 2025-05-21 06:13:56
1050
举报

2025年5月20日,备受深度学习和大规模模型训练者关注的深度加速框架DeepSpeed迎来了v0.16.8版本的正式发布。本次更新不仅修复了多个核心问题,更引入了CPU端FP16数据类型加速支撑,并全面升级至Torch 2.7,极大增强了模型训练的性能和环境兼容性。本文将从版本更新亮点、技术细节深入解析、应用场景,以及未来发展方向等多个维度,为你详细揭秘DeepSpeed v0.16.8版本的强大魅力。

一、版本迭代背景概览

自DeepSpeed 0.16系列问世以来,随着大规模模型的普及与算力需求剧增,社区持续聚焦于优化训练效率、多硬件平台兼容性和可维护性。本次v0.16.8作为0.16.7的重要后续版本,主要围绕以下几方面展开:

  • • 版本管理完善,确保用户获取最新、最稳定的版本代码。
  • • CPU端的算力加速能力增强,尤其是FP16单精度浮点支持。
  • • 与PyTorch生态的同步升级,适配最新2.7版本API和特性。
  • • 编译错误修复与构建维护便利性的提升。
  • • XPU平台相关测试优化,保证代码的多平台稳定表现。
  • • 几个核心功能的回滚,以保障系统整体稳定性。

二、DeepSpeed v0.16.8重点更新解析

  1. 1. 版本更新管理和用户推荐

本次版本更新首先修正了0.16.7版本释放后的版本文件version.txt,由贡献者@loadams完成,确保版本号与实际发布一致。并由@tohtana建议用户优先选用此最新版本,以获得更好的兼容和最新功能支持。

  1. 2. CPU加速支持FP16数据类型

最大亮点莫过于由@Yejing-Lai提交的CPU加速FP16数据类型支持功能。这意味着深度学习模型在CPU环境下,可以更高效地以半精度格式执行计算,显著降低内存占用,提高计算吞吐率。此项功能的实现对那些计算资源有限、依赖CPU的训练场景具有极大价值,拓展了DeepSpeed的适用边界。

  1. 3. PyTorch升级到2.7版本

编码框架的依赖包升级尤为重要,本次v0.16.8更新中由@loadams主导完成了对PyTorch Torch版本的升级支持,更新至最新稳定2.7版本。PyTorch 2.7带来了诸多底层性能优化与API改进,DeepSpeed同步兼容,不仅确保了功能稳定性,更让使用者享受到前沿的深度学习功能与优化。

  1. 4. 编译错误修复与构建维护便利

版本中由@loscrossos发现并修复了针对nv_bloat162编译错误问题,提升了代码的健壮性。此外,贡献者@stas00添加了Makefile文件,极大提高维护和二次开发效率,为开发者提供更友好的构建环境。

  1. 5. gemm算子FP8支持修正

矩阵乘法gemm算子对于性能至关重要。@RezaYazdaniAminabadi对FP8精度模式的gemm支持进行了修复,强化了低精度计算的正确性和效率,为更大规模和极低精度模型训练奠定基础。

  1. 6. XPU平台相关更新

面对多样化硬件加速,DeepSpeed对XPU支持同步升级。@Liangliang-Ma更新了xpu-max1100的CI自动化测试流程,切换至torch 2.7版本;而@loadams修复了XPU测试过程中因extra-index-url引发的问题,保证多硬件平台测试和部署顺畅。

  1. 7. 测试流程和功能回滚

由于某些测试跑者(runners)出现问题,@loadams临时跳过了部分AIO测试以保证整体版本稳定发布。同时,针对版本#6726中出现的问题,贡献者@delock做出了回滚处理,体现了社区对质量的严格把控。

三、深度技术细节详解

CPU加速FP16支持

FP16,也被称为半精度浮点数,是指使用16位存储浮点数,能够降低显存和带宽压力,提高数据吞吐率,但易受到数值范围限制和精度误差限制。此版本中,DeepSpeed通过优化CPU端算子实现了对FP16类型的高效支持,采用了更优的SIMD指令集调用,避免了传统的FP16模拟执行带来的性能瓶颈。结合内存布局调整,显著减少了数据拷贝开销,实现了CPU计算效率显著提升。

PyTorch 2.7兼容和优势

PyTorch 2.7版本对TorchDynamo动态编译器进行了深层次优化,显著加速了模型前向和反向传播过程。DeepSpeed通过源码深度适配,利用了新版本在自动微分和内存管理上的改进,实现更高效的训练流程,尤其对大规模模型的梯度累积和通信优化提供了更好支持。

XPU多硬件支持趋势

随着华为鲲鹏、寒武纪等XPU异构计算芯片兴起,深度学习框架对XPU的支持越来越成为主流需求。DeepSpeed v0.16.8通过更新CI流程、修复索引源错误等细节问题,确保在XPU平台上能够顺利构建和测试,为未来在国产芯片和异构计算上部署深度学习训练打下基础。

四、用户场景与应用建议

  • • 大规模分布式训练场景:利用新版DeepSpeed的CPU加速FP16支持,可以在多节点CPU服务器集群中实现更高效的训练,尤其适合无GPU环境下的模型开发和调试。
  • • 融合异构计算环境:同步支持GPU、XPU和CPU,助力研发团队实现跨平台模型迁移和混合算力加速,提升资源使用效率。
  • • 低精度训练尝试者:修正的FP8算子支持为探索极低精度训练提供技术保障,助力模型在推理和蒸馏环节持续性能突破。
  • • 持续迭代开发团队:新增Makefile和修复编译错误简化了二次开发和维护流程,为开放源码社区和企业研发注入高效协同动力。

五、未来展望

DeepSpeed团队及社区正持续围绕极大规模模型训练的性能极限、能耗优化和跨硬件环境兼容性进行研发。结合AI算力硬件更新潮流,预计下一个版本将深入探索FP8全面支持、因果推理优化、自动混合精度策略升级等领域。同时,多硬件架构的灵活调度、多任务训练与推理融合能力也将逐步成为框架核心竞争点。

结语

DeepSpeed v0.16.8版本的发布无疑为深度学习开发者和生产部署者注入了新的活力。通过对CPU端FP16的支持、PyTorch 2.7升级和多平台适配,本次更新在提升性能和增强生态兼容性的道路上迈出了坚实一步。无论是科研尝试还是商业落地,拥抱DeepSpeed最新版本都将带来更高效、更稳定、更智能的训练体验。欢迎大家访问官方GitHub仓库体验和反馈,共同推动深度学习加速技术的无限可能!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福大大架构师每日一题 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
从IM-DD到相干传输:微环调制器突破技术瓶颈,实现1Tb/s净速率与5Tbps/mm带宽密度
      2025年6月3日,《Nature Photonics》杂志刊发了加拿大拉瓦尔大学(Université Laval)电气与计算机工程系Shi Wei团队的创新研究成果,论文题为《微环调制器的超快相干动力学》。该团队通过系统性实验与理论分析,在微环调制器技术上取得重大突破,为光通信领域带来了全新的发展方向。
光芯
2025/06/15
1240
从IM-DD到相干传输:微环调制器突破技术瓶颈,实现1Tb/s净速率与5Tbps/mm带宽密度
OFC 2025:台积电的硅光报告
台积电(TSMC)的报告主要围绕其在硅光子时代的技术进展、设计机会以及相关成果,具体内容如下:
光芯
2025/04/08
4070
OFC 2025:台积电的硅光报告
OFC 2025前瞻:张江实验室/上海光机所报道12寸硅光平台实现的336 Gbps MZ调制器和290 Gbps 微环调制器
OFC 2025会议上,张江实验室、上海光机所以及复旦大学共同报道了在12寸硅光平台上实现的O波段高速MZ调制器和微环调制器。其中,MZ调制器实现了44 GHz带宽,336 Gbps PAM8的调制速率以及1.1Vcm的调制效率,微环调制器实现了51 GHz带宽,224 Gbps PAM4和290 Gbps PAM6调制速率(器件能效分别为0.114和0.083 fJ/bit)以及0.9 Vcm的调制效率。
光芯
2025/04/08
1900
OFC 2025前瞻:张江实验室/上海光机所报道12寸硅光平台实现的336 Gbps MZ调制器和290 Gbps 微环调制器
OFC 2025三菱报告:高速EML的结构设计和封装优化
从市场趋势来看,AI集群对光收发器的需求呈现出强劲的增长态势。AI Scale out网络中光收发器数量持续攀升,同时,预计从2028年起,AI Scale up市场也将迎来爆发 ,这使得光收发器的需求将急剧增加。在GPU互连方面,高速以太网或InfiniBand收发器用于扩展网络,高速线性模块用于Scale up网络,无论是前端网络连接GPU集群,还是后端网络实现GPU之间的全连接,都需要高速光调制器以及高边缘密度的解决方案。单波400G的调制器成为支撑这些应用的关键技术,其性能直接影响着GPU集群系统的整体效率和数据传输能力。
光芯
2025/04/24
2750
OFC 2025三菱报告:高速EML的结构设计和封装优化
下一代硅光路线图
几位硅光大佬最近合作撰写了一篇文章,贴在了arXiv上。文章整理总结了当前硅光技术的技术难点与发展趋势,并展望了下一代硅光技术,高屋建瓴,非常值得一读, 原文链接https://arxiv.org/abs/2305.15820。站在大佬们的肩膀上,小豆芽这里整理下相关论点以及自己的一些思考,供大家参考。
光学小豆芽
2023/09/02
2.7K0
下一代硅光路线图
IEDM 2024:台积电的硅光(高性能工艺平台、CPO、光计算) 进展(一)
台积电在IEDM 2024会议上有好多论文,其中硅光的也有好几篇,看了之后还是很震撼的。
光芯
2025/04/08
3200
IEDM 2024:台积电的硅光(高性能工艺平台、CPO、光计算) 进展(一)
OFC 2025预热(二):短距光互连的明星初创公司们
今天来看看OFC 2025上那些明星初创公司都介绍了哪些有意思的进展。主要介绍的公司之前都有陆续写过,包括Ayar labs,、Lightmatter、Celestial AI、OpenLight、Xscape、Lucidean等。Lightmatter和Celestial AI的验证结果展示感觉是脚步最快、最惊艳的(也体现到他们的融资上),Ayar Labs在瞄准大规模制造优化耦合封装方案,而Xscape、Lucidean公司也有了不俗的进展,Nubis展示了新的应用场景,奇点光子开始露面,Openlight平台在持续演进,昨天Tower新闻稿提到的400G/lane技术看会不会在会场有介绍。
光芯
2025/04/08
3550
OFC 2025预热(二):短距光互连的明星初创公司们
OFC 2025 PDP:单波400G的III-V(NTT/华为)、铌酸锂(Hyperlight/住友)及硅光(Aloe)
OFC 2025 PDP又增添了好几个单波400G的验证结果,其中有华为的540 Gbps EML传光纤30km的报道(OFC 2025 PDP:华为的110 GHz带宽、540 Gbps EML+30km传纤实验)。除此之外,Hyperlight用Ciena的3nm 448Gbps Serdes完成了8×400G的3.2T 2km DR8和FR8实验;NTT也演示了8通道的无制冷高带宽的InP MZM的3.2T 500m传输;住友基于前两年做的集成电光均衡器的高带宽铌酸锂(封装后带宽>100GHz)演示了单波400Gbps 传输(不过是C波段的),PDP之外Coherent是发布了新闻稿会在OFC现场演示400 Gbps的差分EML。
光芯
2025/04/08
5670
OFC 2025 PDP:单波400G的III-V(NTT/华为)、铌酸锂(Hyperlight/住友)及硅光(Aloe)
GeSi/Ge电吸收调制器
在硅光芯片中,通常利用Si材料的等离子体色散效应(plasma dispesion effect), 借助于电学结构使得光波导中载流子的浓度发生变化,进而引起有效折射率的变化,借助于MZI或者微环等结构,使得光的强度发生变化。典型的耗尽型MZI型调制器,其长度在毫米量级,这一尺寸在transceiver领域还可以接受。但是对于未来的大规模集成光路(large scale PIC),必须寻找尺寸更小的调制器结构。基于GeSi/Ge的电吸收调制器是潜在的解决方案之一。
光学小豆芽
2020/10/30
2.6K1
GeSi/Ge电吸收调制器
2024 IEEE Photonics Conference:高速调制器(铌酸锂 & 电光聚合物)
使用了石英衬底+800nm厚度的TFLN薄膜加工了5mm和10mm长度的调制器,结构看着也比较常规,理论的VπL是1.96V cm@1550nm。用了Anritsu的220 GHz矢网ME7838G测试,测得5mm和10mm器件的6dB电电带宽分别为>220 GHz和150GHz,对应推导的电光带宽为>220GHz(Vπ为4V)和180GHz(Vπ为2.74V)。
光芯
2025/04/08
1170
2024 IEEE Photonics Conference:高速调制器(铌酸锂 & 电光聚合物)
光子集成OCS技术:从单材料平台到异质集成平台
剑桥大学的Richard Penty教授在OCP EMEA 2025上做了题目为Photonic Integrated Switch Fabrics:from homogeneous integration to heterogeneous integration的报告,介绍了多年来项目组所研发的多种光子集成光开关技术及其在AI数据中心中的潜在应用及未来演进。 一、光开关技术在AI数据中心的应用背景
光芯
2025/05/17
1640
光子集成OCS技术:从单材料平台到异质集成平台
清华:基于BCB下填充的高调制效率(Vπ~1.54V)、高速(390G PAM8)TFLN调制器
清华大学罗毅院士课题组发表了一篇高调制效率、高速率、同时支持O波段和C波段工作的薄膜铌酸锂调制器的工作。制作的7mm长TFLN调制器在C波段(1550nm)的半波电压低至1.9V,在O波段(1310nm)为1.54V,对应的VπL分别为1.33V·cm和1.08V·cm。在110 GHz的频率下,电光频率响应的滚降仅为0.77dB(C波段)和0.83dB(O波段),对应的外推3dB带宽分别为220GHz和218GHz。采用PAM8的高速数据传输在C波段和O波段均实现了高达390Gbit/s的数据速率(130Gbaud),能效低至0.69fJ/bit。
光芯
2025/04/08
1180
清华:基于BCB下填充的高调制效率(Vπ~1.54V)、高速(390G PAM8)TFLN调制器
薄膜钽酸锂LTOI:高速调制器的下一个明星材料?
年底偷个懒,今天看到EPFL & 上海微系统所合作的基于薄膜钽酸锂的超宽带电光频率梳在Nature正刊上发表了(
光芯
2025/04/08
1820
薄膜钽酸锂LTOI:高速调制器的下一个明星材料?
硅基电光调制器基础
调制器的作用是基于一定的物理效应,将信号加载到光信号上。硅是中心材料,不存在Pockell效应(线性电光效应),其Kerr效应比较弱(二次电光效应)。硅基电光调制器所应用的物理效应为等离子体色散效应(plasma dispersion effect),其物理机制是硅的折射率(实部和虚部)都随着载流子浓度的变化而变化,1550nm波长时的关系式如下,
光学小豆芽
2020/08/13
8.3K0
硅基光电子集成芯片(PIC)如何大规模生产?
 本文聚焦大规模硅基光电子集成芯片(SiPIC)的技术发展与挑战,指出其与集成电路发展趋势相似,但受光学衍射极限和材料限制,集成密度提升难度大。文中分析了设计制造全流程(如 MPW 模式、版图设计、工艺验证)、片上器件集成(IO 器件、波导、调制器等)及大规模生产挑战(电学 / 光学组件一致性、良率控制),并展望通过异质集成、先进封装、自动化设计工具等技术突破瓶颈,推动其在光通信、光子 AI、激光雷达等领域的规模化应用。
AIGC部落
2025/06/07
1620
硅基光电子集成芯片(PIC)如何大规模生产?
OFC 2025:单波200G/400G调制技术(III-V/硅光/薄膜铌酸锂/PLZT)
整理了OFC 2025上的不同平台展示的>200 G/lane速率的调制器,几个比较有意思的结果包括三菱的106 GHz EML、Openlight的400G EAM、AMF通过片上均衡将硅光调制器带宽提升到90 GHz、Riga联合Keysight展示铌酸锂调制器的400G PAM4测试结果、九州大学的高效率200 Gaud电光调制器(0.58 Vcm)等。
光芯
2025/04/08
3550
OFC 2025:单波200G/400G调制技术(III-V/硅光/薄膜铌酸锂/PLZT)
铌酸锂电光调制器
铌酸锂是一种非常重要的非线性材料,它的透明波段非常宽,从350nm到5.2um,其在非线性光学(激光频率转换)、光电调制等领域应用非常广泛。它的晶体结构如下图,是单轴双折射晶体(三方晶系)。
光学小豆芽
2020/08/13
5.5K0
Ayar Labs:用于CPO的Linear直驱相干硅光链路的光电协同优化
原文链接: https://ieeexplore.ieee.org/document/10850772
光芯
2025/04/08
1100
Ayar Labs:用于CPO的Linear直驱相干硅光链路的光电协同优化
硅光调制器的光学结构
前面的笔记已经分别介绍了硅光调制器的几种电学结构,包括载流子耗尽型硅基调制器,载流子积累型硅基调制器和载流子注入型硅光调制器。这篇笔记整理下硅光调制器的常见光学结构。
光学小豆芽
2021/10/22
5K0
硅光调制器的光学结构
雨树光科 & A*STAR:基于扇出晶圆级封装(FOWLP)的1.6T硅光CPO光引擎
A*STAR今年跟Marvell和雨树光科(Rain Tree Photonics)都报道了基于FOWLP封装的3D集成硅光引擎,跟Qorvo也有FOWLP的RF chiplet展示。除此之外,日月光、Silicon、Rockley也都有FOWLP的CPO概念/演示。
光芯
2025/04/08
1750
雨树光科 & A*STAR:基于扇出晶圆级封装(FOWLP)的1.6T硅光CPO光引擎
推荐阅读
相关推荐
从IM-DD到相干传输:微环调制器突破技术瓶颈,实现1Tb/s净速率与5Tbps/mm带宽密度
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档