Kubeflow 贡献者,FTLib 作者,热衷于 GPU、深度学习分布式训练和推理加速。目前负责腾讯云 TKE 在 AI 场景的研发和支持工作。
分享主题:
多种模式下的深度学习弹性训练
主题简介:
在深度学习的模型训练中,分布式训练作为应对海量数据和巨型模型的解决方案正在被越来越多的团队采用。随着分布式训练逐渐向 Kubernetes 集群迁移,无论是模型并行亦或数据并行模式都对容错、可热迁移、弹性伸缩提出了新的需求,希望以此来协助解决集群遇到的资源利用率提升问题。
本次直播会与听众分享两种分布式训练实现容错和弹性训练的意义、遇到的来自训练框架、Operator 和算法上的困难。针对采用 AllReduce 的数据并行分布式训练,我们将介绍elastic horovod、腾讯云 TKE 团队对mpi-operator 的修改·。同时,我们也会探讨基于 TensorFlow ParameterServerStrategyV2 面向 PS-Worker 模式的弹性训练。
听众收益:
· 了解 TensorFlow、PyTorch 以及基于 Horovod 的分布式训练上云时,Kubeflow 中的各种 Operator 的工作原理;
· 了解在支持 AllReduce 和 PS-Worker 两种模式的弹性训练过程中,分布式训练框架和 Operator 分别做了哪些功能增强;
· 弹性训练能够带来的一系列收益与仍需解决的问题,如数据集再切分、收敛保障、优化的任务调度策略
直播流程
19:30-20:15讲师分享
20:15-20:30 互动问答
关注【腾讯云原生】公众号,回复“直播”二字获取讲师PPT及交流群码。
汇聚云原生领域前沿趋势、技术干货、最佳实践和案例分享。
我来说两句