首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

蚂蚁集团NextEvo全面开源AI Infra技术,可实现大模型训练“自动驾驶”

钛媒体App 2月1日消息,近日,蚂蚁集团AI创新研发部门NextEvo全面开源AI Infra技术,可帮助大模型千卡训练有效时间占比超过95%,能实现训练时“自动驾驶”,这推动了AI研发效率。该技术框架名为DLRover,目标在于大规模分布式训练的智能化。据了解,最新集成进DLRover的是Flash Checkpoint(FCP)方案。模型训练时,一般要打Checkpoint(检查点),以便中断时能恢复到最近状态,常规做法耗时长、高频打点易降低训练可用时间、低频打点恢复时丢失过多等缺点。新方案FCP应用在千卡千亿参数模型训练后,Checkpoint 导致的训练浪费时间降低约5倍,其中持久化时间降低约70倍,有效训练时间从90%提升至95%。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O1fQWHxSmextUkrEIp2bR9Ug0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券