前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Yandex 开源 LLM 训练工具,可节省高达 20% 的 GPU 资源

Yandex 开源 LLM 训练工具,可节省高达 20% 的 GPU 资源

作者头像
深度学习与Python
发布2024-06-17 17:10:41
1410
发布2024-06-17 17:10:41
举报
2024 年 6 月 11 日,莫斯科跨国科技公司 Yandex 最近推出了一种用于训练大型语言模型 (LLM) 的开源方法 YaFSDP, 用于增强 GPU 通信并减少 LLM 训练中的内存使用量。

LLM 训练依赖于组织成集群的大量 GPU,互连的图形处理器阵列可以执行训练具有数十亿个参数的模型所需的大量计算。在集群中的处理器之间分配计算需要不断通信,这通常会成为“瓶颈”,减慢训练过程并导致计算能力的低效使用。

为了克服这一瓶颈,Yandex 开发人员创建了 YaFSDP,来改善 GPU 通信并优化学习速度和性能的方法。

YaFSDP 的工作原理是消除 GPU 通信效率低下的问题,从而优化网络使用率并减少内存负载。它确保训练时只需要必要的处理器内存,并使 GPU 交互不间断,从而促进进一步的优化,例如最大限度地减少处理器通信时间。这可以显著提高性能和内存效率。

YaFSDP 是 FSDP 的增强版,在 LLM 训练中最耗通信的阶段(如预训练、对齐和微调)中,其表现优于 FSDP (Fully Sharded Data Parallel,全切片数据并行)方法。

官方表示,与 FSDP 相比,YaFSDP 训练速度提升最高可达 26%,具体取决于架构和参数量。通过使用 YaFSDP 减少 LLM 的训练时间可以节省高达 20% 的 GPU 资源。与 Yandex 的其他性能增强解决方案结合使用时,该方法可将某些模型的训练过程加速高达 45%。

YaFSDP 方法可以有效应用于基于 transformer 的多层文本生成模型(多层感知器)。Mikhail Khruschev 表示:“YaFSDP 在 130 亿至 700 亿个参数的模型上表现出色,在 300 亿至 700 亿个参数范围内表现尤为惊人。目前,YaFSDP 最适合基于 LLaMA 架构的广泛使用之开源模型。”

与 FSDP 相比,YaFSDP 在 Llama 2 和 Llama 3 上表现出的最终提速表明训练效率显著提高,在 Llama 2 70B 和 Llama 3 70B 上分别达到 21% 和 26%。

“目前,我们正在积极尝试各种模型架构和参数大小,以扩展 YaFSDP 的多功能性,”Yandex 高级开发专家、YaFSDP 团队成员 Mikhail Khruschev 指出,“我们很高兴与全球 ML 社区分享我们在 LLM 训练方面的研发成果,希望能为全球研究人员和开发者获得更多的开源工具和更高的效率做出贡献。”

在大型语言模型 (LLM) 训练期间,开发人员必须有效管理三种主要资源:计算能力、处理器内存和处理器通信。YaFSDP 保护了前两个资源,这有助于加速 LLM 训练过程。

YaFSDP 并不是 Yandex 的第一个开源工具。Yandex 之前曾分享过其他几款在 ML 社区中很受欢迎的工具,包括:CatBoost,一种高性能的基于决策树之梯度提升库;YTsaurus,分布式存储和处理的大数据平台。AQLM,先进的量化算法之一,用于大型语言模型的极限压缩;Petals,一个旨在简化 LLM 训练和微调过程的库。

Yandex 承诺为全球人工智能社区的发展做出贡献,将 YaFSDP 开源提供给全球的 LLM 开发人员和人工智能爱好者即是履行此承诺的其中一步。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档