Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >云上弹性RDMA能力来了!腾讯云助力算力加速

云上弹性RDMA能力来了!腾讯云助力算力加速

作者头像
腾讯云计算产品团队
发布于 2023-07-15 05:26:41
发布于 2023-07-15 05:26:41
9490
举报

人工智能作为推动数字经济发展的算力基础和重要支撑,已经广泛运用于诸如自然语言处理图像识别自动驾驶、医疗诊断、金融风控等各大应用领域。其中在深度学习分支,模型训练是一个非常耗时和计算密集的过程,需要大量的计算资源和时间。

随着算力需求的不断增长,计算集群规模不断扩大,模型训练计算节点之间网络性能要求也越来越高,其中高吞吐和低时延成为两个重要的关键诉求。

云上实现节点间高速低延时互联通常需要高性能专有计算集群,通过专用的交换机,支持集群节点高速低延时的 RDMA(Remote Direct Memory Access)互联,为大规模集群提供高效的多机加速比。

由于使用了专用的网卡和交换机硬件,RDMA 集群设备往往都需要花费高昂的费用来换取更高性能的网络通信能力;而腾讯云最新自研技术弹性 RDMA 网卡 EFI 旨在为客户提供云上大规模普惠 RDMA 能力,用户无需多付额外成本、无需改变业务组网,即可在 VPC 网络下体验 RDMA 加速互联能力。

EFI 是什么

弹性 RDMA 网卡(Elastic Fabric Interface,EFI)是一种可以绑定到 CVM 实例的虚拟网卡,用户可在 CVM 实例上添加该设备,即可获得相较于常规的弹性网卡(Elastic Network Interface,ENI)接口更低延迟和单链接更高吞吐的服务,推荐应用于高性能计算机器学习等领域。

EFI 有什么优势特点

  • 低延迟。传统 RDMA 将数据传输到网络上不需要经过 Kernel 以及无内存拷贝,从而实现低延迟。EFI 具有传统 RDMA 网卡的优点,超低的延迟让用户在云网络中体验到 RDMA 带来的优越性能。
  • 高吞吐。为达到高带宽的目的,传统 RDMA 将可靠传输协议和内存地址转换卸载到 HCA 中,以降低 CPU 和内存带宽开销。EFI 采用相似的技术路线实现高吞吐目标。
  • 高可用性。EFI 设备底层采用腾讯自研传输协议,其包含高可用设计:在网络设备故障时,可在数毫秒内感知故障并自动规避,从而降业务层长尾延迟。
  • 规模部署。传统 RDMA 基于无损网络,规模部署成本高且困难。EFI 仅依赖有损的以太网络,基于自研的拥塞控制算法实现类似无损网络,从而实现规模化部署。

EFI 功能点

EFI 支持绝大部分的 RDMA 功能,支持多种不同的模式以实现高速数据传输和处理,主要包括以下几个功能:

  • Message:Message 是一种基于 RDMA 的点对点通信模式,用于在两个节点之间进行消息传递。在 Message 模式下,发送方将消息写入本地内存,然后通过 RDMA 操作将消息发送到接收方的内存中。接收方可以通过 RDMA 操作读取消息,并进行相应的处理。
  • Memory:Memory 是一种基于 RDMA 的内存访问模式,用于在两个节点之间进行内存读取和写入。在 Memory 模式下,发送方可以直接访问接收方的内存,从而实现高效的内存读取和写入。
  • Event:Event 是一种高效的 RDMA 操作模式,可以在不阻塞 CPU 的情况下进行 RDMA 操作。在 Event 模式下,EFI 可以直接将 RDMA 操作的结果通知给应用程序,而不需要 CPU 的干预。
  • Inline data:Inline data 是一种高效的 RDMA 操作模式,可以将数据直接嵌入到 RDMA 操作中,从而避免了数据传输的额外开销。在 Inline data 模式下,EFI 可以直接将数据写入到内存中,而不需要通过 DMA(Direct Memory Access)操作进行数据传输。

功能

支持情况

RDMA语义

- Message: Send, Send with IMM - Memory: Write, Write with IMM, Read, Atomic

QP类型

Reliable Connection(RC)

Event模式

支持

Inline Data模式

支持

EFI 性能表现

由于 EFI 在原组网的基础上便可实现 RDMA 网络互联的能力,因此在同一个 CVM 实例上并不需要有额外的花费支出,但 EFI 的性能表现相比 ENI 却可以获得不小的提升。

静态延迟

静态延迟即在没有背景流量情况下,测试报文单向传输延迟。静态延迟性能是衡量网络型的重要指标之一,直接影响了网络通信的实时性和响应性,对于需要进行大规模数据传输和处理的应用场景尤为重要。在同一 CVM 实例下,基于 EFI 的 RDMA 单向传输延迟仅为基于 ENI Kernel TCP 的三分之一,传输时延可降低67%。

单链接吞吐

单链接吞吐是指在网络通信过程中,单个链接在单位时间内传输的数据量。在单链接吞吐场景下,同一实例基于 EFI RDMA 的单QP吞吐相比基于 ENI 的 kernel TCP 可提升70%。

EFI 最佳实践

EFI 为 CVM 实例带来了低延迟、高吞吐的网络通信能力,可适用于大规模分布式计算和机器学习等领域。EFI 可支持多种集合通信框架,推荐基于以下通信框架进行使用体验:

  • NCCL(Nvidia Collective Communications Library):NCCL 是一种由 Nvidia 开发的集合通信库,可以实现多个 GPU 之间的通信和协同计算。EFI 可以与 NCCL 库配合使用,提供高效的 GPU 集合通信能力,从而加速深度学习和机器学习的训练速度和效率。
  • TensorFlow-Parameter Server:TensorFlow-Parameter Server 是一种用于分布式训练的架构,可以将模型参数存储在一个或多个参数服务器上,并将训练任务分配给多个工作节点进行并行计算。在 TensorFlow-Parameter Server 架构中,参数服务器负责存储和更新模型参数,而工作节点负责计算梯度和更新模型参数。

在多机多卡训练场景下,EFI 的性能得到了更大程度的发挥和运用,可以进一步提高分布式训练的效率和性能。实验结果显示 EFI 在多个不同的训练模型下,都有明显的性能提升表现。以下为具体的实验结果表现,在相同实例环境下,搭载使用了 EFI 的实例性能提升了30%-90%不等

如何体验

腾讯云最新自研技术 EFI 现已发布内测,可支持 GPU 型 PNV4ne,适用于小型分布式 AI 训练场景。在不增加额外费用的前提下,用户可以体验高性能的 RDMA 网络通信能力。如果您对腾讯云自研技术 EFI 感兴趣,欢迎点击链接进行 EFI 内测申请。腾讯云致力于为客户提供云上大规模普惠 RDMA 能力,助力用户降低成本,提高效率。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云服务器 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
星脉高性能计算网络:为AI大模型构筑网络底座
前言     AI大模型以其优异的自然语言理解能力、跨媒体处理能力以及逐步走向通用AI的潜力成为近年AI领域的热门方向。业内头部厂商近期推出的大模型的参数量规模都达到了万亿、10万亿级别。     前几天横空出世的AI爆款产品ChatGPT,可以聊天、写代码、解答难题、写小说,其技术底座正是基于微调后的GPT3.5大模型,参数量多达1750亿个。据报道,GPT3.5的训练使用了微软专门建设的AI超算系统,由1万个V100 GPU组成的高性能网络集群,总算力消耗约3640 PF-days (即假如每秒计算一千
鹅厂网事
2022/12/16
5.3K0
星脉高性能计算网络:为AI大模型构筑网络底座
全网首次揭秘:不止“SRD”,鹅厂也在自研一款全新的网络协议
今天介绍鹅厂自研的一款全新的网络协议,微秒级“复活”网络的HARP协议及其关键技术。
用户6874558
2023/03/06
1.2K0
全网首次揭秘:不止“SRD”,鹅厂也在自研一款全新的网络协议
从天猫双11成交额2684亿看RDMA网络
话说2019天猫双11成交额2684亿!再次刷新世界纪录,订单创新峰值达到54.4万笔/秒,单日数据处理量达到970PB。
SDNLAB
2019/12/19
2.2K0
从天猫双11成交额2684亿看RDMA网络
来点硬核的:什么是RDMA?
RDMA(RemoteDirect Memory Access)技术全称远程直接内存访问,就是为了解决网络传输中服务器端数据处理的延迟而产生的。它将数据直接从一台计算机的内存传输到另一台计算机,无需双方操作系统的介入。这允许高吞吐、低延迟的网络通信,尤其适合在大规模并行计算机集群中使用。RDMA通过网络把资料直接传入计算机的存储区,将数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成任何影响,这样就不需要用到多少计算机的处理能力。它消除了外部存储器复制和上下文切换的开销,因而能解放内存带宽和CPU周期用于改进应用系统性能。
Bug开发工程师
2019/05/05
31.7K1
来点硬核的:什么是RDMA?
云原生数据库的“网络革新”:存算分离时代,HARP协议如何突破RDMA瓶颈,构建高可靠传输底座
“引言:在云原生数据库加速渗透金融、电商等核心场景的今天,存算分离架构正以资源池化、弹性扩展的优势重塑数据基础设施。然而,这场架构革命的背后,一场更为隐秘的“网络暗战”正在打响——当数据访问路径从本地磁盘转向分布式网络,传统协议与硬件性能的瓶颈如影随形,成为制约云原生数据库突破的关键枷锁。”
腾讯云数据库 TencentDB
2025/06/17
1740
云原生数据库的“网络革新”:存算分离时代,HARP协议如何突破RDMA瓶颈,构建高可靠传输底座
【AI系统】分布式通信与 NVLink
在进入大模型时代后,大模型的发展已成为 AI 的核心,但训练大模型实际上是一项比较复杂的工作,因为它需要大量的 GPU 资源和较长的训练时间。
用户11307734
2024/11/27
2300
移动云消息中间件产品矩阵在开源技术创新领域的演进之路
消息中间件作为消息通信的基础软件,已在业界诸多 IT 系统中被广泛使用。近年来,随着移动云业务的持续高速发展,基于开源技术生态构建的消息中间件云产品体系越来越受到市场的青睐。移动云在消息中间件领域的技术演进与发展方向上一直坚持着自研和开源融合的发展路线,在做好自研的基础上积极拥抱开源生态。
深度学习与Python
2023/11/01
3880
移动云消息中间件产品矩阵在开源技术创新领域的演进之路
AI集群通信中的软硬件介绍
计算机网络通信中最重要两个衡量指标主要是 带宽 和 延迟。分布式训练中需要传输大量的网络模型参数,网络通信至关重要。
JadePeng
2023/02/16
2K0
AI集群通信中的软硬件介绍
腾讯星脉高性能计算网络:为AI大模型构筑网络底座
阿里灵骏智算产品有磐久可预期网络(参考:阿里整网络顶呱呱,整图苦哈哈!),腾讯也没闲着,星脉高性能计算网络为AI大模型构筑网络底座。
用户6874558
2023/03/06
5.6K0
腾讯星脉高性能计算网络:为AI大模型构筑网络底座
RDMA产业链投资机会全面深度梳理
近年来,人工智能、分布式训练和分布式存储技术快速发展,对网络传输性能提出了更高要求。但传统以太网在延迟、吞吐量和 CPU 资源消耗方面存在先天不足。在这一背景下,RDMA(Remote Direct Memory Access,远程直接内存访问)技术凭借卓越的性能,逐渐成为满足高性能计算需求的优选方案。
AIGC部落
2025/03/27
2400
RDMA产业链投资机会全面深度梳理
鹅厂发布的这个算力集群,最快4天训练万亿参数大模型
大模型要成功,算力是关键。 这是腾讯云面向大模型训练场景,发布的全新一代的HCC高性能计算集群性能参数: “算力性能和上一代相比提升3倍,服务器接入带宽从1.6T提升到3.2T。” 采用最新一代腾讯云星星海自研服务器,并搭载NVIDIA H800 Tensor Core GPU的这代HCC高性能集群,单GPU卡支持输出最高1979 TFlops的算力。 具体强在哪里? 去年10月,腾讯完成首个万亿参数的AI大模型——混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训
腾讯云开发者
2023/04/19
2.8K0
鹅厂发布的这个算力集群,最快4天训练万亿参数大模型
一文梳理:如何构建并优化GPU云算力中心?
目前最常见的AI算力中心部署的GPU集群大小为 2048、1024、512 和 256,且部署成本随 GPU 数量线性增长。本文将以相对折中的1024 GPU卡(H100)的规模为例展开分析。
星融元Asterfusion
2024/10/24
9710
一文梳理:如何构建并优化GPU云算力中心?
鹅厂内部万亿大模型训练加速框架上线公有云!
👉腾小云导读 随着ChatGPT的兴起,人们越来越重视大参数规模训练模型的重要性。但是在不断增加参数规模的情况下,模型所需的算力和存储需求也在不断提高。为了减少训练大模型所需的成本,腾讯推出了 AngelPTM 训练框架。鉴于最近大模型的火热趋势,我们决定将内部成熟落地的 AngelPTM 框架推广给广大公有云用户,以帮助广大开发爱好者实现业务降本增效。 👉看目录,点收藏 1 AngelPTM技术原理简介 1.1 ZeRO-Cache 优化策略     1.2 统一视角存储管理     1.3 统一视角存
腾讯云开发者
2023/03/24
2.4K1
鹅厂内部万亿大模型训练加速框架上线公有云!
技术干货 | FreeFlow: 基于软件的虚拟RDMA容器云网络
https://blog.csdn.net/weixin_33725722/article/details/89131555
SDNLAB
2019/11/01
2.7K0
技术干货 | FreeFlow: 基于软件的虚拟RDMA容器云网络
死磕AI大模型网络,鹅厂出招了!
2023年,以ChatGPT为代表的AIGC大模型全面崛起,成为了整个社会关注的焦点。
鲜枣课堂
2023/08/21
7560
死磕AI大模型网络,鹅厂出招了!
腾讯云大数据 X Uniffle:重新定义Data+AI效能
海量数据的分布式处理与高效训练已成为企业构建竞争力的关键。传统大数据架构在应对超过一般数仓体量的数据处理和机器学习(ML)任务时,常因数据Shuffle性能瓶颈、资源利用率低、扩展性不足等问题,导致训练周期长、成本高、迭代效率低下,成为企业智能化升级的瓶颈。
腾讯QQ大数据
2025/04/13
1630
腾讯云大数据 X Uniffle:重新定义Data+AI效能
DeepSeek EP并行专家通信技术解析:打破大模型训练瓶颈
在人工智能领域,尤其是大规模语言模型和混合专家模型(Mixture-of-Experts,MoE)的研究与应用中,通信效率一直是制约模型性能和训练速度的关键因素。随着模型规模的不断扩大,传统的通信机制逐渐暴露出瓶颈,难以满足高效并行计算的需求。在此背景下,DeepSeek开源的DeepEP通信库应运而生,为解决这一问题提供了新的思路和技术方案。本文将深入解析DeepSeek EP并行专家通信技术的核心机制,并探讨其在实际应用中的重要意义。
用户7353950
2025/02/27
6160
DeepSeek EP并行专家通信技术解析:打破大模型训练瓶颈
简谈以太网RDMA网卡的应用
各式各样的数据在网络介质中通过网络协议(如TCP/IP)进行传输时,如果信息量过大而不加以限制的话,那么超额的网络流量就会导致设备反应缓慢,由此就造成了网络延迟。
深圳市联瑞电子
2020/03/24
3.4K0
简谈以太网RDMA网卡的应用
软硬件融合视角:一文看懂高性能网络
随着大模型的广泛流行,GPU集群计算的规模越来越大(单芯片算力提升有限,只能通过扩规模的方式来提升整体算力),千卡、万卡已经成为主流,十万卡、百万卡也都在未来3-5年的规划中。
chaobowx
2024/06/26
1.2K2
软硬件融合视角:一文看懂高性能网络
“GPT们”背后,谁来支撑大模型训练需要的极致算力?
👉 腾小云导读 近期大量 AIGC 产品横空出世,可以聊天、写代码、解答难题、写小说,饱受热捧。其技术基座大模型的给力支持,往往伴随着大规模、长时间的 GPU 集群训练任务。这对网络互联底座的性能、可靠性、成本等各方面都提出极致要求。业界主流 GPU 集群网络技术路线是什么?腾讯的解决方案是什么?腾讯工程师何春志将带来最新解读。欢迎阅读。 ---- 👉 看目录,点收藏 1 业界主流 GPU 集群网络技术路线 2 如何创造AI训练集群下的极致性能网络    2.1 超带宽计算节点    2.2 多轨道流量聚
腾讯云开发者
2023/03/24
2.6K0
“GPT们”背后,谁来支撑大模型训练需要的极致算力?
推荐阅读
相关推荐
星脉高性能计算网络:为AI大模型构筑网络底座
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档