人工智能作为推动数字经济发展的算力基础和重要支撑,已经广泛运用于诸如自然语言处理、图像识别、自动驾驶、医疗诊断、金融风控等各大应用领域。其中在深度学习分支,模型训练是一个非常耗时和计算密集的过程,需要大量的计算资源和时间。
随着算力需求的不断增长,计算集群规模不断扩大,模型训练计算节点之间网络性能要求也越来越高,其中高吞吐和低时延成为两个重要的关键诉求。
云上实现节点间高速低延时互联通常需要高性能专有计算集群,通过专用的交换机,支持集群节点高速低延时的 RDMA(Remote Direct Memory Access)互联,为大规模集群提供高效的多机加速比。
由于使用了专用的网卡和交换机硬件,RDMA 集群设备往往都需要花费高昂的费用来换取更高性能的网络通信能力;而腾讯云最新自研技术弹性 RDMA 网卡 EFI 旨在为客户提供云上大规模普惠 RDMA 能力,用户无需多付额外成本、无需改变业务组网,即可在 VPC 网络下体验 RDMA 加速互联能力。
弹性 RDMA 网卡(Elastic Fabric Interface,EFI)是一种可以绑定到 CVM 实例的虚拟网卡,用户可在 CVM 实例上添加该设备,即可获得相较于常规的弹性网卡(Elastic Network Interface,ENI)接口更低延迟和单链接更高吞吐的服务,推荐应用于高性能计算、机器学习等领域。
EFI 支持绝大部分的 RDMA 功能,支持多种不同的模式以实现高速数据传输和处理,主要包括以下几个功能:
功能 | 支持情况 |
---|---|
RDMA语义 | - Message: Send, Send with IMM - Memory: Write, Write with IMM, Read, Atomic |
QP类型 | Reliable Connection(RC) |
Event模式 | 支持 |
Inline Data模式 | 支持 |
由于 EFI 在原组网的基础上便可实现 RDMA 网络互联的能力,因此在同一个 CVM 实例上并不需要有额外的花费支出,但 EFI 的性能表现相比 ENI 却可以获得不小的提升。
静态延迟
静态延迟即在没有背景流量情况下,测试报文单向传输延迟。静态延迟性能是衡量网络型的重要指标之一,直接影响了网络通信的实时性和响应性,对于需要进行大规模数据传输和处理的应用场景尤为重要。在同一 CVM 实例下,基于 EFI 的 RDMA 单向传输延迟仅为基于 ENI Kernel TCP 的三分之一,传输时延可降低67%。
单链接吞吐
单链接吞吐是指在网络通信过程中,单个链接在单位时间内传输的数据量。在单链接吞吐场景下,同一实例基于 EFI RDMA 的单QP吞吐相比基于 ENI 的 kernel TCP 可提升70%。
EFI 为 CVM 实例带来了低延迟、高吞吐的网络通信能力,可适用于大规模分布式计算和机器学习等领域。EFI 可支持多种集合通信框架,推荐基于以下通信框架进行使用体验:
在多机多卡训练场景下,EFI 的性能得到了更大程度的发挥和运用,可以进一步提高分布式训练的效率和性能。实验结果显示 EFI 在多个不同的训练模型下,都有明显的性能提升表现。以下为具体的实验结果表现,在相同实例环境下,搭载使用了 EFI 的实例性能提升了30%-90%不等。
腾讯云最新自研技术 EFI 现已发布内测,可支持 GPU 型 PNV4ne,适用于小型分布式 AI 训练场景。在不增加额外费用的前提下,用户可以体验高性能的 RDMA 网络通信能力。如果您对腾讯云自研技术 EFI 感兴趣,欢迎点击链接进行 EFI 内测申请。腾讯云致力于为客户提供云上大规模普惠 RDMA 能力,助力用户降低成本,提高效率。