AI智算网络InfiniBand 和RoCEv2两大主流架构及差异分析
在深入探究 AI 智算网络的领域时,我们发现市场中主要存在两大主流架构:InfiniBand 和RoCEv2。更多内容参考:“智算中心网络架构设计实践(2023)”、“英伟达InfiniBand:面向AIGC的技术优势分析”、“InfiniBand与RoCE对比分析:AI数据中心网络选择指南”、“关于InfiniBand的技术问答”。这两种网络架构在性能、成本、通用性等多个关键维度上展现出各自的优势,相互竞争。我们将细致分析这两种架构的技术特性、它们在 AI 智算网络中的应用场景,以及各自的优势和局限性。本文旨在评估InfiniBand 和 RoCEv2 在AI 智算网络中的潜在应用价值和未来的发展方向,以期为行业提供深刻的洞察和专业的指导。
1 InfiniBand 网络架构InfiniBand 网络主要通过子网管理器(Subnet Manager,简称 SM)来进行集中管理,SM通常部署在一台接入子网的服务器上,充当网络的中枢控制器。子网中可能存在多个配置为SM 的设备,但仅有一个被指定为主 SM,负责通过管理数据报文(MAD)的内部下发和上传来管理所有交换机和网卡。每个网卡端口和交换芯片都通过由 SM 分配的唯一身份标识(Local ID,LID)进行识别,确保网络内设备的唯一性和准确性。SM 的核心职责包括维护网络的路由信息和计算更新交换芯片的路由表。网卡内部的 SM Agent(SMA)功能使得网卡能够独立处理 SM 下发的报文,无需所在服务器的干预,而提高了网络的自动化和效率。
1.1 InfiniBand 网络流控机制
InfiniBand 网络基于信用令牌(credit)机制,在每条链路都配备了一个预置缓冲区。发送端仅在确认接收端有足够的缓冲区后,才会启动数据发送,并且发送的数据量都不可超过接收端当前可用的预置缓冲区的最大容量。当接收端接收完报文,会释放缓冲区,并向发送端通报当前可用的预置缓冲区大小,从而维持了网络的流畅运行和数据传输的连续性。
1.2 InfiniBand 网络特点:链路级流控与自适应路由
InfiniBand 网络依靠链路级的流控机制,防止发送过量数据,从而避免了缓冲区溢出或是数据丢包的问题。同时 InfiniBand 网络的自适应路由技术可根据每个数据包的具体情况进行动态路由选择,在超大规模的网络环境中实现了网络资源的实时优化和最佳负载均衡利用。
2 RoCEv2 网络架构
RoCE(RDMA over Converged Ethernet)协议是一种能在以太网上进行 RDMA(Remote Direct Memory Access 远程内存直接访问)的集群网络通信协议。该协议有两个主要版本:RoCEv1 和RoCEv2。RoCEv1 作为链路层协议,要求通信双方位于同一二层网络内。而RoCEv2 则为网络层协议,它采用以太网网络层和 UDP 传输层,取代了 InfiniBand 的网络层,从而提供了更优的可扩展性。与 InfiniBand 网络的集中管理方式不同,RoCEv2 采用的是纯分布式架构,通常由两层构成,在扩展性和部署灵活性方面具有显著优势。
2.1 RoCEv2 网络流控机制
优先流控制(PFC)是一种逐跳流控策略,通过合理配置水位标记来充分利用交换机的缓存,以实现以太网络中的无丢包传输。当下游交换机端口的缓存过载时,该交换机就会向上游设备请求停止传输。已发送的数据则会存储在下游交换机的缓存中,等到缓存恢复正常,端口将会请求恢复数据包的发送,从而维持网络的流畅运行。显式拥塞通知(ECN)定义了一种基于 IP 层和传输层的流量控制和端到端拥塞通知机制。
通过在交换机上向服务器端传递特定拥塞信息,然后服务器端再发送至客户端通知源端降速从而实现拥塞控制的目的。数据中心量化拥塞通知(DCQCN)是显式拥塞通知(ECN)和优先流控制(PFC)两种机制的结合,旨在支持端到端的无损以太网通信。其核心理念是在网络拥塞发生时,优先使用ECN 来通知发送端降低传输速率,防止 PFC 的不必要激活,同时也要避免拥塞严重导致缓冲区溢出的情况。通过这种精细的流量控制,DCQCN 能够在保持网络高效运行的同时,避免因拥塞造成的数据丢失。
2.2 RoCEv2 网络特点:强大兼容性与成本优化 RoCE 网络利用 RDMA 技术实现了高效的数据传输,不必占用远程服务器的 CPU 周期,从而充分利用带宽并增强了网络的可伸缩性。这种方法显著降低了网络延迟并提升了吞吐量,整体上提高了网络性能。
RoCE 方案的另一个显著优势是它能够无缝地融入现有的以太网基础设施,这意味着企业无需额外投资于新设备或进行设备更换,就能实现性能的飞跃。这种成本效益高的网络升级方式对于降低企业的资本支出至关重要,使得 RoCE 成为提升智算中心网络性能的优选方案。
3 InfiniBand 与 RoCEv2 的技术差异市场中对网络的多样化需求促成了 InfiniBand 和 RoCEv2 两种网络架构的共同发展。
InfiniBand 网络凭借其高级技术,如高效的转发性能、快速的故障恢复时间和增强的扩展性,以及运维效率,在应用层业务性能上展现出显著优势,特别是在大规模场景下,能够提供卓越的网络吞吐性能。
而RoCEv2网络则以其强大的通用性和较低的成本受到青睐,不仅适用于构建高性能RDMA网络,还能无缝兼容现有的以太网基础设施,这使得 RoCEv2 在广泛性和适用性方面具有明显优势,能够满足不同规模和需求的网络应用。这两种架构各自的特性和优势,为 AI 智算中心的网络设计提供了丰富的选择,以满足不同用户的具体需求。
-对此,您有什么看法见解?-
-欢迎在评论区留言探讨和分享。-
领取专属 10元无门槛券
私享最新 技术干货