算法、算力、数据被称为推动AI发展的“三驾马车”,到今天深度学习算法已经形成突破,不过算法驱动的智能程度严重依赖海量的样本数据和高性能的计算能力。当下,在提升AI数据处理的效率方面,存储和计算领域已经发生革命性的变化。
存储介质从机械硬盘(HDD)演进到闪存盘(SSD),来满足数据的实时存取要求,介质时延降低了不止100倍;在算力方面,业界已经在采用GPU甚至专用的AI芯片,处理数据的能力提升了100倍以上。
不过虽然存储介质和计算能力在大幅提升,但当前网络通信时延却成为性能进一步提升的瓶颈。通信时延在整个存储E2E时延中占比从10%跃迁到60%以上,也就是说,宝贵的存储介质有一半以上的时间是空闲通信等待;计算瓶颈也类似,如某语音识别训练,每次迭代任务时长为650ms~700ms,通信时延为400ms,同样,昂贵的处理器也有一半时间在等待模型参数的通信同步。
InfiniBand是一个用于高性能计算的计算机网络通信标准,不同于传统TCP/IP协议栈,Infiniband拥有自己的网络层和传输层协议。而绝大多数现网都采用IP以太网络,所以对于需要广泛互联的AI计算和分布式存储系统,采用InfiniBand无法满足互通性需求。并且,作为专用的网络技术,Infiniband无法继承用户在IP网络上运维的积累和平台。
对于基于传统的IP以太网络来承载RDMA方案来说,其缺乏完善的丢包保护机制,>0.001的丢包率,将导致RDMA有效吞吐急剧下降。很多厂家会采用PFC和ECN机制来避免丢包提升吞吐率,而现有的RDMA拥塞&调度算法,导致网络设备极易出现队列累积,从而触发PFC。网络中如果出现大量PFC,极有可能诱发网络死锁,导致网络系统性风险。
所以,RDMA的高效运行,离不开一个0丢包、高吞吐的开放以太网作为承载。并且,在由应用架构从集中式走向分布式架构过程中造成的incast突发流量和“大包”特征,也进一步加剧了网络拥塞。
总之,无论是应用分布式架构,还是RDMA通信效率的角度,均呼吁数据中心网络发生变革。近日,华为发布了《AI Fabric,面向AI时代的智能无损数据中心网络》白皮书(以下简称“白皮书”),白皮书指出,这场AI驱动的网络变革需要更智能的调度和无损的转发,实现零丢包、低时延、高吞吐的智能无损数据中心网络。
领取专属 10元无门槛券
私享最新 技术干货