前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Arista与思科的竞争进入 AI 领域,英伟达笑而不语!

Arista与思科的竞争进入 AI 领域,英伟达笑而不语!

作者头像
用户6874558
发布2024-06-07 19:42:35
970
发布2024-06-07 19:42:35
举报

美国时间5月29日

Arista官宣与英伟达合作

将提供AI数据中心的整套方案

与思科相比Arista的合作更具技术属性

Arista Delivers Holistic AI Solutions in Collaboration with NVIDIA Optimal GPU and Network Coordinated Performance SANTA CLARA, Calif.,-- May 29, 2024 -- Arista Networks (NYSE: ANET) today announced a technology demonstration of AI Data Centers in order to align compute and network domains as a single managed AI entity, in collaboration with NVIDIA. In order to build optimal generative AI networks with lower job completion times, customers can configure, manage, and monitor AI clusters uniformly across key building blocks including networks, NICs, and servers. This demonstrates the first step in achieving a multi-vendor, interoperable ecosystem that enables control and coordination between AI networking and AI compute infrastructure.

鉴于AI Cloud

大部分会部署自研的方案

那么A家推出的EOS方案的理想客户

只能与思科的传统市场目标客户高度重合

本次合作更像是Arista与思科竞争的一个延续

Arista超越思科成为以太网数据中心交换机带头大哥

Jayshree女士的blog

为此次合作提供更多背景

思科“打A办”的失败,成就今日之王者

全文

The New Era of AI Centers

by Jayshree Ullal on May 29, 2024 6:00:00 AM

1984 年,Sun 因宣称“The Network is the Computer.”而闻名。四十年后,随着人工智能的出现,我们看到历史再次重演。AI 训练模型的集合特性依赖于无损、高可用的网络将集群中的每个 GPU 无缝地相互连接并实现峰值性能。网络还将训练有素的人工智能模型连接到最终用户和数据中心的其他系统(例如存储),使系统不仅仅是各个部分的总和。因此,数据中心正在演变成新的人工智能的中心,其中网络成为人工智能管理的中心。

人工智能的趋势

为了理解这一点,我们首先来看看人工智能数据集的爆炸式增长。随着人工智能训练的大型语言模型(LLMs)规模的增加,数据并行化变得不可避免。训练这些较大模型所需的 GPU 数量无法跟上海量参数和数据集大小。AI 并行化,无论是数据、模型还是流水线,只有 GPU 被网络有效互联时才有效。GPU 必须交换和计算全局梯度来调整模型的权重。为此,人工智能课题中的不同组件比如GPU、网卡、光模块/电缆等互连配件、存储系统,以及位于它们中心的最重要的网络必须作为一个整体协同工作。

现实中的网络孤岛

当今人工智能数据中心性能不佳的原因有很多。首先,人工智能网络需要一致的端到端服务质量以实现无损传输。这意味着服务器中的网卡以及网络平台必须具有统一的标记/映射、准确的控制和拥塞告知(DCQCN中的PFC 和 ECN )以及合理的缓冲区利用率阈值,以便每个组件都可以及时对网络事件做出反应,例如拥塞,确保发送方能够精确控制流量速率避免丢包。现在网卡和网络设备是分开配置的。在大型人工智能网络中,任何配置上的不匹配都非常难以调试。

性能不佳的一个常见原因是组件故障。服务器、GPU、网卡、收发器、电缆、交换机和路由器可能会发生故障,导致go-back N,甚至更糟糕的是,可能会停止整个作业,从而导致巨大的性能损失。随着集群规模的增长,组件故障的可能性变得更加明显。传统上,GPU 供应商的集体通信库 (CCL) 会尝试使用本地化技术发现底层网络拓扑,但发现的拓扑与实际拓扑之间的差异可能会严重影响 AI 训练的作业完成时间。

人工智能网络的另一个问题是,大多数运营者都有单独的团队来设计和管理不同的计算与网络基础设施。这涉及使用不同的编排系统进行配置、验证、监控和升级。缺乏单点控制和可见性使得识别和定位性能问题变得极其困难。随着人工智能集群规模的扩大,所有这些问题都会加剧恶化。

很容易看出这些“孤岛”会变得越来越隔离,从而使问题变得更加复杂。计算与网络之间的独立操作可能会导致为实现最佳性能而将技术串联起来的尝试面临挑战,并导致诊断和解决性能下降时耗时增加甚至出现彻底的故障。从网络技术本身来讲,Infiniband HPC 集群孤岛就与基于以太网的数据中心不同。反过来,这可能会限制对投资的保护,在不同体系之间传递数据就很麻烦,只能被迫采用笨拙的网关以便将计算与存储连接到最终用户。孤立地关注任何一种技术(例如计算),而忽略整体解决方案的其他方面,就会忽略这些技术相互依赖和相互关联的性质,如下所示。

新人工智能中心的崛起

新的人工智能中心认识到并拥抱这个现代化的、相互依存的生态系统的完整性。整个系统一起提升以获得最佳性能,而不是像以前的网络孤岛那样孤独地沉沦。GPU需要一个优化的、无损的网络以便在尽可能短的时间内完成AI训练,然后这些训练好的AI模型需要连接到AI推理集群,以便最终用户能够查询模型。计算节点涵盖 GPU/AI 加速器和 CPU/通用计算,需要与存储系统以及现有数据中心中的其他 IT 现有系统进行通信和连接。孤独的系统是可耻的,该网络会充当结缔组织来激发所有这些相互作用点,就像神经系统在人类神经元之间提供通路一样。

每一个组件的价值都不是独立呈现而是经由整个系统连接在一起激发出集体效果。对于人来说,价值来自于神经系统所促成的思想和行动,而不仅仅是神经元。同样,人工智能中心的价值是其输出被最终用户消费并利用人工智能解决问题,这一切的实现是通过训练集群、推理集群以及存储和其他 IT 系统的相互链接实现,起到集成作用的无损网络就相当于中枢神经系统。人工智能中心的亮点就在于消除孤岛,实现性能调优、故障排除和运营间的协同,而中央网络在创建和驱动链接系统方面发挥着关键作用。

Arista EOS 助力人工智能中心

EOS 是 Arista 推出的操作系统,为世界上最大的scale-out AI 网络提供支持,将生态系统的所有组件聚集在一起创建新的 AI 中心。如果说网络是AI中心的神经系统,那么EOS就是驱动神经系统的大脑。

Arista 内置于 EOS 中的一项新创新,通过将网络与其连接的主机作为一个整体系统更紧密地连接起来,进一步扩展了 AI 中心的互连概念。EOS 将网络域的控制、遥测和无损 QoS 特性从网络交换机扩展到与其直连的服务器/GPU 中的网卡上,在这些网卡上运行有远程的 EOS 代理。部署在AI 网卡/服务器上的远程代理将交换机转变为AI网络的中心,方便配置、监控和调试 AI 主机和 GPU 上的问题,从而实现单一且统一的控制和可见性。利用远程代理,可以作为单个同质实体确保配置一致性(包括端到端流量调整)。Arista EOS 支持 AI Center 通信,以即时跟踪和报告主机和网络行为。通过这种方式,可以隔离网络中运行的 EOS 与主机上的远程代理之间的通信故障。这意味着 EOS 可以直接报告网络拓扑,集中拓扑发现。

丰富的合作伙伴生态系统,包括 AMD、Broadcom、Intel 和 Nvidia

为了构建任务完成时间最短的强大的超大规模 AI 网络,Arista AI Centers 将整个生态系统整合到新的 AI 中心中,其中包括要配置和管理的网络交换机、网卡、收发器、电缆、GPU 和服务器,并作为一个整体进行监控。这可以降低 TCO 并提高跨计算或网络域的生产力。AI Center 的愿景是在 AI 网络和主机之间实现开放、内聚的互操作性和可管理性的第一步。我们恪守对 Arista EOS 开放标准的承诺,利用 OpenConfig 来支持 AI 中心。

我们很荣幸能够与我们尊敬的同事合作,使这一切成为可能。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云深知网络 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Arista超越思科成为以太网数据中心交换机带头大哥
  • 思科“打A办”的失败,成就今日之王者
    • 全文
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档