首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >思科白皮书:基于以太网的 AI 集群架构

思科白皮书:基于以太网的 AI 集群架构

作者头像
AIGC部落
发布于 2025-07-08 07:29:56
发布于 2025-07-08 07:29:56
2080
举报
文章被收录于专栏:Dance with GenAIDance with GenAI

本文主要介绍了思科基于以太网的 AI 集群架构,采用 Silicon One 芯片和 SONiC 操作系统,构建包含 32 个 NVIDIA DGX H100 节点(共 256 块 GPU)的 AI 集群,强调以太网在性能、可扩展性和多租户安全方面的优势,通过 CLOS 架构实现无阻塞架构,结合优先流控制(PFC)和显式拥塞通知(ECN)确保无损传输,并利用 Grafana 等工具进行运维监控,总结了 AI 基础设施在计算、网络和存储方面的关键需求及解决方案。

  1. 思科 AI 战略与业务目标 AI 的重要性:AI 正在改变世界,渗透各领域,为思科带来新市场机会,提升产品(如 Webex 音视频优化)和服务(如缩短 MTTR 的聊天机器人)能力。 核心业务目标: 部署含256 块 NVIDIA H100 GPU的 AI 集群,验证思科技术栈(Silicon One 芯片 + SONiC 系统)。 与 Common Hardware Group 合作制定基于以太网的大规模 AI 集群蓝图。
  2. 选择以太网的原因与市场趋势 思科 AI 集群为何选择以太网而非 InfiniBand? 性能与扩展性:以太网支持更高效的规模扩展(如 512-wide radix 架构),适应多 GPU 并行训练。 多租户安全:确保客户训练数据主权和保护。 运维兼容性:支持多厂商硬件、多种 GPU 类型,人才生态更成熟。 市场数据:2024 年以太网交换机收入占数据中心 AI 网络市场的74%,远超 InfiniBand 的 15%。
  3. SONiC 技术架构与功能 定义:开源网络操作系统(NOS),支持白盒硬件,通过 SAI API 抽象硬件,实现软件组件民主化。 功能栈: 社区驱动:SAI API 和 SONiC OS 由社区开发,平台 SDK 由厂商维护。 关键特性:MACsec 安全、热重启(Warm Boot)、IP Fabric(BGP)、EVPN VxLAN 覆盖网络。 工具链:支持 gRPC telemetry、SNMP、ZTP 自动化部署。
  4. AI集群硬件与网络设备 计算节点: 配置:32 个 NVIDIA DGX H100 节点,每节点含8 块 H100 GPU、2TB 内存、32 PetaFLOPS FP8 性能,功耗 10.2kW / 节点。 网络:8x ConnectX-7 VPI 接口,支持 400Gbps 以太网 / InfiniBand,双链路冗余。 存储节点: 配置:4 个 NetApp A900 节点(HA 对),128 核 CPU、2TB 内存,提供131TB 可用存储空间,支持 8x100Gbps 以太网接口(RoCE)。 网络设备:

设备型号

ASIC

端口

吞吐量

用途

Cisco 8101-32FH-O

Silicon One

32xQSFP-DD(400Gbps)

12.8Tbps

计算网络(叶 / 脊交换机)

Cisco 8102-64H-O

Silicon One

64xQSFP28(100Gbps)

6.4Tbps

带内管理网络

Cisco 93108TC-FX3H

Cloud Scale

48x10GBASE-T

1.8Tbps

带外管理网络

  1. 网络架构设计 分区设计: 计算网络:采用 CLOS 架构,8 叶 + 8 脊交换机,400Gbps 无阻塞链路,iBGP 路由反射器,支持 ECMP 负载均衡。 存储网络:100Gbps 链路,连接 NetApp 存储与 DGX 节点,未来计划部署 VxLAN 覆盖网络。 带内管理网络:5 个 UCS 管理节点,通过 SLURM 调度作业,使用 100Gbps 交换机。 无损传输机制: PFC(802.1Qbb):按优先级实现流量控制,确保关键 AI 流量无丢包。 ECN(显式拥塞通知):通过 IP 头标记拥塞,触发端到端速率调整,避免缓冲区溢出。
  2. 实施与运维 部署流程: 硬件搭建:利用现有机柜,分布式部署 32 个 DGX 节点(10.2kW / 节点),优化供电与散热。 软件配置:通过 SONiC CLI 和 config_db JSON 文件配置 BGP、端口聚合(PortChannel),自动化脚本生成配置。 运维工具: 监控:Grafana 仪表盘实时监控 CPU / 内存利用率、接口流量。 备份:Bitbucket 存储 SONiC 配置备份,支持版本管理。 文档:基于 Zabbix 的运行手册(Runbooks),涵盖拓扑、故障排除和升级流程。
  3. 经验总结与挑战

关键挑战:

低熵流量导致负载均衡低效,长尾延迟影响作业完成时间(JCT)。

大规模集群中链路故障处理与拥塞管理。

解决方案:

采用分布式调度架构(DSF),通过智能NIC 实现流量预调度,减少拥塞。

CLOS 无阻塞架构结合硬件级负载均衡(如 WECMP),避免哈希偏斜。

未来方向:验证 “分布式调度架构”,提升多作业并发性能,深化 AI 与网络协同优化。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Dance with GenAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档