本文主要介绍了思科基于以太网的 AI 集群架构,采用 Silicon One 芯片和 SONiC 操作系统,构建包含 32 个 NVIDIA DGX H100 节点(共 256 块 GPU)的 AI 集群,强调以太网在性能、可扩展性和多租户安全方面的优势,通过 CLOS 架构实现无阻塞架构,结合优先流控制(PFC)和显式拥塞通知(ECN)确保无损传输,并利用 Grafana 等工具进行运维监控,总结了 AI 基础设施在计算、网络和存储方面的关键需求及解决方案。
设备型号 | ASIC | 端口 | 吞吐量 | 用途 |
---|---|---|---|---|
Cisco 8101-32FH-O | Silicon One | 32xQSFP-DD(400Gbps) | 12.8Tbps | 计算网络(叶 / 脊交换机) |
Cisco 8102-64H-O | Silicon One | 64xQSFP28(100Gbps) | 6.4Tbps | 带内管理网络 |
Cisco 93108TC-FX3H | Cloud Scale | 48x10GBASE-T | 1.8Tbps | 带外管理网络 |
关键挑战:
低熵流量导致负载均衡低效,长尾延迟影响作业完成时间(JCT)。
大规模集群中链路故障处理与拥塞管理。
解决方案:
采用分布式调度架构(DSF),通过智能NIC 实现流量预调度,减少拥塞。
CLOS 无阻塞架构结合硬件级负载均衡(如 WECMP),避免哈希偏斜。
未来方向:验证 “分布式调度架构”,提升多作业并发性能,深化 AI 与网络协同优化。
本文分享自 Dance with GenAI 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!