用户11901986
万卡集群如何破局哈希极化与拥塞抖动?深度解读腾讯星脉网络的 TCCL+GOR 协同架构
原创
关注作者
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
用户11901986
社区首页
>
专栏
>
万卡集群如何破局哈希极化与拥塞抖动?深度解读腾讯星脉网络的 TCCL+GOR 协同架构
万卡集群如何破局哈希极化与拥塞抖动?深度解读腾讯星脉网络的 TCCL+GOR 协同架构
用户11901986
关注
发布于 2025-11-07 15:08:22
发布于 2025-11-07 15:08:22
129
0
举报
概述
随着大模型参数规模迈向万亿级,万卡 GPU 集群成为训练基础设施的标配,本文深入解析腾讯星脉网络如何通过“多轨道物理架构”与“TCCL+GOR 端网协同”来破解万卡集群中的哈希极化、拓扑盲点与拥塞抖动等核心挑战。
文章被收录于专栏:
大模型AI infra集群和网络协议
大模型AI infra集群和网络协议
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
计算机网络
数据中心
大模型部署
腾讯混元大模型AIGC
高性能计算集群
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系
cloudcommunity@tencent.com
删除。
计算机网络
数据中心
大模型部署
腾讯混元大模型AIGC
高性能计算集群
##万卡集群
##AI infra
##星脉网络
##Scale-out
##大模型
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
目录
一、万卡集群的网络挑战
二、星脉网络AI infra基础设施核心组件
2.1 多轨道(Multi-Rail)网络架构
2.2 TCCL和GOR端网协同
2.2.1 TCCL:端侧的静态优化与智能执行
2.2.2 GOR:全局的动态感知与智能调度
2.2.3 GOR与TCCL协同工作机制推演
三、架构横向对比与行业实践
3.1 与阿里HPN、百度百舸、Meta 主流大模型训练网络架构对比
3.2 面向未来的挑战
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐