2025年GTC大会(GPU Technology Conference)在北京时间3月19日凌晨正式开启,英伟达 CEO 黄仁勋从 RTX 5090 游戏显卡聊到智能机器人时代,为观众带来一场酣畅淋漓的演讲。
自从国产大模型 DeepSeek-R1 推出后,推理需求爆发,训练成本直降,打击了不少英伟达持有者的信心。在这次 GTC 大会上,黄仁勋带着新一代芯片和全新架构预告直面 AI 时代推理场景需求,重振英伟达在 AI 领域的领导地位。
这篇文章就带大家来一起来划 GTC 2025 大会重点!
新一代 AI 芯片 GB300 重磅发布
本次 GTC 大会上,英伟达正式发布新一代 AI 芯片 GB300,并将其命名为 Balckwell Ultra,逻辑设计与 B200 相似,但在关键指标上有大幅提升:单颗芯片的 HBM3e 内存容量拉到 288GB,采用 12 高堆叠技术;功耗飙升至 1.4kW,热设计压力陡增;FP4计算性能比前一代 AI 芯片 B200 高出50%。
拥有 72 颗 GB300 的 Blackwell Ultra NVL72 平台将于 2025 年下半年推出,算力达原本 GB200 NVL72 的 1.5 倍,目前使用 Blackwell GB200 的客户,也都可以平滑切换到 Blackwell Ultra。
黄仁勋强调该芯片专为大模型推理场景设计,其支持的 72 颗 GPU 互联的 NVL72 超节点架构,在复杂推理任务中展现出相较于传统 8 卡服务器的显著优势。
在运行 DeepSeek - R1 等复杂推理模型时,前代 Hopper 架构运行该模型每秒仅能处理 100 tokens,而 GB300 NVL72 则能将这一数字提升至每秒 1000 tokens,使得用户获得回答的速度大幅提升。这些提升意味着在处理类似 DeepSeek - R1 这类对推理速度要求极高的模型时,Blackwell Ultra 架构能够以更高的效率运行,为推理任务提供坚实的硬件基础。
为下一代 AI 芯片架构 Rubin 发布预告
除了 GB300 的发布抓人眼球,英伟预告将在 2026 年下半年推出下一代 AI 芯片架构 Rubin 的消息也让人十分期待。
继Hopper、Blackwell,英伟达延续公司传统,仍旧以杰出科学家命名芯片架构,这一次英伟达选择以“证实暗物质存在”的女性科学先驱 Vera Rubin 来命名。
黄仁勋表示,Vera Rubin NVL144 带来 3.3 倍于上面介绍的 GB300 NVL72 的性能。
而更强的 Rubin Ultra NVL576 将于 2027 年下半年推出,带来 14 倍于 GB300 NVL72 的性能。
这意味着,多个全新的架构落地之际,将进一步降低算力成本,提高推理效率,延续英伟达在芯片架构上不断创新优化的路线。
发布桌面 AI 设备,助力桌面 AI 推理
为了将强大的 AI 推理能力延伸至边缘端,英伟达推出两款极具创新性的桌面级 AI 设备 ——DGX Spark 与 DGX Station。
DGX Spark 基于 GB10 Grace Blackwell 芯片,虽身形小巧,却能提供 1PetaFLOPS 算力,可在本地轻松运行 200B 参数大模型。而 DGX Station 则面向企业级私有推理系统,配备 784GB 统一内存,采用 GB300 Blackwell Ultra Superchip,AI 性能更是提升至 20PFLOPS ,能够处理更高强度的训练与推理任务。
这些设备的出现,让开发者和企业无需依赖大规模的数据中心,在桌面端即可开展复杂的 AI 推理工作,尤其适合 DeepSeek 等端侧模型的优化需求。它们不仅降低了模型部署的成本,还能提供低延迟、高能效的解决方案,使 AI 推理更加贴近实际应用场景,无论是小型团队的开发测试,还是企业的本地化推理服务,都能提供有力支持。
开源推理框架 Dynamo 上线,优化推理效率
面对复杂多变的推理场景需求,英伟达推出开源推理框架 Dynamo,这一框架堪称本次 GTC 大会在软件层面的重磅炸弹。
Dynamo 通过独特的分离式推理架构(Disaggregated Serving),将模型输入处理与生成阶段分配到不同 GPU 上。这一创新机制使得每个 GPU 可以专注于特定任务,大大减少了资源冲突,实现资源利用率的最大化。
除了分离式服务,Dynamo 还集成了智能路由器(Smart Router),它能够识别重复或重叠请求,减少不必要的重新计算,并确保负载均衡,避免某些 GPU 过载而其他闲置。同时,GPU 规划器(GPU Planner)可根据当前工作流自动动态地添加和移除 GPU,避免 GPU 配置过度或不足。再加上低延迟通信库(Low - Latency Communication Library)加快数据在不同 GPU 间的移动,减少等待时间。这些特性共同作用,使得 Dynamo 在推理效率上远超传统框架。
目前,Dynamo 已集成至 NVIDIA AI Enterprise 的 NIM 微服务,并开源至 GitHub,这将帮助企业、初创公司和研究人员降低大规模模型部署门槛,加速 AI 推理技术的普及与应用。
从 Blackwell Ultra 芯片到 DGX 系列桌面 AI 设备,再到 Dynamo 开源推理框架,英伟达在本次 GTC 大会上直面 AI 推理需求,尝试构建起一套适配的生态体系。
此次 GTC 大会上英伟达公布的成果,无疑为AI领域注入新鲜活动,推动AI技术更高阶发展。未来是否真的如黄仁勋所言,我们即将迈入Agentic AI时代呢?
以上是算力云今日内容分享,感兴趣的朋友可以多多关注。
领取专属 10元无门槛券
私享最新 技术干货