前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >对于英伟达的 GH200 ,你可能有些误解 !

对于英伟达的 GH200 ,你可能有些误解 !

作者头像
ICT百科
发布2024-09-14 14:51:47
1310
发布2024-09-14 14:51:47
举报
文章被收录于专栏:6G

NVIDIA GH200 可能是目前市面上最容易被误解的产品之一。同时在阅读相关文章后,我们认识到,对于 NVIDIA 推出的这款极具创新性的产品,可能还需要给大家提供一个基础性的介绍。

PS:"GH200" 这一术语可能指代不同的硬件配置。与 AMD 或 Intel 推出多种型号不同,而 NVIDIA 通常只宣传单一的一种产品。

现在就让我们来澄清一下关于这款芯片的常见误解,并简单说说它的实际用途。

下图是 NVIDIA 官方提供的 GH200 图解:

NVIDIA GH200 图 2024 年 9 月

针对NVIDIA 在这款产品,它有两个关键的创新点。

首先,LPDDR5X 内存直接焊接在芯片封装上。其次,NVLink-C2C 提供了 CPU 与 GPU 之间的高带宽接口

NVIDIA GH200 概述

同时,这款产品采用了 72 个Arm v9 内核,基于 2022 年的 Arm Neoverse V2 架构,并非全新的技术。NVIDIA 并没有像苹果、高通 Oryon 或 AmpereOne 那样自行设计 Arm 内核。

谈及 LPDDR5X 内存,人们常误以为 GH200 仅配备 480GB 内存。然而,实际情况更加复杂。除了 480GB 版本,NVIDIA 还推出了 120GB 的带宽优化版和 240GB 版本。根据 NVIDIA 的规格书,480GB 版本的内存带宽可达到 384GB/s,而 120GB 和240GB 版本的内存带宽则高达 512GB/s 。

NVIDIA GH200 内存大小和带宽规格

NVIDIA 的一项重大创新是将内存直接集成在芯片封装上,省去了传统的主板和 DIMM 插槽,从而在降低功耗的同时实现了高性能。这也意味着 NVIDIA GH200 的功耗包含了系统内存的消耗。

具有 120GB 内存的 NVIDIA GH200

下面展示的是 GH200 和 Grace Superchip 的顶部视图对比照,每张照片都展示了 72核 Arm CPU 配备的 8 个 LPDDR5X 内存封装。

NVIDIA Grace Hopper 和 NVIDIA Grace 超级芯片

而在底部,同样有 LPDDR5X 封装,使得每个 CPU 总共拥有 16 个内存封装。

NVIDIA Grace Hopper 和 NVIDIA Grace 超级芯片

另外,GH200 的 Grace CPU 一侧提供了 64 个 PCIe Gen5 通道,这些通道被组织成 4 个 x16 的根复合体。

尽管这一数字远低于标准服务器部件,但由于 Hopper GPU 是通过 NVLink-C2C 而非 PCIe 连接的,因此它不能直接与 AMD EPYC、Intel Xeon 或其他 CPU 相提并论

Supermicro ARS 111GL NHR NVIDIA GH200 系统 MCIO 电缆

尽管如此,这些通道仍用于连接 InfiniBand 或以太网适配器/ DPU 。

在 GH200 系统的 PCIe 连接性方面,如果使用两个启动驱动器,将占用 64 个通道中的 8 个。对于横向扩展的 InfiniBand 适配器和存储网络的 BlueField-3 DPU ,分别将占用 16个 通道共 32个,即 64 个通道的一半。

在 GPU 方面,虽然我们称之为 “GH200” ,但这并不意味着板载的 GPU 一定是 H200 变体。实际上,存在两个版本:96GB 和 144GB

标配的 NVIDIA H100 配备 80GB 的 PCIe HBM2e ,而 SXM5 GPU 则配备 80GB 的 HBM3 。甚至 H100 内存配置也有所不同,但这一点常被忽视。标准 H100 上的 80GB 内存分布在五个堆栈中,每个堆栈 16GB 。

技嘉 H223 V10 2U4N NVIDIA Grace Hopper 节点 GH100

96GB 版本则包括了在封装周围可以看到的全部六个堆栈。出于良率原因对内存的保留,可能我们还会看到 94GB 的版本。这与我们看到的配备 144GB 的 H200 141GB 变体的情况类似。

因此,当我们提到 NVIDIA H100 时,可以有 80GB 或 96GB 的内存配置,可以是HBM2e 或 HBM3 。而当我们提到 NVIDIA H200 时,我们指的是 144GB(141GB) HBM3e 版本。当我们说 GH200 时,Hopper 端可以是 96GB H100 HBM3 GPU 或 144GB(141GB)HBM3e H200 GPU 。

所以我们之前的说法是正确的, GH200 是 GH100 的更新版本,尽管两者都使用 “GH200” 名称,也可以在GH200中获得 H100 GPU 。

QCT QuantaGrid S74G 2U 已安装 NVIDIA Grace Hopper

此时,大家可能会想到,三种 LPDDR5X 内存配置和两种 HBM 配置,的确是一个GH200名称就涵盖了很多内容。

除了这些,但还有一个维度需要考虑:功率

NVIDIA GH200 的运行功率范围为 450W 到 1000W 。大多数运行 1kW 级别的设备将使用液体冷却。450W 对于 CPU、GPU 和内存来说是极低的。NVIDIA 只需使用“nvidia-smi –power-limit=”工具,即可以一系列可配置的TDP出售其GPU。平均频率不随电压线性缩放,但如果有 500W TDP 和 1000W TDP ,则性能会有很大差异。

QCT QuantaGrid S74 2U NVIDIA Grace Hopper 电源

对于那些不知道这一点的人来说,GH200 的另一个比较有意思的部分是电源直接来自插入 GH200 封装的电源。而在典型的服务器中, CPU 从主板获取电源。

最后回顾一下,当有人提到 GH200 时,除了有 Arm Neoverse V2 内核和 NVIDIA Hopper GPU 这些事实外,它的含义还存在一些巨大的差异。我们可以有:

  • CPU的 120GB、240GB 或 480GB LPDDR5X 内存;
  • CPU的 384GB/s 或 512GB/s LPDDR5X 内存带宽;
  • GPU的 96GB HBM3 或 144GB(141GB)HBM3E;
  • 4TB/s(HBM3)或 4.9TB/s(HBM3E) 的 GPU 显存带宽;
  • 性能范围很大,具体取决于 TDP 设置。

上面这些个多样化配置都被称为“GH200”,可以说,范围实在是太广泛了。

总的来说,由于 GH200 中的 GPU 可能更像 SXM5 H100 或 H200 ,并且 TDP 可能非常不同。因此,当我们所讨论的当我们讨论 NVIDIA Grace Hopper 时, 明确它的版本是非常重要的。

感谢阅读!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 通信百科 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档