前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >英特尔开启服务器CPU之战

英特尔开启服务器CPU之战

作者头像
芯智讯
发布2024-06-07 18:52:49
1040
发布2024-06-07 18:52:49
举报
文章被收录于专栏:芯智讯芯智讯

由于英特尔的代工厂仍在努力赶上竞争对手台积电提供的工艺和封装,英特尔的服务器 CPU 产品线必须“利用”代工厂的现有资源,并创造出具有适当性能和价格组合的产品,以与 X86 领域的 CPU 竞争对手 AMD 和正在数据中心创建新 CPU 层的 Arm 集团竞争。

因此,英特尔决定将其产品线分为使用真正的 Xeon 核心(即所谓的 P 核心,即性能核心的缩写)和经过改进的 Atom 核心(即所谓的 E 核心,即节能核心的缩写)的机器。这与其说是英特尔 Xeon 产品线的新分支,不如说是英特尔十多年来坚持的原则的强化。(“Knights Landing” Xeon Phi 处理器是 Atom CPU 的肌肉车版本,首次实现了 AVX-512 矢量数学单元,并将其固定在服务器核心上,而服务器核心几乎无法运行您的手机。)

我们在阿巴拉契亚长大,在纽约市住了三十年后又回到了山区,我们明白,在正确的情况下——或者更准确地说,在错误的情况下——叉子可能和刀一样危险。你必须在石墙上磨勺子很长时间,但你也可以让这变得危险。。。

这一次,英特尔不再基于 Atom 风格的核心制造玩具服务器 CPU,不再限制主内存和 I/O 扩展,不再希望公司会大量购买,并将它们像罐头食品一样塞进货架过冬。相反,英特尔将大量 Atom 核心组合到真正的服务器插槽中,并配备真正的内存和 I/O 容量,然后将其插入标准 Xeon 服务器平台,以提供出色的性价比和散热性能,满足高吞吐量工作负载的需求,而使用超线程技术的标准 Xeon P 核心则无法满足这一需求。

从长远来看——也就是在未来五年左右——市场将决定两个指令集几乎相同的完全不同的内核是否可以与两个布局不同、每个内核 L3 缓存只有一半的类似内核竞争。后者是 AMD 的策略,它正在做出更微妙的区分,以区分其标准 Zen 内核,例如 Epyc 9000 系列“Genoa”变体中使用的 Zen 4 内核,以及基于 Zen 4c 内核的“Bergamo”高核数和“Siena”低热服务器 CPU。

需要记住的是,尽管 AMD 目前占据了 X86 服务器 CPU 出货量的 33%,但Lisa Su 昨天在 Computex 2024 的主题演讲中指出,英特尔仍然占据了剩下的 67%——而且这是在其代工部门的强行束缚下。但它正在摆脱困境。

英特尔将在 2025 年左右整理好其代工厂,并且它拥有许多优秀的架构师,可以提供出色的 CPU 设计,甚至可能凭借其“Falcon Shores”计划提供具有竞争力的 GPU。它正在努力提高其封装的良率。英特尔将参与竞争,AMD 和 Arm-y 的生活将变得更加艰难。Xeon 6 系列的两种版本——在 Computex 上开始推出的初始“Sierra Forest”E 核芯片和将于第三季度推出的初始“Granite Rapids”P 核芯片——是英特尔缩小 CPU 服务器差距的第一步。一年半后,这将是一场真正的刀光剑影,我们预计 X86 领域的市场份额可能会差不多。不久之后,Arm 将占据整体服务器出货量的 20%,RISC-V 也将开始获得一些追随者。

数据中心内的 CPU 之争还远未结束。

两个目标,一个架构

英特尔一直在谈论 E 核和 P 核战略,但在讨论英特尔谈论的第一批 Sierra Forest 芯片之前,有必要先了解一些核心原则。还会有其他原则。英特尔不会一次性推出整个产品线,我们怀疑英特尔在用于制造 Sierra Forest 芯片的 Intel 7 和 Intel 3 工艺上存在产能限制。

上图是我们根据两张英特尔图表制作的混合图,图中显示 Xeon 6 的 P 核变体针对的是 AI 工作负载,但它也针对的是 HPC 模拟和建模,以及任何类型的工作负载,在这些工作负载中,较强的内核比较弱的内核更好。AI 只是一种计算密集型工作负载,不可否认的是,对于那些正在考虑使用预先训练的生成式 AI 模型并使用自己的数据对其进行重新训练以在其 CPU 集群中本地运行 AI 工作负载的企业来说,它可能是最有趣的工作负载。

由于 E-core 芯片没有 AVX-512 矢量单元或 AMX 矩阵数学单元,它们在 AI 或 HPC 处理方面实际上无法发挥很大作用。它们实际上是为应用程序、打印、文件和 Web 服务而设计的,在某些情况下,E-core 变体可能适用于代码块相当适中的其他类型的微服务应用程序。英特尔表示,视频流、媒体转码和其他类型的数据流非常适合 E-core 机器。

无论是 E 核还是 P 核设计,内存和 I/O 控制器以及用于 CPU NUMA 共享内存集群的 UltraPath Interconnect (UPI) 链路都与内核分离,内核位于一、二或三组芯片组上。2023年 1 月推出的“Sapphire Rapids”Xeon SP v4在每个芯片组上都有所有内容,并将其中四个集成在一起形成一个插槽。随着2023 年 12 月推出的“Emerald Rapids”Xeon SP v5,英特尔退而求其次,使用两个芯片组,聚合内核略多,但所有控制器仍与内核位于同一芯片组上。对于低核和中核数设备,Sapphire Rapids 和 Emerald Rapids 芯片也有单芯片、单片实现。

Sierra Forest Xeon 6 处理器上的核心复合体采用 7 纳米 Intel 3 工艺蚀刻,而 I/O 和内存芯片则采用进一步精炼的 10 纳米 Intel 7 工艺蚀刻,类似于用于 Sapphire Rapids 和 Emerald Rapids 的工艺。

Xeon 6 处理器将分为两个封装系列,即 6700 和 6900,它们将进一步区分 E 核和 P 核芯片的使用。目前还没有 Xeon 6 会在同一封装中混合 E 核和 P 核芯片,但如果有人想要这样一款猛兽,英特尔可能会制造它。

以下是 6700 系列和 6900 系列的规格:

本质上,6700 系列创建的插槽是“虚拟”的低核数 (LCC)、高核数 (HCC) 和极端核数 (XCC) 芯片,这些芯片通过 EMIB 封装拼接在一起。似乎没有中等核数 (MCC) 变体。

Xeon 6 6700系列芯片封装如下:

6900系列芯片封装如下:

Xeon 6 系列服务器 CPU 的推出将分阶段进行,英特尔表示,这是基于客户的反馈。低端 Sierra Forest E 核心芯片将首先推出,随后是第三季度推出的高端 Granite Rapids P 核心芯片:

明年第一季度,更强大的 Sierra Forrest 芯片将上市,最多有 288 个内核,因此 6300、6500 和 6700 系列中的低端 Granite Rapids 芯片也将上市。Granite Rapids 芯片还将推出 SoC 变体,最有可能用于边缘用例,其中强大的内核和矢量和矩阵数学单元用于 AI 推理处理。

英特尔之前从未推出过功能强大的 Atom 机器,因此很难与当前的 Xeon SP 和未来的 Xeon 6 功能强大的核心机器进行比较。在介绍中,英特尔将 Sierra Forrest Xeon 6 6700 芯片与第二代 Xeon SP 处理器进行了比较,大多数人都知道后者的代号为“Cascade Lake”,该处理器于 2019 年 4 月推出。根据英特尔的基准测试和我们自己的分析,我们一致认为,基于 Atom 的 E 核的每时钟指令数对于整数工作与 Cascade Lake Xeon SP 大致相同。如果你算一下,Sierra Forest 中的 E 核的性能约为 Emerald Rapids P 核的 65%。它们完全匹配。

我们将对 Xeon 6 6700E 系列进行更深入的架构研究,但与此同时,这里有一个相当适中的 SKU 堆栈,它只有 7 种变体:

2025 年第一季度,英特尔将通过两个计算块和两个 I/O 和内存控制器块将 Sierra Forest 芯片的性能提升一倍,以创建 Xeon 6 6900E,它被称为 ZCC 封装,最多可拥有 288 个内核。

显然,如果您按每个核心支付软件费用,E 核心版本可能很难接受。但如果您编写自己的微服务软件或按插槽支付费用,那么软件定价就不是问题,E 核心 Xeon 6 可能是降低热量和成本并获得可接受吞吐量的答案。

这是我们常用的性能比较和价格图表,它提供了相对于 2009 年 3 月的四核“Nehalem”Xeon E5500 的原始性能指标。这些性能指标考虑了跨代的内核、时钟和 IPC。

Emerald Rapids Xeon SP v5 处理器的“性能通用”高位部件范围从 8 到 64 个内核和 16 到 128 个线程,根据我们的方法,它们的相对性能范围从 5.85 到 27.78。英特尔以 1,000 个托盘批量计算的价格范围从 1,099 美元到 11,600 美元不等。Sierra Forest 芯片没有超线程,范围从 64 到 144 个内核(这意味着您只有 64 到 144 个线程)。价格从 2,749 美元到 11,350 美元不等,但相对性能范围从 22.89 到 47.20,这意味着性价比从 19% 到 43% 不等。对于给定的瓦数,性能是原来的两倍,或者对于给定的性能,瓦数是原来的一半。当然,这是非常笼统地说。

与 Cascade Lake Xeon SP v2 服务器 CPU 进行比较很有趣。2019 年的顶级 Cascade Lake 拥有 56 个 P 核和 112 个线程,运行频率为 2.6 GHz,可提供 21.69 个单位的性能,但每单位性能的成本超过 946 美元。2024 年的低端 Sierra Forest CPU 拥有 64 个 E 核,运行频率为 2.4 GHz,相对性能为 22.89,但每单位性能的成本仅略高于 120 美元。在过去五年中,性价比提高了 7.9 倍。与 Sierra Forest 系列中的低端 Xeon 6 6710E 处理器相比,顶级 Cascade Lake 部件的功耗为 400 瓦。

Sierra Forest 6700E 顶仓部件的工作量是低仓部件的两倍多,单位性能成本也是两倍,因此与 Cascade Lake 顶仓部件的差距只有一半。但即使是 3.95X 也相当不错了。

接下来,我们将对 Sierra Forest 的建筑进行更深入的探究,并了解关于 Granite Rapids 的推测。

编辑:芯智讯-林子

编译自:https://www.nextplatform.com/2024/06/03/intel-brings-a-big-fork-to-a-server-cpu-knife-fight/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 芯智讯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
批量计算
批量计算(BatchCompute,Batch)是为有大数据计算业务的企业、科研单位等提供高性价比且易用的计算服务。批量计算 Batch 可以根据用户提供的批处理规模,智能地管理作业和调动其所需的最佳资源。有了 Batch 的帮助,您可以将精力集中在如何分析和处理数据结果上。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档