Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >从M1、Grace再到华为,缝合风为何会在芯片大厂中流行

从M1、Grace再到华为,缝合风为何会在芯片大厂中流行

原创
作者头像
beyondma
发布于 2022-04-03 09:58:23
发布于 2022-04-03 09:58:23
6250
举报
文章被收录于专栏:Rust学习专栏Rust学习专栏

历史不会简单重复,但总是惊人的相似。之前在电影、游戏等人文领域流行的缝合风,似乎也对IT界芯片设计师们产生了影响,虽然去年华为提出的双芯叠加方案还被全网群嘲,而上周英伟达最新的发布会上,黄仁勋发布的Grace CPU Superchip却成了真香的作品,不过这款芯片其实就是用两块Grace粘在一起而形成的。

而上个月中旬苹果春晚上发布的M1 Ultra也是同样的配方,同一个套路,他们直接把两块M1 MAX拼到一块,就这样一款新的“伟大”芯片就诞生了。

当然笔者这里对于此类缝合作品并不抱有偏见,毕竟像“原神”那样的作品在上市之初也被指责是缝合怪,但这丝毫不影响米哈游目前的大杀四方,让来自于各个国家的粉丝都疯狂氪金,不过笔者还是要指出这种缝合式芯片的大行其道,其实是缺芯潮不断持续而产生的影响,由于科技业界忙于眼前的苟且,创新后劲不足,对新设计、新理念缺乏信心,在这种情况下考虑到原来的M1 MAX已经大获成功了,而且台积电的制造经验也成熟,把两块已经成熟的芯片粘在一起,风险要远比造全新的芯片要小得多。

其实这股缝合风从苹果的初代M1就开始了,只是初代的M1的目标是把CPU、GPU、内存缝合到一起,由于使用的都是片内内存,所以理论上讲M1系列的全族芯片都是不支持内存扩展的,要换只能把CPU、GPU打包一起换掉。当然缝合方案的影响不只于此,下面我们就来分析一下这种芯片缝合方案的具体情况。

内存带宽极高,CPU和GPU通信能力超强

由于内存完全被芯片集成,内存与CPU之间的通信也就不用经过主板进行转手了,因此目前我们可以看到英伟达的Grace CPU的内存带宽可以达到惊人每秒1TB,而苹果M1 Ultra也是不遑多让,有每秒800GB的成绩。这是我们一般主板接入内存的普通X86玩家所不能想象的效果,可见甩了主板这个中间商以后,其实内存的速度还是能打的。

另外由于M1系列缝合式芯片内存、GPU都是由CPU进行统一管理,也就是说内存与显存是共享的,这就可以大大提高CPU与GPU的通信效率,从而增强图像处理3D建模等任务的处理效率。由于英伟达Grace尚未投产,具体细节还不多,因此这里这种片内共享所带来的加成效应,我们继续以苹果M1举例,我们知道苹果初代M1显存与内存加在一起只有16G,而M1前一代的MAC PRO内存是128G,光是显存都有都与M1持平16G,不过搭载M1的入门版MAC在进行图像处理等任务时,却要比上一代顶配的MAC还要强出近一倍。而本次发布的M1 MAX更是直接将内存带宽提升到初代M1的6位,其性能加强的程度也就可想而知了。

正如上文所说英伟达最近发布处理器中用到的缝合技术NVlink,其实采用了和苹果比较类似的思路。未来不排除英特尔和AMD也会跟进,今后内存也很可能不会再是一个单独的元件了,被集成起来也会是一种趋势。

AI算力史诗级提升,元宇宙可期

在AI优化方面,现在看来未来主流的Tensor也就是矢量的主流格式正在由FP32向FP8。我们看到在英伟达最新的显卡H100中,主打的矢量格式就已经明确是FP8了。

不管是AI计算,还是元宇宙概念,其最基本的计算单元都是矢量。以深度神经网络为例,神经元可以抽象为对于输入矢量乘以权重以表示信号强度乘积加总,再由ReLU、Sigmoid等应用激活函数调节,本质是将输入数据与权重矩阵相乘,并输入激活函数,对于有三个输入数据和两个全连接神经元的单层神经网络而言,需要把输入和权重进行六次相乘,经典CNN中无论GEMM的矩阵乘法运算还是卷积地乘加计算都是使用fp32也就是用32位字长的数字来表示的,在这种情况下如果我们可以使用fp8来作为输入表示此以过程,其计算量至少可以下降75%。尤其在图像处理的场景下,通常由fp32到fp8的转换,如果方案得当,其精度损失是低于1%的。因此在针对fp8类型的计算加速也就是业界都在探讨的话题。

由于之前英特尔去年至强三代中引入的VNNI已经针对FP8进行过加速优化,据笔者所知咱们国内某大厂在实时生成用户3D头像模型的应用中,在VNNI的支持下可以在精度降低1%的情况下,性能还提升了4.23倍。而这次英伟达的发布会上,黄仁勋的说法也为FP8投上了关键一票。

RISC的自带光环,超强的译码器

目前处理器的流水线一般分为取指、译码、取操作数等等环节,其中译码是一个非常重要的环节。译码器方面ARM架构的精简指令集的确有一定优势,由于指令都是定长的,完全可以做出高效的多路译码器以提升效率。据笔者所知之前初代M1应该是四路译码,目前的M1 MAX和Ultra都是6路指令解码器,8µop发射宽度,6路分配、10路执行端口的指标。但是英特尔和AMD想用缝合方案的话,就需要实现像M1 Ultra这么强的译码器,但由于X86指令集是变长的,因此X86芯片的译码器一般都先按短码进行翻译,遇差错再返工,这也就很难在相同的功耗下达到很强的译码效率。

未来趋势-打破指令集之间的墙

在英特尔IDM2.0的战略当中有重要的一个原则,就是敞开大门,全面接收各种芯片的订单,同时也可以考虑在同一芯片中集成多种不同指令集的核心,这可能终极的缝合目标,也就是同一块芯片中可以由英特尔的CPU当大核,ARM的CPU当小核,AMD的显卡当GPU的神奇组合。

这种趋势在英特尔在去年发布的Alder Lake处理器中搭建的Thread Director上已经显出端倪。Thread Director就是这样一种软、硬结合的核心调度方案,英特尔的做法是在处理器中集成了一个专用的MCU,用来监控当前处理器内核的运行情况,能够监测到每个线程的特征,比如它运行什么样的指令集、它的性能需求如何等等。在收集完信息之后,MCU会将收集到的信息反馈给操作系统,再次操作系统把这些信息与线程调度信息相结合,判断是否应该将线程转移到别的核心上。如果与操作系统结合的好话,那么一轮调度信息采集工作仅需要30微秒就能完成,而传统方案调度器可能需要100多毫秒才能判断出结论。而据笔者所知Alder Lake上集成的这颗调度用的MCU就是RISC-V的核心,一切就是这么奇妙。

天下大势合久必分,分久必合,因此缝合芯片,也符合现在芯片行业的发展趋势,不过这种缝合这款处理器如何在虚拟化的云环境中,为不同用户提供服务,并进行严格的隔离可能也是一个难点,但是可以肯定的是英伟达、英特尔和苹果的接连站台,缝合式芯片的未来可期。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Alder Lake会是英特尔的救世主吗?
目前半导体行业的发展可以用冰火两重天来形容,传统的桌面及移动SOC市场已经基本停止增长了,而云计算成了各大巨头的兵家必争之地,这点笔者在前文《英特尔火线换帅、苹果搅动乾坤,国芯路在何方》已经有过详细论述了。
beyondma
2021/08/28
5260
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
关键词:M2芯片;Ultra;M1芯片;UltraFusion;ULTRAMAN;RTX4090、A800;A100;H100;LLAMA、LM、AIGC、CHATGLM、LLVM、LLM、LLMs、GLM、NLP、ChatGPT、AGI、HPC、GPU、CPU、CPU+GPU、英伟达、Nvidia、英特尔、AMD、高性能计算、高性能服务器、蓝海大脑、多元异构算力、高性能计算、大模型训练、大型语言模型、通用人工智能、GPU服务器、GPU集群、大模型训练GPU集群、大语言模型
液冷服务器
2023/07/28
2.3K0
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
2022数据中心芯片市场:谁家焦虑 谁家狂欢
过去十多年来,英特尔在服务器市场方面一直处于领先地位,其每年推出的至强处理器几乎已经等于服务器、数据中心的代名词。但是,在英特尔不断延迟其 10 纳米芯片制造工艺之后,外界开始议论纷纷,最终也让其他厂商有机会在数据中心计算市场CPU领域向其发起挑战。 展望 2022 年,数据中心计算领域比十年前要丰富精彩得多。AMD重返市场,创造出具有竞争力的 CPU 和 GPU,并且如果一切顺利,它将在今年第一季度末收购 FPGA 制造商 Xilinx。(2020 年 10 月AMD宣布将以350 亿美元收购 Xilin
SDNLAB
2022/03/04
9300
单芯片处理器走到尽头?苹果&英伟达倾心多芯片封装,互连技术最关键
选自IEEE 机器之心编译 编辑:杜伟 当单芯片处理器已达到极限,苹果和英伟达相继发布的芯片证明多芯片封装或许才是未来发展方向,但互连技术仍是一大难题和巨头角逐的主战场。 3 月 10 日,苹果在 2022 年春季发布会上 M1 Max 芯片的升级版 ——M1 Ultra,创新性地采用了封装架构 UltraFusion,将两个 M1 Max 芯片的管芯相连,制造出了具有前所未有性能和功能的片上系统(SoC)。 3 月 23 日,英伟达在 GTC 2022 大会上发布了类似的新闻。黄仁勋宣布推出首款面向 A
机器之心
2022/04/11
3670
单芯片处理器走到尽头?苹果&英伟达倾心多芯片封装,互连技术最关键
苹果M1芯片为何如此快?
本文来源:内容选自Debugger,作者:Erik Engheim 机器之心,编译参与:小舟、泽南,谢谢。
FPGA技术江湖
2021/04/14
1.7K0
苹果M1芯片为何如此快?
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
机器之心报道 编辑;泽南、杜伟 黄仁勋:芯片每代性能都翻倍,而且下个「TensorFlow」级 AI 工具可是我英伟达出的。 每年春天,AI 从业者和游戏玩家都会期待英伟达的新发布,今年也不例外。 北京时间 3 月 22 日晚,新一年度的 GTC 大会如期召开,英伟达创始人、CEO 黄仁勋这次走出了自家厨房,进入元宇宙进行 Keynote 演讲: 「我们已经见证了 AI 在科学领域发现新药、新化合物的能力。人工智能现在学习生物和化学,就像此前理解图像、声音和语音一样。」黄仁勋说道「一旦计算机能力跟上,像
机器之心
2022/03/24
9740
CPU关键技术演进路线
后摩尔定律时代,单靠制程工艺的提升带来的性能受益已经十分有限,Dennard Scaling规律约束,芯片功耗急剧上升,晶体管成本不降反升;单核的性能已经趋近极限,多核架构的性能提升亦在放缓。AIoT时代来临,下游算力需求呈现多样化及碎片化,通用处理器难以应对。
肉眼品世界
2022/06/15
7360
CPU关键技术演进路线
听说苹果M1能打英伟达RTX?那跑个光追试试
不得不说,自发布以来,苹果M1芯片的各项测评表现都令人印象深刻。甚至此前有人发现M1 Mac Mini在某项TensorFlow速度测试中的得分高于英伟达RTX 2080Ti。
量子位
2021/06/17
1.3K0
英伟达新核弹GPU:4nm制程800亿晶体管,20张即可承载全球互联网流量,全新Hopper架构太炸了
丰色 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 他来了他来了,老黄带着英伟达的最新一代GPU来了。 之前大家猜的5nm错了,一手大惊喜,老黄直接上了台积电4nm工艺。 新卡取名H100,采用全新Hopper架构,直接集成了800亿个晶体管,比上一代A100足足多了260亿个。 内核数量则飙到了前所未有的16896个,达到上一代A100卡的2.5倍。 浮点计算和张量核心运算能力也随之翻了至少3倍,比如FP32就达到了达到60万亿次/秒。 特别注意的是,H100面向AI计算,针对Transfor
量子位
2022/03/24
6030
苹果最强芯片M1 Ultra亮相!两个M1 Max胶水拼接,性能爆表
---- 新智元报道   编辑:编辑部 【新智元导读】苹果春季发布会,库克告诉你什么叫1+1=2。 3月9日凌晨2点,苹果春季发布会,库克出了王炸。 M2没来,M2 MacBook Air更不用想了。 这次,库克直接带了M1的续杯,也是M1家族最后一位——M1 Ultra。 简单说,就是M1 Max+M1 Max,性能可不得炸裂么!!! 另外,搭载M1 Ultra的「造梦引擎」Mac Studio,高配59999元,还有它的伴侣Studio Display首发上线。 老
新智元
2022/03/09
1.1K0
老黄狂拼CPU!英伟达掏出800亿晶体管显卡,外加世界最快AI超算Eos
---- 新智元报道   编辑:编辑部 【新智元导读】「拼装」CPU,4纳米显卡,世界最快AI超算,还有游戏开发者的元宇宙。这次,老黄的百宝箱里都有啥? 今天,老黄穿着他的皮衣又来了! 3月22日晚,英伟达GTC 2022开幕。 虽然没有了那个熟悉的厨房,但这次的阵仗反而更加豪华。 英伟达用Omniverse把新总部从内到外渲染了一遍! 800亿个晶体管的Hopper H100 随着拔地而起的平台,英伟达推出了为超算设计的最新AI显卡Hopper H100。 相比于「只有」540亿个晶体管的前辈A
新智元
2022/03/24
8240
超越英伟达H100!英特尔Gaudi3发布:训练快40%,推理快50%!
北京时间4月9日晚间,英特尔在美国召开了“Intel Vision 2024”大会,介绍了英特尔在AI领域取得的成功,并发布了新一代的云端AI芯片Gaudi 3及第六代至强(Xeon)可扩展处理器,进一步拓展了英特尔的AI产品路线图。
芯智讯
2024/04/11
2240
超越英伟达H100!英特尔Gaudi3发布:训练快40%,推理快50%!
745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100
8月28日消息,由传奇芯片架构师Jim Keller领导的AI芯片新创公司Tenstorrent在近日的Hot Chips 2024活动上详细介绍了其新一代基于RISC-V架构的BlackHole系列AI处理器,性能高达745 TOPS,尽管芯片集成的内存容量和带宽低于英伟达A100,但是整体的AI性能和可扩展性更优。
芯智讯
2024/08/30
3750
745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100
最强AI芯片英伟达H200发布:HBM容量提升76%,大模型性能提升90%!
11月14日消息,英伟达(Nvidia)于当地时间13日上午在 “Supercomputing 23”会议上正式发布了全新的H200 GPU,以及更新后的GH200 产品线。
芯智讯
2023/11/16
1K0
最强AI芯片英伟达H200发布:HBM容量提升76%,大模型性能提升90%!
英伟达CPU面世!基于Arm,性能超过英特尔为核心的自家系统10倍,连客户都找好了
这次的演讲和之前有所不同,可以从下图明显看到,黄教主的脸逐渐圆润、头发也越留越长了。
大数据文摘
2021/04/15
5530
英特尔要为老黄代工?黄仁勋透露:正在考虑使用英特尔代工厂
---- 新智元报道   编辑:LRS 【新智元导读】英伟达CEO黄仁勋最近表示正考虑使用英特尔代工厂,一旦合作达成,那生产的显卡堪称芯片界的燕「双英」,但也有分析师表示这只是个客套话。 什么?英伟达竟然要和英特尔合作了? 黄仁勋在近日一场在线发布会上,透露出他们将会考虑采用英特尔的代工服务,并表示,英特尔也非常有兴趣让英伟达使用他们的代工服务。 不过,就目前所公布的消息来看,英伟达并不会很快就把芯片交给英特尔代工,双方围绕芯片代工服务的谈判可能还需要一段时间。 老黄表示,毕竟这不是上超市买瓶牛奶那
新智元
2022/03/28
4010
苹果M1最终形态:1140亿晶体管,超越i9+3090,完全体售价6万
机器之心报道 编辑:泽南、杜伟 苹果 M1 系列芯片最后的一个型号,拿两块 M1 Max 直接拼起来,苹果说它「会改变业界游戏规则」。 今天凌晨,苹果在线上举办了 2022 年春季发布会。会上,苹果推出了很多新品,包括全新苍岭绿色版 iPhone 13 和 13 Pro 系列、A15 和 5G 加持的 iPhone SE 3、搭载 M1 芯片的 iPad Air 5 等。不过,最值得关注的还是 M1 Max 芯片的升级版——M1 Ultra 以及搭载这款芯片的全新 Mac 产品——Mac Studio。
机器之心
2022/03/09
1.2K0
详解AI加速器(四):GPU、DPU、IPU、TPU…AI加速方案有无限种可能
选自Medium作者:Adi Fuchs 机器之心编译 在上一篇文章中,前苹果工程师、普林斯顿大学博士 Adi Fuchs 聚焦 AI 加速器的秘密基石:指令集架构 ISA、可重构处理器等。在这篇文章中,我们将跟着作者的思路回顾一下相关 AI 硬件公司,看看都有哪些公司在这一领域发力。 这是本系列博客的第四篇,主要介绍了 AI 加速器相关公司。全球科技行业最热门的领域之一是 AI 硬件, 本文回顾了 AI 硬件行业现状,并概述相关公司在寻找解决 AI 硬件加速问题的最佳方法时所做的不同赌注。 对于许多 AI
机器之心
2022/03/04
2K0
CES 2022:四大芯片巨头正面厮杀,抢滩自动驾驶、元宇宙
2022年国际消费类电子产品展览会(CES)于1月7日落下帷幕。作为全球消费电子技术的晴雨表,CES一直是各家厂商大秀“肌肉”的重要阵地。
科技云报道
2022/04/16
6190
CES 2022:四大芯片巨头正面厮杀,抢滩自动驾驶、元宇宙
【AI系统】GPU 架构回顾(从2018年-2024年)
2018 年 Turing 图灵架构发布,采用 TSMC 12 nm 工艺,总共 18.6 亿个晶体管。在 PC 游戏、专业图形应用程序和深度学习推理方面,效率和性能都取得了重大进步。相比上一代 Volta 架构主要更新了 Tensor Core(专门为执行张量/矩阵操作而设计的专门执行单元,深度学习计算核心)、CUDA 和 CuDNN 库的不断改进,更好地应用于深度学习推理。RT Core(Ray Tracing Core)提供实时的光线跟踪渲染,包括具有物理上精确的投影、反射和折射,更逼真的渲染物体和环境。支持 GDDR6 内存,与 GDDR5 内存相比,拥有 14 Gbps 传输速率,实现了 20%的的效率提升。NVLink2.0 支持 100 GB/s 双向带宽,使特定的工作负载能够有效地跨两个 GPU 进行分割并共享内存。
用户11307734
2024/11/27
4640
推荐阅读
Alder Lake会是英特尔的救世主吗?
5260
英伟达 H100 vs. 苹果M2,大模型训练,哪款性价比更高?
2.3K0
2022数据中心芯片市场:谁家焦虑 谁家狂欢
9300
单芯片处理器走到尽头?苹果&英伟达倾心多芯片封装,互连技术最关键
3670
苹果M1芯片为何如此快?
1.7K0
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
9740
CPU关键技术演进路线
7360
听说苹果M1能打英伟达RTX?那跑个光追试试
1.3K0
英伟达新核弹GPU:4nm制程800亿晶体管,20张即可承载全球互联网流量,全新Hopper架构太炸了
6030
苹果最强芯片M1 Ultra亮相!两个M1 Max胶水拼接,性能爆表
1.1K0
老黄狂拼CPU!英伟达掏出800亿晶体管显卡,外加世界最快AI超算Eos
8240
超越英伟达H100!英特尔Gaudi3发布:训练快40%,推理快50%!
2240
745TFLOPS!Tenstorrent推768核RISC-V AI芯片:对标英伟达A100
3750
最强AI芯片英伟达H200发布:HBM容量提升76%,大模型性能提升90%!
1K0
英伟达CPU面世!基于Arm,性能超过英特尔为核心的自家系统10倍,连客户都找好了
5530
英特尔要为老黄代工?黄仁勋透露:正在考虑使用英特尔代工厂
4010
苹果M1最终形态:1140亿晶体管,超越i9+3090,完全体售价6万
1.2K0
详解AI加速器(四):GPU、DPU、IPU、TPU…AI加速方案有无限种可能
2K0
CES 2022:四大芯片巨头正面厮杀,抢滩自动驾驶、元宇宙
6190
【AI系统】GPU 架构回顾(从2018年-2024年)
4640
相关推荐
Alder Lake会是英特尔的救世主吗?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档