首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何解构NVidia的体系?

NVidia最近股价又创新高,作为一个骨灰级的N吹,今天继续拔高一个维度,来讲一讲吹的姿势。虽然我过去写了很多所谓关于NVidia的“破绽”,但从技术和产品包括对需求的把控角度,NVidia其实没什么破绽,因为这种高度垄断的芯片产品品类的竞争,从来不是靠技术和产品,而是靠体系。塑造体系也同样不是说需要全栈打造,体系同样可以站在巨人的肩膀上,甚至站在竞争对手的肩膀上。

NVidia过去打败Intel,靠的既不是做一款技术或产品打磨得足够强的CPU去打败Intel的CPU,也不是靠GPU打败了CPU,实际上靠的是CPU+GPU的体系打败了纯CPU的体系。老黄在09年的一个采访中回答“NVidia未来会不会变得和Intel一样强大”时曾经说过

The competition is not about the competition of the device. What we should do is to take advantage of the CPU and build upon it. Stand on the shoulder of giants and take the industry to where it couldn't have gone without our contribution.

竞争并不是关于设备的竞争,而是关于利用CPU的竞争,站在巨人的肩膀上,把这个产业带到只有我们能够带到的地方

这是芯片产品竞争最顶层的逻辑,渐进地解构原有的体系。也是NVidia最顶层的逻辑,只要把Intel从纯CPU的体系拖入CPU+GPU的体系,NVidia就已经成功了。这种博弈包含两方面,一方面是推动需求未来的演进,即所谓“把这个产业带到只有我们能够带到的地方”,将计算机的超级应用从word和excel牵引到图形、高性能计算等领域。另一方面是推动CPU+GPU能比纯CPU更好地满足这些需求。

接下来才是下一层的竞争逻辑,在CPU+GPU的体系里面,谁更重要。老黄在这个采访中同样说过

It's really the battle of which one is more important. The CPU is important. You can't do without it. But we want to take the future of computing, the GPU is going to do the job. The GPU surely can't do it along. There is a shifting of relevance.

这实际上是关于哪一个更重要的战斗,CPU是重要的,你不能没有它。但我们想把计算机的未来带到更高的水平,GPU将会承担一部分工作。GPU显然不能独自完成。这是两者权重的转变。

解构原有的体系,然后再竞争权重。这是芯片产品真正有效的博弈方法论,这种方式既满足生态的惯性,又能真正以小博大,推动计算机的演化和新陈代谢。

实际上NVidia今天同样在遵循这样的逻辑维护和加强自己的商业利益。表层是“把这个产业带到只有我们能够带到的地方”:推动AGI的实现,推动Scaling Law逼近AGI;内核是推动机器往大型机、高集成度、高溢价,更加封闭体系的方向演化,来塑造NVidia更高的利润率和更深的护城河。实际上前者并不意味着后者,后者是前者的一种直观的可行解,但不是唯一解,只不过从产业需求到算法需求再到计算机系统和硬件的边界整个链条过于冗长,这种局部最优的可能性自然把业界框在了这样一个体系之下,这里面有无数NVidia有意无意引导的点。

举个例子,NVidia会告诉你,今天CPU与GPU之间的数据传输带宽是瓶颈。为了解决这个问题,我们打造了grace CPU,提供了和NVidia GPU的高速互联。这可能确实是解决这个问题的局部最优,因为如果CPU还是Intel/AMD的,NVidia也确实没有办法解决这个问题,唯一的解决办法就是把CPU换成NVidia的,那么NVidia就可以在自己体系内部打造私有互联协议解决这个问题。

但实际上NVidia非常乐于见到CPU和GPU之间出现数据传输瓶颈,只可惜这个瓶颈暂时还没那么严重,导致grace-hopper当时卖得并不好。NVidia甚至迫不及待想找到这样的应用并让这类应用越来越重要,这样才能有机会让用户在放弃x86和解决这个瓶颈之间二选一,而且用户还会感激NVidia解决了这个瓶颈。

但在这样的例子里,NVidia不会告诉你的是,即使需要CPU与GPU之间的数据传输带宽,本质上需要的是CPU内存和GPU之间的数据传输带宽,进一步来讲需要的是一个容量足够大的内存池和GPU之间的数据传输带宽。至于这个内存池是不是一定要在CPU侧其实不一定,也可以是RDMA网卡连接的其他内存池服务器,也可以是一个GPU可以直接访问的内存池设备。但只有把内存池放在CPU那一侧,NVidia才能撬动大家把CPU换成NVidia的CPU。

同样,NVidia也在不断鼓吹AI Factory的需求和概念,这样才能更好的推动自家更贵的Scale-Up的网络方案成为行业标准。至于实现AGI是不是真的需要这样的硬件需求,在这样一个体系里面,也许确实要。但如果能解构掉这样的一个体系,也许并不需要。如果你只去研究怎么做一个Scale-Up的网络方案追上NVidia并希望取而代之,你也在助力NVidia变得更垄断。

包括今天NVidia也在推着OpenAI训更大的模型,鼓吹Scaling Law,但却掩盖Scaling Law的经济性问题,塑造全行业的焦虑,期望倒逼全行业靠模型代差买更贵的机器。

如何解构NVidia的体系?这才是真正与NVidia竞争的有效手段,一如当年NVidia与Intel竞争一般。同样,我之前写的所谓NVidia的“破绽”,也更多是关于解构的潜在契机,而非NVidia在今天的体系下的技术或产品的破绽。因为解构本质上讲,是重新梳理一个更加有竞争力的芯片产品分工方式。

NVidia过去与Intel博弈,本质上是塑造了一种更合理的计算机的分工体系。在过去CPU是全能的,小到控制器,大到超算,各行各业的所有需求基本都是CPU干。NVidia挑选了一个合适的维度,把计算机系统拆解成CPU负责控制面的事情,GPU负责计算面的事情。解构了CPU在整个体系中的重要性。

这种解构其实在一个芯片越全能的时候越有机会发生,也是大家觉得越难与其竞争的时候反而越有可能性,而大模型恰好也把GPU负责的计算面拔高到了一个非常全能的高度,只不过挑选的解构角度很重要。例如今天很多人强调AI专用芯片,某种意义上也算是一种解构,即AI芯片负责所有AI应用,GPU负责其他,但这种拆解的维度不对,是基于场景拆的,最后又回归到了和今天一样的体系,只不过想用AI芯片替换掉GPU,最后还是同质化竞争,无法带来体系上的优势。而GPU解构CPU时,拆解的更多是延迟、吞吐这种硬件资源/能力侧的维度而非场景的维度。

解构的方式即创造一个替代的体系。一个更有竞争力、可以从今天的体系平滑演进过去的替代体系,通过引入一些新的芯片产品品类来解构计算机系统的分工。从而改变原有系统各个环节的边界条件,使得局部最优发生迁移。不过因为从产业需求到算法需求再到计算机系统和硬件的边界整个链条确实过于冗长,而今天的体系又是一个各个环节的巨大局部最优。

其实大模型对芯片行业的巨大冲击,正是这种需求剧变产生的解构或重新分工的可能性,我在之前“破绽”里写的正是关于这种需求剧变创造的巨大机会。不过这种解构和重塑非常难做,这里面有太多误区。一方面首先要打破全链路势垒极大的局部最优,另一方面又要避免掉入软硬件紧耦合设计的巨大误区。无论是全栈对标的替代体系还是颠覆式端到端一体的体系都是无法解构的。

这里面有个深层次的误区是ToB还是ToD(Developer)的问题。今天很多人谈论替代NVidia,包括国产替代,或者全新架构的替代,基本都还是个ToB的替代,软硬件端到端解决方案式的替代。但真正能解构NVidia体系的是ToD的替代,ToD的产品其实是最难打磨的产品,ToD的软件框架难打磨好,ToD的芯片产品更难,ToD的体系更需要对计算机系统分层的底层取舍具有很强的感知。

NVidia确实是一家非常传奇的公司,在颠覆掉Intel的过程中,CUDA和GPGPU都是一个极其优秀的ToD软件和ToD的芯片,同时还塑造了CPU+GPU这种ToD的体系来解构掉纯CPU的宏大体系。

这是关于应用需求和硬件边界条件的博弈艺术。NVidia是一家非常懂软件的半导体公司,这在所有半导体公司里都是个例外。软件是在硬件边界条件下寻找应用需求的局部最优。NVidia的策略基本都是通过塑造额外的硬件边界条件来重塑体系,并大力扶持依赖这种边界条件的应用需求,其他公司会自发在这样的边界条件和目标应用上寻找软件的最优解。除非软件行业找不好局部最优,NVidia才会下场打样。

最后引用一段老黄的话,可以深刻反映上面的思想。

You want the company to be "lazy" about doing things that other people always/can do. If somebody else can do it, let them do it. We should go select the things that if we didn't do it, the world would fall apart.

(完)

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OQUsMHnU1kGH7MU7RkOqPN7Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券