部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >DeepSeek大讨论:中国AI在成本、真实训练成本和封闭模型利润率影响方面的领导地位

DeepSeek大讨论:中国AI在成本、真实训练成本和封闭模型利润率影响方面的领导地位

作者头像
用户11468091
发布2025-02-05 15:07:27
发布2025-02-05 15:07:27
6850
举报

摘要:

  • DeepSeek在GPU等硬件支出远超5亿美元,论文中600万美元仅是预训练运行GPU成本,研发、硬件总拥有成本(TCO)被排除在外。而DeepSeek的关键创新——多头潜注意力(MLA),耗时多月开发,将每个查询KV量减少93.3%,显著降低推理价格。
  • o3性能远超R1和o1,谷歌Gemini 2.0 Flash Thinking与R1不相上下;V3和R1发布后,H100价格猛涨,杰文斯悖论(Jevonʼs Paradox)正发挥作用

DeepSeek 席卷全球

在过去一周里,DeepSeek 成为全球唯一的话题。目前,DeepSeek 的日流量已经远远超过 Claude、Perplexity 甚至 Gemini。但对行业观察者来说,这并非“新”闻。我们已经讨论 DeepSeek 数月之久。这家公司并不新。SemiAnalysis 一直认为 DeepSeek 极具天赋,但公众此前并不关心。

而现在大家发现,DeepSeek 如此高效,以至于我们不再需要更多的计算能力,由于模型的变化,一切都出现了巨大的产能过剩。尽管杰文斯悖论也被过度炒作,但杰文斯更接近现实,这些模型已经引发了对 H100 和 H200 定价的切实影响。

DeepSeek 与幻方量化

幻方量化是一家中国对冲基金,也是最早在交易算法中使用 AI 的机构之一。他们很早就意识到 AI 在金融领域之外的潜力,以及规模化的关键洞察。因此,他们一直在不断增加 GPU 的供应。在对数千个 GPU 集群的模型进行实验后,幻方量化在2021年投资了 10,000 个 A100 GPU。这一举措获得了回报。

随着幻方量化的不断改进,他们在 2023 年 5 月分拆出 “DeepSeek”,以更专注地追求进一步的 AI 能力。幻方量化自掏腰包资助了这家公司,因为当时外部投资者对 AI 并不感兴趣,主要担忧是缺乏商业模式。如今,幻方量化和 DeepSeek 经常共享人力和计算资源。

DeepSeek 已经发展成为一个严肃且集中的努力方向,绝非许多媒体所声称的“副业”。截至目前,他们的 GPU 投资也超过了 5 亿美元。

来源:SemiAnalysis, Lennart Heim
来源:SemiAnalysis, Lennart Heim

GPU 情况

我们相信 DeepSeek 可以使用大约 10,000 个 H800 和大约 10,000 个 H100。此外,他们还订购了许多 H20,英伟达在过去 9 个月中已经生产了超过 100 万个专门针对中国的 GPU。这些 GPU 在幻方量化和 DeepSeek 之间共享,并在一定程度上地理分布。它们用于交易、推理、训练和研究。

来源:SemiAnalysis
来源:SemiAnalysis

我们的分析显示,DeepSeek 的服务器总资本支出约为 16 亿美元,其中与运营这些集群相关的成本相当可观,为 9.44 亿美元。同样,所有 AI 实验室和超大规模数据中心都有更多的 GPU,用于各种任务,包括研究和训练,而不仅仅是一个单独的训练运行,因为资源集中化是一个挑战。X.AI 是一个独特的 AI 实验室,其所有 GPU 都位于一个地方。

DeepSeek 从中国独家招聘人才,不考虑之前的资历,重点放在能力和好奇心上。DeepSeek 定期在北大和浙大等顶尖大学举办招聘会,许多员工都毕业于这些学校。职位并不一定预先定义,员工享有灵活性,招聘广告甚至提到可以无限制地使用数万个 GPU。他们极具竞争力,据称为有前途的候选人提供超过 130 万美元的年薪,远高于国内其他大型科技公司和 AI 实验室(如 Moonshot)。他们目前有大约 150 名员工,但同时也正在迅速增长。

正如历史所显示的那样,一个资金充足且专注的小型初创公司往往可以突破可能的边界。DeepSeek 没有谷歌那样的官僚作风,而且由于他们是自筹资金,可以迅速推进想法。然而,与谷歌一样,DeepSeek(在很大程度上)自己运营数据中心,不依赖外部方或供应商。这为进一步的实验打开了空间,使他们能够在整个堆栈中进行创新。

我们相信,他们是当今世界上最好的“开放权重”实验室,超过了 Meta 的 Llama 项目、Mistral 等。

DeepSeek 的成本和性能

DeepSeek 的价格和效率引发了本周的狂热,主要头条新闻是 DeepSeek V3 的“600 万美元”训练成本。这是错误的。这就好比指出产品物料清单中的一个特定部分,并将其归因于整个成本。预训练成本只是总成本的一个非常狭窄的部分。

训练成本

我们相信预训练数字远非模型的实际支出金额。我们有信心,该公司历史上在硬件上的支出远远超过 5 亿美元。为了开发新的架构创新,在模型开发过程中,有大量的支出用于测试新想法、新的架构想法和消融实验。多头潜在注意力(MLA,DeepSeek 的一项关键创新)的开发花费了数月时间,耗费了整个团队的人力和 GPU 小时。

论文中提到的 600 万美元成本仅归因于预训练运行的 GPU 成本,这只是模型总成本的一部分。被排除在外的还有诸如研发和硬件本身的总拥有成本(TCO)等重要部分。作为参考,Claude 3.5 Sonnet 的训练成本为数千万美元,如果这就是 Anthropic 需要的全部成本,那么他们就不会从谷歌筹集数十亿美元,从亚马逊筹集数百亿美元。这是因为他们需要进行实验、开发新架构、收集和清理数据、支付员工工资,等等。

缩小差距——V3 的性能

V3 无疑是一个令人印象深刻的模型,但值得强调的是,它是相对于什么令人印象深刻。许多人将 V3 与 GPT-4o 进行比较,并强调 V3 的性能超过了 4o。这是事实,但 GPT-4o 是在 2024 年 5 月发布的。AI 发展迅速,2024 年 5 月仿佛已是很久以前。此外,我们并不惊讶在一段时间后,用更少的计算量就能实现相当或更强的能力。推理成本的崩溃是 AI 改进的一个标志。

来源:SemiAnalysis
来源:SemiAnalysis

一个例子是可以在笔记本电脑上运行的小型模型,其性能与需要超级计算机训练且推理时需要多个 GPU 的 GPT-3 相当。换句话说,算法改进使得用更少的计算量就能训练和推理出具有相同能力的模型,这种模式不断重复出现。这一次,世界之所以关注,是因为它来自中国的实验室。但小型模型性能提升并非新现象。

来源:SemiAnalysis, Artificialanalysis.ai, Anakin.ai, a16z
来源:SemiAnalysis, Artificialanalysis.ai, Anakin.ai, a16z

到目前为止,我们见证的这种模式是,AI 实验室在绝对美元支出上花费更多,以获得更多的智能回报。据估计,算法进步每年可达 4 倍,这意味着每过一年,实现相同能力所需的计算量减少 4 倍。Anthropic 的首席执行官达里奥认为,算法进步甚至更快,可以带来 10 倍的提升。就 GPT-3 质量的推理定价而言,成本已经下降了 1200 倍。

在研究 GPT-4 的成本时,我们看到了类似的成本下降趋势,尽管这只是曲线的早期阶段。尽管随着时间推移,成本差异的减少可以通过不再保持能力不变来解释(如上图所示)。在这种情况下,我们看到算法改进和优化带来了 10 倍的成本下降和能力提升。

来源:SemiAnalysis, OpenAI, Together.ai
来源:SemiAnalysis, OpenAI, Together.ai

需要明确的是,DeepSeek 独特之处在于他们率先达到了这种成本和能力水平。他们率先发布了开放权重,但此前的 Mistral 和 Llama 模型也曾这样做过。DeepSeek 达到了这种成本水平,但不要惊讶,到今年年底,成本可能会再下降 5 倍。

R1 的性能是否与 o1 相当?

另一方面,R1 能够实现与 o1 相当的结果,而 o1 是在 9 月才刚刚宣布的。DeepSeek 是如何如此迅速地迎头赶上的呢?

答案在于推理是一个新的范式,其迭代速度更快,且更容易实现有意义的改进,即使是较小的计算量也能带来显著收益,这比之前的范式要好得多。正如我们在规模定律报告中所概述的那样,之前的范式依赖于预训练,而这变得越来越昂贵,也越来越难以实现稳健的收益。

新的范式专注于通过合成数据生成和在现有模型上进行后训练的强化学习(RL)来实现推理能力,这使得以更低的价格实现更快的收益成为可能。较低的入门门槛加上易于优化的特点,使得 DeepSeek 能够比以往更快地复制 o1 的方法。随着参与者在这一新范式中学会如何更大规模地扩展,我们预计实现能力匹配的时间差距将会增加。

需要注意的是,R1 的论文中没有提到所使用的计算量。这并非偶然——生成 R1 后训练所需的合成数据需要大量的计算。这还没有提到强化学习(RL)。R1 是一个非常好的模型,我们并不否认这一点,如此迅速地达到推理能力的前沿是客观上令人印象深刻的。DeepSeek 是一家中国公司,能够在资源较少的情况下迎头赶上,这更令人印象深刻。

但 R1 提到的一些基准测试结果也具有误导性。将 R1 与 o1 进行比较是复杂的,因为 R1 特意没有提到那些他们不领先的基准测试。而且,尽管 R1 在推理性能上与 o1 相当,但在许多指标上并非绝对领先,很多时候甚至不如 o1。

而且我们还没有提到 o3。o3 的能力远远超过 R1 或 o1。事实上,OpenAI 最近分享了 o3 的结果,其基准测试的扩展是垂直的。 “深度学习已经撞上了墙”,但这是另一种类型的墙。

来源:AI 行动峰会
来源:AI 行动峰会

Google 的推理模型与 R1 一样出色

尽管 R1 引发了巨大的热潮,但一家市值 2.5 万亿美元的美国公司却在一个月前推出了一款更便宜的推理模型:Google 的 Gemini Flash 2.0 Thinking。该模型已经可以使用,并且通过 API 提供的模型上下文长度要大得多,但价格却比 R1 便宜得多。

在报告的基准测试中,Flash 2.0 Thinking 的表现优于 R1,尽管基准测试并不能说明全部问题。谷歌仅发布了 3 个基准测试,因此这只是部分图景。尽管如此,我们认为谷歌的模型非常稳健,在许多方面都能与 R1 相媲美。

来源:SemiAnalysis
来源:SemiAnalysis

需要明确的是,这些情况丝毫没有削弱 DeepSeek 的卓越成就。DeepSeek 作为一个快速行动、资金雄厚、聪明且专注的初创公司,这就是它能够击败像 Meta 这样的巨头并率先推出推理模型的原因,这是值得称赞的。

技术成就

DeepSeek 已经开源了代码,并解锁了领先实验室尚未能够实现的创新。我们预计,DeepSeek 发布的任何改进都将被西方实验室几乎立即复制。

这些改进是什么?大多数架构成就都与 V3 特别相关,V3 也是 R1 的基础模型。让我们详细说明这些创新。

训练(预训练和后训练)

DeepSeek V3 使用了前所未有的大规模多标记预测(MTP),这些是额外的注意力模块,用于预测接下来的几个标记,而不是单一标记。这在训练过程中提高了模型性能,并且可以在推理时丢弃。这是一个算法创新的例子,它实现了更低计算量下的性能提升。

此外,还有一些额外的考虑,比如在训练中使用 FP8 精度,但美国领先的实验室已经进行了 FP8 训练。

DeepSeek V3 也是一个混合专家模型,这是一个由许多较小的专家模型组成的大模型,这些专家模型各自专注于不同的事情,这是一种新兴行为。混合专家模型(MoE)面临的一个挑战是如何确定哪个标记应该分配给哪个子模型或“专家”。DeepSeek 实现了一个“门控网络”,以一种平衡的方式将标记路由到正确的专家,而不会影响模型性能。这意味着路由非常高效,相对于模型的整体大小,每个标记在训练过程中只改变少量参数。这增加了训练效率,并降低了推理成本。

尽管有人担心混合专家模型(MoE)的效率提升可能会减少投资,但达里奥指出,更强大的 AI 模型带来的经济效益是如此巨大,以至于任何节省的成本都会迅速重新投入到构建更大的模型中。与其减少整体投资,不如说 MoE 提升的效率将加速 AI 模型的扩展努力。这些公司专注于将模型扩展到更多的计算资源,并在算法上提高效率。

就 R1 而言,它从拥有一个强大的基础模型(V3)中受益匪浅。这在一定程度上是因为强化学习(RL)。强化学习的两个重点是:格式化(以确保输出连贯)和有用性与无害性(以确保模型有用)。推理能力是在模型对合成数据集进行微调时出现的。正如我们在规模定律文章中提到的,这与 o1 的情况相同。需要注意的是,R1 的论文中没有提到计算量,这是因为提到使用了多少计算量会显示出他们拥有的 GPU 数量比他们声称的要多。这种规模的强化学习需要大量的计算,尤其是用于生成合成数据。

此外,DeepSeek 使用的一部分数据似乎是来自 OpenAI 模型的数据,我们认为这将对从输出中提取数据的政策产生影响。这已经在服务条款中被禁止,但未来可能会出现一种新的趋势,即通过“了解你的客户”(KYC)来阻止数据提取。

说到数据提取,R1 论文中或许最有趣的部分是能够通过使用推理模型的输出对较小的非推理模型进行微调,从而将其转变为推理模型。数据集策划总共包含了 80 万个样本,现在任何人都可以使用 R1 的 CoT 输出来创建自己的数据集,并借助这些输出构建推理模型。我们可能会看到更多的小型模型展示推理能力,从而提升小型模型的性能。

多头潜在注意力(MLA)

MLA 是 DeepSeek 在推理价格方面大幅降低的关键创新。原因是 MLA 将每条查询所需的 KV 缓存减少了约 93.3%,相较于标准注意力机制。KV 缓存是 Transformer 模型中的一种内存机制,用于存储代表对话上下文的数据,减少不必要的计算。

正如我们在规模定律文章中讨论的那样,随着对话上下文的增长,KV 缓存也会增加,并且会带来相当大的内存限制。大幅减少每条查询所需的 KV 缓存量,可以减少每次查询所需的硬件数量,从而降低成本。然而,我们认为 DeepSeek 是以成本价提供推理服务以获取市场份额,并没有真正赚钱。谷歌的 Gemini Flash 2 思考模型仍然更便宜,而且谷歌不太可能以成本价提供该服务。MLA 特别吸引了许多美国领先实验室的目光。MLA 于 2024 年 5 月发布的 DeepSeek V2 中推出。由于 H20 的内存带宽和容量比 H100 更高,DeepSeek 也在推理工作负载方面获得了更多效率。他们还宣布了与华为的合作伙伴关系,但到目前为止,与 Ascend 计算相关的进展还很少。

本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系外文翻译前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • DeepSeek 席卷全球
  • DeepSeek 与幻方量化
  • DeepSeek 的成本和性能
  • 训练成本
  • 缩小差距——V3 的性能
  • R1 的性能是否与 o1 相当?
  • Google 的推理模型与 R1 一样出色
  • 技术成就
    • 训练(预训练和后训练)
    • 多头潜在注意力(MLA)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档