摘要 | R1-Zero is more important than R1(R1-Zero 比 R1 更重要)
上周,DeepSeek发布了他们的新 R1-Zero 和 R1「推理」系统,该系统在 ARC-AGI-1 上的表现与 OpenAI 的 o1 系统相当。R1-Zero、R1 和 o1(低计算量)的得分都在 15%-20% 左右——与经过数年纯 LLM 扩大规模的 GPT-4o 的 5% 相比,这是一个巨大的进步。根据本周美国市场的反应,公众开始理解纯 LLM 扩大规模的局限性。然而,公众对于即将到来的推理需求仍然知之甚少。
2024 年 12 月,OpenAI 宣布了一个新的突破性 o3 系统,我们已经对其进行了验证。该系统在低计算模式下得分为 76%,在高计算模式下得分为 88%。o3 系统展示了计算机首次实际、普遍地适应全新未见问题的能力。
尽管这是一个巨大的技术新闻,但 o3 在 ARC-AGI-1 上的胜利几乎未被主流媒体报道。
这是 AI 领域和计算机科学的一个极其重要的时刻,这些系统值得研究。但由于 o1/o3 的封闭性,我们不得不依靠猜测。多亏了 ARC-AGI-1 和现在(几乎)开源的DeepSeek R1-Zero 和 R1,我们可以增加我们的理解。特别是,R1-Zero 比 R1 更重要。
“几乎”是因为 DeepSeek 没有发布从头开始生成模型权重的可复现方法。
在我们的 o1 和 o3 分析中,我们推测了这些推理系统的工作原理。关键思想如下:
1. 为问题领域生成思维链(CoT)。
2. 使用人类专家(“监督微调”或 SFT)和自动化机器(“强化学习”或 RL)的组合来标记中间 CoT 步骤。
3. 使用(2)来训练基础模型。
4. 在测试时,从过程模型中迭代推理。
以下列出了用于迭代采样的技术以及 ARC-AGI-1 的得分:
系统 | ARC-AGI-1 | 方法 | 平均 Token 数 | 平均成本 |
---|---|---|---|---|
r1-zero | 14% | 无 SFT / 无搜索 | 11K | $.11 |
r1 | 15.8% | SFT / 无搜索 | 6K | $.06 |
o1(低) | 20.5% | SFT / 无搜索 | 7K | $.43 |
o1(中) | 31% | SFT / 无搜索 | 13K | $.79 |
o1(高) | 35% | SFT / 无搜索 | 22K | $1.31 |
o3(低) | 75.7% | SFT / 搜索 + 采样 | 335K | $20 |
o3(高) | 87.5% | SFT / 搜索 + 采样 | 57M | $3.4K |
注:显示的是 ARC-AGI-1 半私有得分。
随着 DeepSeek 发布新的研究成果,我们可以更好地支持我们的推测。关键的见解是,LLM 推理系统在适应新颖性(以及可靠性)方面的能力是沿着三个维度实现的:
1. 在 CoT 过程模型训练中添加人类标签,即 SFT。
2. 使用 CoT 搜索而不是线性推理(每步并行 CoT 推理)。
3. 整个 CoT 采样(并行轨迹推理)。
项目(1)受到人类数据生成的限制,并限制了这些推理系统受益最多的领域。例如,MMLU 专业法律类别的得分远低于数学和逻辑类别的得分。
项目(2)和(3)受到效率的限制。o1 和 o3 在 ARC-AGI-1 上的基准测试准确率随着在测试时花费更多的推理计算量而呈对数增长,而不同的计算量分配方式则调整了曲线的 x 轴。
在我看来,DeepSeek 最有趣的事情是单独发布了 R1-Zero。R1-Zero 是一个不使用 SFT(项目 1)的模型。相反,它完全依赖于强化学习。
R1-Zero 和 R1 在 ARC-AGI-1 上的得分高度一致,分别为 14% 和 15%。DeepSeek 自己报告的基准测试得分也显示 R1-Zero 和 R1 之间存在强烈的一致性,例如在 2024 年数学 AIME 上的得分分别为 71% 和 76%(从基础 DeepSeek V3 的约 40% 上升)。
在论文中,R1-Zero 的作者表示,“DeepSeek-R1-Zero 面临的挑战包括可读性差和语言混合”,这一观点也得到了在线上的证实。然而,在我们的测试中,我们几乎没有发现任何证据表明 R1-Zero 在 ARC-AGI-1 上表现不连贯,这与该系统进行强化学习的数学和编码领域相似。
综合这些发现,可以得出以下结论:
1. 在具有强大验证的领域中,SFT(例如人类专家标记)对于准确且清晰的 CoT 推理并非必要。
2. R1-Zero 的训练过程能够通过强化学习优化在 Token 空间中创建自己的内部领域特定语言(“DSL”)。
3. SFT 对于增加 CoT 推理领域的通用性是必要的。
这在直觉上是有意义的,因为语言本身实际上是一种推理 DSL。相同的“词汇”可以在一个领域中学习,并在另一个领域中应用,就像一个程序一样。纯粹的强化学习方法目前还无法发现一个广泛的共享词汇表,我预计这将成为未来研究的重点。
最终,R1-Zero 展示了一种潜在的无人类瓶颈的扩展模式的原型——甚至在训练数据获取本身也是如此。
DeepSeek 几乎肯定已经将目标对准了 OpenAI 的 o3 系统。重要的是要观察 SFT 是否会成为添加 CoT 搜索和采样的必要条件,或者是否可以存在一个假设的“R2-Zero”,沿着相同的对数准确率与推理规模曲线发展。根据 R1-Zero 的结果,我相信在假设的扩展版本中,SFT 不会是超越 ARC-AGI-1 的必要条件。
从经济角度来看,AI 正在发生两个重大转变:
1. 现在你可以花费更多钱来获得更高的准确率和可靠性。
2. 训练成本正在转向推理成本。
这两个转变都将推动对推理的巨大需求,而且都不会减少对计算的需求。事实上,它们会增加对计算的需求。
AI 推理系统所承诺的回报远不止在基准测试上获得更高的准确率。阻碍更多 AI 自动化使用(例如推理需求)的首要问题是可靠性。我与 Zapier 的数百名客户交谈过,他们试图在业务中部署 AI 代理,反馈意见非常一致:“我还不信任它们,因为它们不可靠地工作。”
我之前曾论证过,朝着 ARC-AGI(人工通用智能)的进步将带来更高的可靠性。LLM(大型语言模型)代理面临的挑战是,它们需要强大的本地领域引导才能可靠地工作。更强的泛化能力需要能够适应未见过的情况。我们现在开始看到证据表明这种观点是正确的。因此,许多公司现在开始推出代理(例如 Anthropic、OpenAI、Apple 等)也就不足为奇了。
由于可靠性需求,代理将推动近期对推理的巨大需求。更广泛地说,开发者可以选择投入更多的计算资源来增加用户对系统的信任。更高的可靠性并不意味着 100% 的准确率——但你会期望系统更一致地表现出不准确。这是可以接受的,因为用户和开发者现在可以通过提示更自信地引导系统行为,即使在准确率较低的情况下。
以前对计算机来说不可能解决的问题,现在有了“价格标签”。随着效率的提升,这些价格将会下降。
另一个重大转变发生在 LLM 系统预训练数据的来源上。以前,大多数数据要么是购买的,要么是从网络抓取的,要么是从现有的 LLM 中合成生成的(例如通过蒸馏或增强)。
这些推理系统提供了一种新的选择,即生成“真实”数据,而不是“合成”数据。AI 行业用“合成”一词来标识低质量的数据,这些数据通常通过 LLM 循环使用,以增加训练数据的总量,但收益递减。
但现在有了推理系统和验证器,我们可以创建全新的合法数据用于训练。这可以在离线状态下完成,开发者为此付费创建数据,也可以在推理时完成,最终用户为此付费!
这是一个令人着迷的经济转变,它表明,对于拥有最多付费客户的 AI 系统开发者来说,可能会出现一种权力集中失控的局面。这些客户正在为创建新的高质量数据买单……而这些数据又会改善模型……使模型变得更好,更受用户青睐……你明白我的意思了。
如果我们能够突破人类专家 CoT(思维链)的限制,并创建一个极其高效的系统,通过搜索/合成和验证来创建新数据,那么我们应该会看到大量的计算资源涌入这些推理系统,因为它们通过投入资金和原始数据就能变得更好。最终,这种类型的 AI 训练将完全取代基于人类生成数据的预训练。
随着对推理需求的增加变得清晰,我们将继续看到市场的调整。AI 系统的效率只会推动更多的使用,这不仅是因为杰文斯悖论(效率提高导致使用增加),还因为随着效率的提高,新的训练模式得以解锁。
由于 R1 是开放且可复现的,更多的人和团队将把 CoT(思维链)和搜索推向极限。这将更快地告诉我们真正的前沿在哪里,并将推动一波创新浪潮,增加快速实现 AGI 的可能性。
R1 的开放对世界来说是一件好事。DeepSeek 极大地推动了科学的前沿发展。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。