Datawhale干货
最新:红杉资本,全球著名风险投资公司
生成式 AI 的发展:从 “快思考” 到 “慢思考”,开启自主应用的新篇章。
在生成式 AI 革命的两年里,研究方向正从 “快思考”(快速预训练响应)向 “慢思考”(推理时的深度思考)转变。这种转变是因为市场基础层已趋于稳定,像微软 / OpenAI、AWS/Anthropic 等巨头形成了竞争格局。
随着大模型市场结构趋于稳定,下一个重点领域正在浮现:焦点正转向推理层的开发和扩展,“系统 2” 思维开始主导。
推理层旨在赋予 AI 系统在推理时进行深度思考、问题解决和认知操作的能力,而不仅仅是快速的模式匹配。它能让 AI 系统像人一样深度思考和解决问题。
OpenAI 的 o1 模型:推理能力的突破
2024 年最重要的模型更新非 OpenAI 的 o1 莫属(之前称为 Q*,也被称为草莓,Strawberry)。它不仅巩固了 OpenAI 的领先地位,更是首个具备真正通用推理能力的模型,o1 通过“推理时计算”实现了这一点。
通常预训练模型是在海量数据上进行下一个词元的预测,它们依赖的是“训练时计算”。与传统预训练模型依赖 “训练时计算” 不同,o1 模型则是主动的推理,在回答之前先 “停下来思考”。
那么,当 o1 停下来思考时,它在做什么?
2016 年的 AlphaGo 与李世石的对决是深度学习的重要事件——这是世界看到 AI 不仅仅只是在模仿模式的时刻,它在思考。
AlphaGo 不同于依赖预训练快速反应的模型,它从围棋数据库学习并自我对弈进化,在推理时模拟评估场景选择最佳方案。随着推理时间的增加,AlphaGo 的表现越来越好——直到它超越了最优秀的人类。
而大语言模型复制 AlphaGo 的难点在于构建价值函数,即如何为模型的回答打分。o1 模型的关键思想是通过模型生成的思维链进行强化学习,这和人类的思维和推理方式比较相似。
“强化学习很重要,它正为 AI 开启全新的推理能力层。”
Datawhale 强化学习开源教程:https://github.com/datawhalechina/easy-rl
AI 思维模式的转变:从系统 1 到系统 2 及新扩展法则
AI 正从简单的预训练反应(“系统 1”)向更深层次的更加深思熟虑的推理(“系统 2”)转变。
系统 1 依赖模式模仿,不论是 AlphaGo 通过围棋的数百万步训练出的技能还是大语言模型通过大量的互联网文本进行预训练所训练出的语言能力。但是,模仿,尽管强大,却不是真正的推理。
面对复杂新问题,系统 2 的深度推理至关重要。它要求 AI 探索多种可能,评估结果并基于逻辑推理决策,以应对复杂问题。
从 o1 论文得到的最重要见解是,出现了一种新的扩展法则。
预训练大型语言模型遵循投入的计算和数据越多性能越好的法则,而 o1 论文开启了给予推理时间(或“测试时间”)的计算越多推理能力越强的新方式。
这种转变将推动从预训练集群向推理云环境的转变,为 AI 发展带来新机遇。
随着 OpenAI、Anthropic、谷歌(Google)和 Meta 不断扩展推理层,开发出更强大的推理机器,会发生什么?我们会迎来一个主导一切的“超级模型”吗?
应用层公司已从基础模型上的简单界面发展为构建复杂认知架构。包括多个基础模型、路由机制、数据库用于 RAG,以及合规和模仿人类思考的逻辑。
投资方向的分析:各层面的机遇与挑战
作为全球著名风投公司,红杉资本更关注哪里?资金被投入到哪里?
未来展望
在生成式 AI 的下一个阶段,推理研发会对应用层产生重大影响。当前很多认知架构采用 “解锁” 技术,而未来这些能力会更深地融入模型,代理应用会更强大。
在研究实验室,推理和推断时间计算仍是重要主题,新的拓展法则开启了下一场竞争。
但收集特定领域真实数据和编码认知架构仍有难度,而最后一公里应用提供商在解决复杂现实问题上可能有优势。
考虑到未来,多智能体系统,如工厂的机器人,可能会开始普及,成为建模推理和社会学习过程的方式。
大家都在期待生成式 AI 的「第 37 步」,那一刻——就像 AlphaGo 在与李世石的第二场比赛时一样——一个通用人工智能系统以超出人类的方式,展现出类似独立思考的能力。
这意味这我们已经模拟了感知、推理和行动过程,能让 AI 以新颖有用的方式进行探索,这可能就是 AGI 吧。
等到那个时候,那一步棋将不是偶然事件,而只是技术的下一个阶段。
参考链接: https://www.sequoiacap.com/article/generative-ais-act-o1/