首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >DeepMind 发布60页报告:从AGI到ASI的四条路,以及六堵墙

DeepMind 发布60页报告:从AGI到ASI的四条路,以及六堵墙

作者头像
用户11563501
发布2026-06-23 14:30:22
发布2026-06-23 14:30:22
80
举报

DeepMind 联合创始人 Shane Legg、Marcus Hutter 等人在一篇新论文里干了一件挺实在的事:把从人类级通用人工智能(AGI)到超级人工智能(ASI)可能怎么走、可能卡在哪,系统地捋了一遍。

论文标题很直接——《From AGI to ASI》,60页,发在 arXiv 上。作者阵容基本是 DeepMind 做 AGI 理论的核心班底,包括 Tim Genewein、Matija Franklin、Alexander Lerchner、Laurent Orseau、Samuel Albanie、Adam Bales、Cole Wyeth、Stephanie Chan、Iason Gabriel、Joel Z. Leibo、Allan Dafoe、Marcus Hutter、Thore Graepel、Shane Legg 等十几位研究员。

论文开篇引用了图灵的话:"我们只能看到前方不远的地方,但那里已经有足够多的事情需要去做。"

三个核心概念

论文先对三个概念做了界定,因为后面所有讨论都基于此。

AGI(人类级通用人工智能):在大多数认知任务上达到普通人水平。论文用的是 Morris 等人定义的"胜任型 AGI"——中位人类水平。注意,当前很多模型已经在某些领域远超人类(比如 AlphaFold 在蛋白质结构预测、AlphaGo 在围棋),但不够"通用",所以不算。论文特别指出,第一个 AGI 很可能已经在很多任务上超人类了,但只要不够通用,就不算。

ASI(通用超级智能):在几乎所有人类关心的领域,能力超过数万名顶级专家组成的团队花十年协同工作能达到的水平。不是单领域超人类,而是全面碾压。论文把门槛设得很高——一个 ASI 可能本身就是由数百万个实例组成的集体。论文举了一个具体的参照系:ASI 至少要能可靠地超越一个由数万名协调良好的专家级人类组成的团队,用 2010 年的技术和文化工具,花十年时间解决同一个问题的水平——大致相当于整个专门研究领域或大型企业的规模。论文还特意补充了一个备注:如果人类先造出 ASI 再让它去解决问题,那就不算——ASI 的定义是"不借助 ASI 本身"就能超越人类集体。

UAI(通用人工智能/AIXI):理论上的智能天花板,由 Legg-Hutter 分数定义,是所有可计算环境上的平均表现。它不可计算,只能从下方逼近。论文把它比作热力学——理论框架很清晰,但直接从中推导出实用的引擎设计并不容易。AIXI 在理论上是最优的:它在所有可计算环境上的期望累积奖励最高,没有其他智能体能在同样的先验下做得更好。但论文也承认,AIXI 框架和实际深度学习之间的鸿沟仍然巨大,实用的 ASI 可能在理论根基完全统一之前就被造出来了。

数字智能的先天优势

论文花了不少篇幅讨论数字智能相比生物智能的独特优势,而且这些优势会随着算力增长而放大。论文列了六条:

I/O速度:今天的 LLM 几秒就能读完几本书。如果配上合适的传感器和执行器,意味着越来越高带宽的交互。

内部处理速度:推理和思考可以靠更多算力加速——要么加快串行计算(深度),要么增加并行计算(广度)。即使存在边际递减效应,这仍然提供了远超生物智能的扩展优势。

工作记忆:已经能记住互联网的大部分内容,远没到天花板。工作记忆大小和读写带宽可以远超人类。

基质无关:AI 可以在不同硬件间迁移,甚至运行时切换。这意味着可以升级到更强大或更节能的计算机。更细粒度地说,只有部分 AI 系统可能需要迁移,从而可以在分布式异构硬件上运行。

无损复制:不仅能复制代码("DNA"),还能复制记忆状态("人生经历")。这意味着可以任意备份、恢复、生成、暂停和恢复实例。

高带宽经验共享:数字输入输出流可以被存储、共享和任意重放用于训练。同类 AI 之间甚至可以直接共享原始学习信号,比如平均梯度更新。

论文也提到了一个反直觉的劣势:人类因为通信带宽低,被迫形成深层的内部模型和抽象层次来预测、规划和有效沟通;而 AI 的高带宽 I/O 可能让它不需要这些粗粒度的抽象。N. Lawrence 把这个叫做"具身因子"——人类高,AI 低。不过论文也指出,至少在某种程度上,用人类数据训练的大模型似乎能理解和推理人类的抽象概念,但这是否足以克服这个问题还不清楚。

基于这些优势,论文推测了 ASI 社会的可能形态:一种可能是类似《星际迷航》中 Borg 集体的超集体——大量同质个体持续共享知识,通过极端内部协作组织;另一种可能是通过市场竞争动态自组织的超多样化专家系统;还有 Hutter 提出的纯计算虚拟世界——里面的"居民"通过收集算力资源来支持更多实例和更丰富的模拟,"死亡"成本几乎为零(因为可以完美恢复)。当接近技术奇点时,居民可能观察到的唯一变化是物理世界相对于他们的世界在急剧变慢。

ASI 不是全知全能的

论文专门列了一张表,说明 ASI 也受限于:

基础物理:光速限制信息传播速度;兰道尔原理限制计算所需能量(擦除信息需要耗能);布雷默曼极限限制最大计算速度;贝肯斯坦界限限制有限空间和有限能量内能包含的最大信息量。

实时性:物理世界按真实时间运行。无法以足够精度模拟的实验(如天气、生物有机体、经济或社会等复杂动力系统)受此限制。

物理操控:并非所有逻辑上可能的物质配置都能在有限空间/有限能量内物理实现。即使可以实现,操控物质也不是任意快的——造东西需要时间,而且消耗能源和其他物理资源。

认知局限:知识不完备和测量观测的有限精度,意味着可预测性和可控性的根本限制。

计算复杂性:P vs NP vs PSPACE 等。实际可计算性的限制同样适用于高级 AI 系统。不过这些通常是"最坏情况"的界限,实践中近似解往往远低于最坏情况的计算需求。

逻辑:哥德尔不完备定理和停机问题。理论可计算性的限制,以及什么能被客观回答或知道的限制。

论文特别指出,这些限制并不能轻易用来预测 ASI 是否具备某些具体能力——比如"治愈衰老"、"用纳米机器人任意重塑物质"、"上传人脑"、"建戴森球"、"恢复工业革命前的气候和生物多样性"。

AIXI 框架:智能的理论上限

论文用一整章来介绍 AIXI 框架,这是目前我们对机器智能极限最好的理论理解。

AIXI 考虑的是一个智能体在未知环境中通过发出行动、接收环境反馈(部分或完整的状态信息以及即时奖励信号)来顺序交互。它要解决三个根本问题:

不确定性下的行动:真实的环境动态和奖励函数对智能体来说是未知的。AIXI 把所有可计算的环境动态和奖励函数都作为关于世界的假设。随着观测增多,这些假设的概率以贝叶斯方式更新。AIXI 使用这个贝叶斯后验混合作为"世界模型"来进行规划。

交互式决策(信用分配问题):在短期反馈面前优化长期结果。有时短期次优的行动可以带来更高的长期累积奖励。AIXI 通过通用强化学习来解决这个问题。

探索-利用权衡:最优的顺序决策本质上需要知道"真实"动态,但纯粹的探索行动不太可能贡献最多的累积奖励。过度探索和探索不足都可能次优。在 AIXI 中,这个权衡是自动解决的——最初 AIXI 对真实奖励函数有很高的不确定性,那些可能减少这种不确定性的行动,在长期来看有助于获得更高的期望奖励,因此探索行动被隐含地视为高奖励行动。一旦 AIXI 对环境有了足够的确定性,它自然就会停止探索。

论文指出,AIXI 的最优性保证是 Legg-Hutter 分数的基础——这是对机器智能的形式化和量化定义。但 AIXI 和 Legg-Hutter 分数都不可计算。不过,可以设计从下方逼近 AIXI 的算法,这些算法保证随着更多算力和运行时间而改进。

有趣的是,论文认为现代预训练范式(在大规模数据上通过 log-loss 最小化训练大规模序列预测器)可以看作是对通用压缩的资源受限近似。在这个视角下,加上显式的规划和决策框架(包括测试时计算用于搜索和规划),当前范式有可能被推到 ASI 领域而没有根本性的理论障碍。但这些论证既不完整也不确定。

四条从 AGI 到 ASI 的路径

第一条:持续规模化

这是目前唯一有历史数据可外推的路径。论文拆解了有效算力的三个增长因子:

硬件改进(摩尔定律):每年约 1.5 倍,持续了六十年。

投资增长:过去十年每年约 2.5 倍。两者叠加,最大 ML 训练运行的算力消耗每年增长约 4 倍。

算法效率提升:每年约 3 倍——从 AlexNet(2012)到现在,达到同样性能所需的 FLOPs 以约两倍于摩尔定律的速度下降。Ho 等人的估计甚至高达每年 6 倍。论文强调,这些改进主要来自大量增量变化的累积,而不是少数像 Transformer 这样的突破。

三者复合,Epoch 的保守估计是每年约 10 倍。注意这是保守估计,实际可能更高。论文引用了 Eth & Davidson 以及 MacAskill & Moorhouse 的讨论,他们的估计更高。

论文算了一笔具体的账:假设 AGI 实现后基础模型能力停滞,但有效算力继续每年 10 倍增长。一开始只能跑 1000 个 AGI 实例,一年后 1 万个,五年后就是 1 亿个;或者 100 万个跑得快 100 倍的实例。量变会不会引发质变?这是核心问题。

论文还引用了"苦涩的教训"来支持规模化的论点:如果搜索是智能的核心(学习可以概念化为在模型或假设空间中的搜索,规划是对假设未来的高效搜索),那么更多算力意味着更多搜索,从而更多智能。但关键在于,简单地给暴力搜索提供更多算力在几乎所有非玩具领域都会失败,包括国际象棋。能力提升和突破是由搜索效率的改进驱动的——更好的先验或归纳偏置、启发式方法和部分/替代模型、以及参数化价值估计器等捷径。这使得算力和智能之间的实际关系不那么直接。

论文还指出,Chinchilla 模型比更大的欠训练模型表现更好,说明 ASI 的转变可能不仅由更大的模型驱动,还需要按比例配合大量高质量数据和算力资源。

近在眼前的摩擦:高质量文本训练数据预计在本十年内耗尽。虽然可以通过合成数据、仿真环境、搜索蒸馏来缓解,但当前模型用合成数据训练有退化风险。AGI 级别的模型能否克服这个问题,还不确定。稀疏 MoE 等架构创新可以在可控的能耗和算力下达到万亿参数规模,为规模化驱动的进步争取了更多时间。

论文还讨论了一个微妙的问题:一些看似"涌现"的能力可能只是度量的人为产物,而非真正的智能跃迁。Schaeffer 等人的分析表明,至少一些感知到的非连续性可能是度量假象。

论文提出了一个尖锐的问题:规模化的核心问题不是"够不够",而是"能不能持续足够久"——经济投入、技术资源和自然资源都需要跨越多个数量级的增长。

第二条:算法范式转变

当前 AI 范式是:在大量人类生成数据上对大型 Transformer 进行监督预训练(通过预测误差最小化),然后经过多个微调阶段(指令微调、RL 微调),得到冻结参数的模型。在测试时或部署时,通过测试时扩展(思维链推理、"思考"、对采样生成进行更结构化搜索等)、检索增强上下文、工具使用来进一步提升性能。

论文区分了"演进"和"转变":

演进包括无限上下文机制、循环机制、工作记忆、持续学习、训练模型在交互环境中做稳健决策——这些是当前社区正在拼命补的短板,也是达到 AGI 的必要条件。论文提到,测试时扩展表明能力可以在一定程度上与模型规模正交扩展,使智能与静态训练约束脱钩。AGI 可以利用工具增强规划来分解复杂问题,调用专门的代码解释器或仿真环境来外包需要超人类精度的子任务。

论文还讨论了几个具体的研究方向:通过大规模检索系统实现几乎无限的、可更新的工作记忆;采用 Mamba 和 S4 等线性时间序列架构来消除 Transformer 注意力的二次瓶颈;集成稳健的内部世界模型,使系统能够模拟未来、规划长视野、泛化到新情况。

转变则是更剧烈的变化:完全新颖的架构或优化过程,比如脉冲神经网络和神经形态硬件、模拟计算、基于 RL 的预训练、显式世界模型表示等。它们可能克服当前架构的一些基本复杂性理论限制(类似 Neural Turing Machine 的尝试)。

论文坦诚:真正的范式转变几乎无法预测,但不能因此忽视这条路径。推进对超级智能及其极限的基本(即与范式无关的)理解,可以显著减少这条路径的不确定性。

第三条:递归自我改进

AI 加速 AI 研发,产出更好的 AI,再进一步加速研发。论文把这种机制拆成四种,并类比人类进化:

基因进化(基因型 RSI):产生智能体的指令和蓝图。对人类来说是基因代码,对 AI 来说是代码(架构、优化器、框架等)和计算硬件描述(蓝图)。人类基因进化很慢,但 AI 如果能够精准地自我修改"DNA",速度可以非常快。

文化进化(模因型 RSI):人类基因进化在非常慢的时间尺度上进行,但过去 5 万年来,文化进化是提升人类智能和能力的更重要因素。文化进化作用于知识产物(存储的知识、教科书、教育、艺术、工具制造和使用知识等)。对 AI 来说,对应的是数据驱动的自我提升——自动数据集收集和整理、合成数据生成、测试时搜索的递归蒸馏(AlphaZero 风格)、工具形成和使用等。人类文化进化可以看作一种递归自我改进,但 AI 可能达到更高的文化进化速率,因为知识产物的生产、共享和消费速度完全不同。

合作进化(社会型 RSI):人类通过分工(劳动分工)大幅提升了集体能力和生产力。专业化提高了效率,释放了资源,可以用同样的成本维持更大的集体,进而进一步专业化或提高整体生产力。对 AI 集体来说,分工是否同样重要还不清楚——毕竟今天的 foundation model 通过提示、框架或微调就能快速"专业化"。由于当前范式是训练最大化的通用基础模型,我们在前沿模型智能水平上几乎没有关于专业化智能体集体的经验数据。

论文指出,弱形式的递归改进其实已经在发生:神经架构搜索、自动超参数调优、AI 辅助芯片设计、自动课程学习、用(学习的)世界模型进行仿真。FunSearch 和 AlphaEvolve 已经展示了 LLM 引导的程序搜索能发现超越训练分布的数学构造和算法。

理论上的障碍也被研究过:Schmidhuber 的 Gödel 机器形式化了可证明最优的自我修改,但需要完全的自我知识,并受限于哥德尔不完备定理。Christiano 的迭代放大框架提供了一种更实用的能力引导方法,同时保持对齐——通过递归分解任务和放大较弱模型的能力。验证程序合成为智能体提供了一种安全修补自己关键子系统的机制。

但递归改进也可能很快熄火,或者维持循环所需的资源会爆炸式增长。即使纯数字研究员跑得比人快,也得等实验出结果——尤其是涉及物理世界的实验。任何需要物理操控的发展(比如制造更好的 AI 芯片)都不能任意加速,这会抑制自我改进的动力。

第四条:多智能体协同

超级智能从大量 AGI 智能体的集体协作中涌现。类似一个自动化企业或 AI 经济体——单个智能体可能只是人类水平,但数百万个协同工作的智能体加在一起,能力可能远超任何个体。

论文提到,这种协同可能是有意编排的,也可能是自组织涌现的,受进化压力和市场竞争动态驱动。多智能体系统可以形成复杂的自适应系统,其中集体智能超越了任何单个成员。

论文承认,多智能体动态中的涌现现象目前理解还很有限。复杂动力系统中的涌现,如多智能体动态,是理解最不足的领域之一。

四条路径不互斥,很可能同时发生,只是速度不同——比如如果规模化碰壁,范式转变的探索就会更激烈。

六种可能的阻碍

论文列出了可能减缓甚至终止发展的因素,并指出确定这些摩擦的影响程度是当前开放的研究问题。

1. 数据墙:高质量文本训练数据预计在本十年内耗尽。虽然可以通过合成数据、仿真环境、搜索蒸馏来缓解,但当前模型用合成数据训练有退化风险。AGI 级别的模型能否通过高保真仿真、搜索增强蒸馏和交互环境生成高质量数据来突破这个瓶颈,是开放问题。

2. 资源限制:能源、芯片、稀土、基础设施无法无限扩张。论文特别强调——实现 AGI 和 ASI 不只是软件问题,最终取决于能源生产和计算基础设施能不能跟上。当前对吉瓦级 AI 基础设施的投资确实为持续增长提供了可信度,但长期来看资源约束不可避免。

3. 当前范式天花板:现有方法可能连 AGI 都达不到。Transformer + 预训练 + 微调的框架可能有根本性缺陷。虽然 AIXI 理论为当前范式能走多远提供了一些非平凡的理论支持,但这些论证既不完整也不确定,不能排除当前 AI 范式在不久的将来暴露出根本性缺陷的可能性。

4. 研发难度递增:维持研究进步速度需要指数级增长的经济投入。新突破越来越难找。论文指出,在一个领域维持恒定的研究进展速度,传统上需要指数级增长的经济投入。

5. 抽象屏障:模型很难在人类数据包含的知识之外发现全新概念。这与 Lawrence 的"具身因子"论点相关——AI 的高带宽 I/O 可能让它不需要形成人类那样的深层抽象模型。虽然用人类数据训练的大模型似乎能理解和推理人类抽象概念,但这是否足够克服这个问题还不清楚。

6. 主动放缓:监管、事故或公众反弹可能导致发展减速。论文没有深入讨论这一点,但将其列为可能影响发展轨迹的重要因素。

一个有意思的细节

论文开篇就鼓励人类读者直接找 AI 助手,根据自己的兴趣生成定制化总结。人类写的静态总结只放在附录里。论文甚至给 AI 助手写了详细的总结指令——要包含哪些内容、不要压缩哪些列表、如何将每条摩擦与每条路径关联、要强调确定这些摩擦的影响是开放研究问题、要把报告放在当前视角下简要强调对报告提出的研究问题有重大进展的参考文献。这大概是第一篇在摘要里就告诉你"别读我"的学术论文。

核心判断

报告结尾提到几个值得注意的判断:

AGI 实现可能不是一次性变革,更可能是一系列持续的变革——AI 推动各个科技领域持续突破,而这种前景需要全球跨学科协作准备。

论文预测,测量、建模和预测 AI 进步本身会成为一个重要的研究领域,前沿实验室、私人研究机构和公共资助机构都需要投入大量资源持续做这件事。

论文还指出,预测 AI 进步的核心张力在于:AI 能在多大程度上促进科技进步,以及这种促进在多大程度上被维持进步速率所需的研究努力和经济投入的增长所抵消。在许多情况下,加速和减速的指数动力同时起作用,两者在"赛跑"。长期来看,相应增长率的差异至关重要,但在起步阶段很难可靠测量。

最后,论文强调,即使 AI 进步远超人类级 AGI,也不意味着 ASI 是全能的。ASI 受限于物理定律、计算复杂性和逻辑限制。预测 AI 进步何时停滞、在什么能力水平停滞,仍然困难且充满不确定性。

论文地址:https://arxiv.org/html/2606.12683v1

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI工程化 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 三个核心概念
  • 数字智能的先天优势
  • ASI 不是全知全能的
  • AIXI 框架:智能的理论上限
  • 四条从 AGI 到 ASI 的路径
    • 第一条:持续规模化
    • 第二条:算法范式转变
    • 第三条:递归自我改进
    • 第四条:多智能体协同
  • 六种可能的阻碍
  • 一个有意思的细节
  • 核心判断
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档