首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >深度陷阱与几何奇迹:为什么越深的大语言模型,反而越容易失去“创造力”?

深度陷阱与几何奇迹:为什么越深的大语言模型,反而越容易失去“创造力”?

作者头像
赛博解生
发布2026-04-09 13:22:19
发布2026-04-09 13:22:19
820
举报

大家好,我是赛博解生酱,今天带来一篇关于大语言模型(LLM)底层机理的硬核论文,但它探讨的话题却充满了浪漫主义色彩——“类比推理”(Analogical Reasoning)

我们通常认为 AI 擅长的是逻辑推演(A 导致 B,B 导致 C),但人类智慧中最闪耀的瞬间往往来自于“类比”——比如波尔(Bohr)看到太阳系的模型,从而构想出了原子的结构。这种将一个领域的知识“跳跃”迁移到另一个领域的能力,是创造力的源泉。

这篇论文试图回答一个迷人的问题:在这个由 0 和 1 构成的硅基大脑中,这种“灵感的跳跃”究竟是如何发生的?

1. 引言

问题概述在认知科学中,人类的推理主要分为两类:一是组合推理(Compositional Reasoning),即一步步的逻辑链条(如 Chain-of-Thought);二是类比推理(Analogical Reasoning),即从一个熟悉的领域瞬间跨越到另一个陌生领域,发现其背后共享的结构。

图1展示了 AI 学习进化的完整路径——它必须先学会“死记硬背”,再学会“逻辑组合”,最后才会“顿悟”出类比能力。

(A) 任务设定:模型不仅要学习领域内的红色关系(如太阳-引力-行星),还必须在测试时跨越领域,推断出绿色的类比映射(如原子核-电力-电子)。(B) 学习动力学:揭示了类比能力的滞后性与突变性。模型总是先学会死记硬背(红色),再学会逻辑组合(蓝色),最后才会在某个临界点“顿悟”出类比能力(绿色)。(C) 几何本质:类比的涌现并非偶然,它伴随着底层几何结构的剧变。只有当两个领域的 Embedding 形状在空间中完美对齐(下半部分)且狄利克雷能量(Dirichlet Energy) 骤降(上半部分紫色曲线)时,类比推理才会发生 。

问题阐述目前的 LLM 尽管在推理任务上表现出色,但我们对它们如何实现“类比”知之甚少。类比不仅仅是简单的相似性匹配,它涉及到对“关系结构”的深刻理解。这篇论文不仅在合成数据上解构了 Transformer 产生类比能力的数学机制,还在真实的 LLM(如 Gemma, Llama)中找到了相同的证据,为我们打开了理解 AI “举一反三”能力的黑盒。


2. 核心思想

情境引入:从“背单词”到“懂文化”想象一下我们在学习一门外语。 起初,我们是在死记硬背(Memorization):Apple 是苹果,Banana 是香蕉。 接着,我们学会了组合语法(Compositional):学会了“吃”和“苹果”,就能造句“吃苹果”。这就像现在的 CoT(思维链)推理。 但最高级的阶段是文化通感(Analogy):当你看到日本人在鞠躬时,你不需要谁教你,就能瞬间明白这等同于西方的“握手”。你不是在比较“弯腰”和“伸手”这两个动作的物理相似性,而是在比较它们在各自社会结构中的角色(Role)

这篇论文告诉我们:Transformer 模型在训练过程中,也经历了从“死记硬背”到“懂文化”的进化过程,而且我们可以用数学画出这个进化的轨迹。

论文名片

  • 论文标题:Emergent Analogical Reasoning in Transformers (Transformer 中涌现的类比推理)
  • 作者机构:东京大学 (The University of Tokyo) 与 Google DeepMind
  • 核心贡献:揭示了类比推理在 Transformer 中的几何机制——结构对齐(Structural Alignment)与函子应用(Functor Application)

3. 痛点诊断:为什么现有认知还不够?

1. “推理”的混淆:不仅仅是逻辑链条目前的学术界过于关注“组合推理”(Step-by-Step),而忽视了“类比推理”。由于类比往往被混淆在普通的泛化能力中,导致我们不知道模型是真懂了“结构”,还是只是撞大运猜对了。

2. 极其脆弱的“涌现”研究人员发现,类比推理并不是像滚雪球一样随着模型变大就自然变强。相反,它非常脆弱(Sensitive)。它对数据的特性、优化器的参数甚至模型的深度都极其敏感。有时候模型明明学会了,训练久了反而会“忘掉”(Transient nature),这对于追求稳定性的 AI 工业界来说是一个巨大的隐患。

3. 黑盒机制不明我们知道 LLM 能做类比(比如做 SAT 考试的类比题),但我们不知道在向量空间(Embedding Space)里,这些词向量发生了什么物理变化。是简单的距离拉近?还是更高维度的拓扑变换?缺乏机理解释,我们就无法有效地提升模型的创造力。


4. 核心框架详解:它是如何破局的?

作者并没有直接在 GPT-4 这种庞然大物上盲人摸象,而是设计了一个精密的“培养皿”——一个可控的合成任务。在这个培养皿中,作者发现了类比推理的物理实体并非玄学,而是清晰的几何对齐向量算术

图2打开了模型的“引擎盖”,将玄学的类比推理拆解为两个物理步骤:

  1. 地基——结构对齐(Structural Alignment):在底层 Embedding 空间,模型必须先将源领域(Category 1)和目标领域(Category 2)的拓扑结构“捏”成一样的形状 。

  1. 飞跃——函子算术(Functor Application):基于对齐的结构,Transformer 利用注意力机制提取源实体 的信息,并通过残差连接执行一个简单的向量加法:。这意味着,类比在数学上等同于高维空间中的线性平移 。
4.1 培养皿设计:合成任务的数学构建

为了研究类比,必须先定义什么是类比。论文基于范畴论(Category Theory)构建了一个微型宇宙:

  • 双世界设定(Two Categories):设定两个互不相交的实体集合:(源领域,如太阳系)和 (目标领域,如原子结构)。
  • 同构的各种关系(Isomorphic Relations):在每个领域内部,实体之间由关系 连接(如 )。关键在于,这两个领域共享同一套关系结构。也就是说,如果太阳吸引行星,那么原子核也必须以同样的方式(关系 )吸引电子。
  • 函子映射(The Functor ):定义一个映射函数 。这个 就是我们要找的“类比”。它把 中的实体映射到 中对应的实体,同时保持关系不变。

模型的任务:给模型看一些 内部的事实(原子事实),再给一些 内部的事实。但绝对不给模型看跨越两个领域的直接映射(即不告诉它太阳对应原子核)。测试时,给模型输入 ,其中 是一个代表“跨领域映射”的特殊 Token,看模型能否输出正确的 。

4.2 核心机制一:嵌入空间的几何对齐 (Geometric Alignment)

这是论文最底层的发现。Transformer 要做类比,首先得把两个领域的“形状”对齐。

  • 现象描述:在训练初期, 和 的词向量在空间中是杂乱无章的(就像两团乱麻)。但当模型“顿悟”了类比推理后,这两团乱麻在空间中竟然完美重合了。虽然它们是不同的词,但它们构成的拓扑结构(形状)变得一模一样。
  • 数学量化:狄利克雷能量 (Dirichlet Energy):为了证明这种“形状对齐”不是我们的错觉,作者引入了狄利克雷能量来量化“平滑度”:
    • 这里 表示两个实体在类比关系上是对应的(如太阳和原子核)。
    • 核心逻辑: 如果太阳的向量 和原子核的向量 距离很近,能量 就会很低。
    • 结论: 实验发现,只有当这个能量 大幅下降(即几何结构对齐)之后,模型的类比准确率才会上升。这证明了结构对齐是类比推理的先决条件
4.3 核心机制二:Transformer 内部的向量算术

一旦形状对齐了,模型如何计算出答案?论文揭示了一个极简的线性机制。

  • 向量加法公式:模型将类比推理简化为了一个向量加法操作:这里的 不是一个抽象概念,而是那个函子 Token 的向量表示。
  • 具体实现流程:
    1. 注意力提取(Attention): 函子 Token 通过注意力机制,关注源实体 ,把 的信息“吸”过来。
    2. 残差连接(Residual Connection): Transformer 的残差结构允许直接相加。于是,信息流变成了“源实体信息 + 函子变换向量 = 目标实体信息”。
    3. 平行四边形验证(Parallelism): 作者测量了 与 的余弦相似度。结果发现它们高度平行!这实锤了模型是在做线性平移,就像经典的 Word2Vec 案例(King - Man + Woman = Queen)一样。

5. 实力验证:效果究竟如何?

这一部分不仅仅是展示“准确率”,而是通过一系列反直觉的实验,揭示了类比推理的脆弱性独特属性

5.1 训练动力学:类比是最后一块拼图

实验记录了模型在训练过程中的三个阶段,界限分明:

  1. 记忆阶段(In-Distribution): 训练集准确率迅速达到 100%,模型记住了所有看过的关系。
  2. 组合推理阶段(Compositional OOD): 模型学会了 ,能处理未见过的组合路径。这一阶段紧随记忆阶段之后。
  3. 类比推理阶段(Analogical OOD):这是最晚发生的。 甚至在组合推理完美之后,模型还需要很长时间的“酝酿”(Grokking),类比能力才会突然涌现。
5.2 反直觉的“逆缩放”

图 3:深度的陷阱——反直觉的“逆缩放”现象**

(a) 1 层模型(左):展示了完美的几何晶体结构。因为参数受限,模型被迫去学习通用的结构规律,红蓝两个领域的三角形在空间中完美平行,类比成功 。(b) 4 层模型(右):展示了混乱的坍缩。参数更多的模型反而“学坏了”,它利用过剩的容量死记硬背了答案,却丢失了优雅的几何结构。这直观地解释了为什么更深的模型反而可能在类比任务上失败(Inverse Scaling)。

这可能是论文最令人震惊的发现之一。在通常认知中,模型越大越强,但在类比推理任务中:

  • 深度诅咒: 1 层的 Transformer 能完美学会类比,而 4 层的 Transformer 反而学不会。
    • 原因推测: 深层模型参数更多,更容易找到“死记硬背”的捷径(Shortcut),从而不再费力去学习通用的几何结构。这证明了类比推理不仅仅依赖参数量,更依赖于归纳偏置(Inductive Bias)
  • 宽度效应: 这里的规律比较正常,太窄的模型(如 )学不会,因为容量不够表达复杂的几何结构;适中的宽度表现最好。
5.3 敏感的触发条件

要训练出具备类比能力的模型,必须像“走钢丝”一样小心调节超参数:

  • 权重衰减(Weight Decay)至关重要: 如果没有权重衰减(Weight Decay = 0),模型倾向于死记硬背,类比能力很难涌现。适度的正则化(Weight Decay = 0.1)能强迫模型学习更平滑、更通用的结构。但如果太大(Weight Decay = 1),模型又学不动了。
  • 数据丰富度: 关系的种类必须足够多( 要大)。如果关系太少(比如只有 100 种),模型就无法区分不同的结构,类比失败。但如果关系太多(1000 种),模型可能会先学会再忘掉(Transient),表现出不稳定性。
5.4 真实世界的检验:LLM 中的涌现

为了验证这一机制在真实大模型中是否存在,作者测试了 Gemma-2 (2B, 9B)Llama-3

  • 实验方法: 使用“Logit Lens”技术,一层一层地观察 LLM 内部的激活状态。
  • 结果:
    • 层级演变: 在浅层,LLM 根本不知道答案,狄利克雷能量很高(结构未对齐)。
    • 突变点: 随着层数加深(例如在 Gemma-2-9B 的中间层),狄利克雷能量骤降,与此同时,目标 token 的预测概率飙升。
    • 结论: 即使是预训练好的 LLM,在进行类比推理时,也是在通过层层传递,逐渐在向量空间中“对齐”概念结构,最终完成推理。这与合成任务中的结论完美互证。

6. 思考与讨论

作为一名观察者,这篇论文给我的震撼不仅仅在于它解释了“类比”,而在于它揭示了深度学习中某种 “返璞归真”的美学

1. 本质思考:复杂的尽头是几何我们要么认为 AI 在进行复杂的符号逻辑运算,要么认为它只是概率统计。但这篇论文展示了第三种视角:几何学。 模型不需要“理解”什么是太阳、什么是原子,它只需要把两个知识图谱的拓扑结构在向量空间里“捏”成一样的形状。一旦形状对齐了,推理就变成了最简单的加减法。这让人想起柏拉图的理型论——也许知识的本质就是某种几何结构。

2. 批判性分析:Grokking 的阴暗面论文中提到了一个让人不安的现象:瞬态性(Transience)。 在某些设置下,模型会先学会类比(结构对齐),然后随着继续训练,为了追求更低的训练误差,它又会主动打破这种对齐,退化回死记硬背(见 Figure 9)。 这给当前的“Scaling Law”敲响了警钟:如果我们只是盲目地用 Next Token Prediction 狂卷数据,模型可能会在过度拟合中丢失掉最宝贵的“灵性”——即通用的结构化认知。我们是否在无意中训练出了更“博学”但更“平庸”的模型?

3. 未来推演:小模型的机会?论文发现 1 层的小模型在特定约束下比 4 层模型更能掌握类比。这暗示了,如果我们能设计出特定的正则化手段(如控制狄利克雷能量),强制模型去寻找“结构解”而不是“记忆解”,我们或许能造出参数量极小但逻辑迁移能力极强的小型模型。这对于端侧 AI 和垂直领域模型来说,是一个巨大的潜在突破点。

4. 待解之谜论文中的合成任务假设两个领域的结构是完全同构的(Isomorphic)。但在现实世界中,太阳系和原子结构只是“相似”,并非完全一样。面对这种**“含噪的类比”“部分同构”**,Transformer 的几何对齐机制还能奏效吗?这或许是通向下一代更强推理模型的必经之路。

总结这篇论文不仅是一份技术报告,更像是一份“机器思维的解剖图”。它告诉我们,创造力并不是魔法,而是一种可以在高维空间中被计算、被对齐、被迁移的几何奇迹。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 赛博解生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 引言
  • 2. 核心思想
  • 3. 痛点诊断:为什么现有认知还不够?
  • 4. 核心框架详解:它是如何破局的?
    • 4.1 培养皿设计:合成任务的数学构建
    • 4.2 核心机制一:嵌入空间的几何对齐 (Geometric Alignment)
    • 4.3 核心机制二:Transformer 内部的向量算术
  • 5. 实力验证:效果究竟如何?
    • 5.1 训练动力学:类比是最后一块拼图
    • 5.2 反直觉的“逆缩放”
    • 5.3 敏感的触发条件
    • 5.4 真实世界的检验:LLM 中的涌现
  • 6. 思考与讨论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档