首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大模型原理三部曲-代数篇:从表征到推理的多尺度动力学

大模型原理三部曲-代数篇:从表征到推理的多尺度动力学

作者头像
赛博解生
发布2026-04-09 13:07:10
发布2026-04-09 13:07:10
940
举报

——泛化性、推理能力与训练动力学(个人阅读笔记版)

大家好,我是赛博解生酱。最近读了大量关于大模型的理论研究,涉及强化学习,泛化性,特征研究等各个方面。层出不穷的研究及进展背后,事实上是无数个LLM相关的孤立的现象与局部优化。将这一批“推理大模型/后训练/可解释性”的论文串起来仔细研究后,越读越强烈地感觉:我们其实缺的不是更多现象,而是一套能把现象压缩成同一张图的语言。

回到物理里一句非常有画面感的总结:太小的结构我们看不清,太大的结构我们看不全。

于是物理学家发明了重整化群(RG:renormalization group):不断“粗粒化”(coarse-grain)系统,把看不清的细节压掉,把看不全的复杂性投影到少数几个宏观参数上,然后研究这些参数如何在尺度变换下如何流动,以及哪些结构在流动中保持不变(不动点/普适类)。

这篇文章(非严格数学,更类似读后感吧)想做的是从代数角度:把“大模型的泛化、推理、训练动力学”也写成一套代数化的 RG 图像,在这之后会从信息论以及流形角度对大模型原理进行分析(即大模型原理-信息篇与流形篇)。代数篇的主线可以总结为三句话:

  • 泛化 = 表征空间里的“特征代数”(稀疏字典 vs 超位置)
  • 推理 = 轨迹空间里的“算子/图拓扑”(并行叠加 vs 顺序采样)
  • 训练 = 权重空间里的“子空间几何流”(主方向/非主方向、KL 锚定、熵机制)

下面按 RG 的写法,从“系统定义 → 可观测量 → 粗粒化 → 流动 → 不动点/普适类”一路推进。


1. 先把“大模型”写成一个系统:我们到底要研究什么“动力学”?

语言模型最简洁的形式可以写成一个策略函数:

这里表示小于的序数集合,训练可以被看作在参数空间 上的梯度流:

但问题也立刻出现:

  • 盯着神经元/单层细节:看不清(太细,语义纠缠)。
  • 盯着全参数空间:看不全(太大,缺结构)。

RG 的套路是:找一组“粗粒化后的可观测量”,并在这些量上写出“有效理论”。

在 Transformer 里,我最喜欢的“中间尺度”对象是:残差流(residual stream)。因为它把每一层都投到同一个 -维向量空间里,天然可用线性代数来写。


1.1 Transformer 一层怎么写,为什么它很“RG”?

“Transformer 一层”段落改成严格的 Pre-LN 形式(现代大模型主流):

设第 层输入是 ,则一层由两次残差更新组成:

(1) Attention 子层:

(2) MLP 子层:

注意力内部(单头写法):

为什么这很“RG”?因为每一层不是“重写表示”,而是在同一个向量空间里做小步增量。你可以把层数 直接当作一种“尺度变量”,把残差增量当作“在尺度上积分掉某些自由度之后的有效作用”。


2. 泛化:从“神经元解释为什么总失败?”到 SAE 的稀疏特征字典

很多人第一次做机理解释都会走同一条路: “我能不能找一个神经元,它只在某个语义出现时亮?” 比如“只在出现否定时亮”,“只在出现法国地名时亮”。

但很快会遇到挫败:一个神经元往往在多个互不相干的场景下都激活。这就是所谓 神经元多义性(polysemanticity)——一个神经元“身兼数职”。Cunningham 等在 SAE 论文里把它当作可解释性的核心障碍之一来讨论。(arXiv)

2.1 多义性从哪来?先别急着怪“解释方法不行”

直觉上,多义性像是解释失败;但 SAE 这条线索给了一个更结构性的解释:

模型要表示的“有用特征”(features)数量,往往远大于它拥有的神经元/维度。于是模型会把多个特征“塞进同一个维度空间里”,这叫 superposition(超位置)。(arXiv)

这里“特征”你可以理解为:对任务有因果贡献的方向/概念,比如“这是数字推理”、“这是代码缩进结构”,“这是反问语气”。

当特征数 远大于表示维度 时,模型没法给每个特征分配一个独立神经元,只能把它们叠放在同一空间里。

用一个很简单的代数形式表示就是:

  • :某层的激活向量(残差流里的一个点)
  • :第 个“特征方向”
  • :该特征在当前样本上的强度(多数时候应该接近 0)

当 时,不同 必然共享子空间,于是你在“神经元坐标系”里看到的就是:一个神经元同时响应多种语义——多义性是超位置的表象。(arXiv)

到这里,逻辑链条才完整:(想解释神经元) → 发现多义性 → 怀疑结构性原因 → 引出超位置。

2.2 SAE 在做什么?一句话:把“叠在一起的特征方向”分离出来

如果多义性是因为特征叠放,那更自然的解释单位就不是神经元,而是“特征方向”。问题变成:

我能不能从激活 里,自动学习出一组“特征方向”,使得每个样本只激活很少几个方向?

这正是 稀疏自编码器(Sparse Autoencoder, SAE) 做的事: 它学习一个“编码器”把 变成稀疏的特征系数 ,再用“解码器”把这些系数还原回 。(arXiv)

核心公式是:

别急着跳过,我逐行解释它为什么合理:

  • 第一行(编码): 把原激活 投影到一个更大的“特征槽位”里(常见是过完备:特征维度 )。ReLU 的作用是让系数非负、便于稀疏(大量为 0)。
  • 第二行(解码): 把稀疏特征系数线性组合回原空间,得到重构 。
  • 第三行(目标函数): 前半项要求“别编故事”:你学到的特征必须真的能重构原激活; 后半项 是稀疏惩罚:它逼迫你“少用几个特征就解释清楚”,从而把超位置里混在一起的方向拆开。(arXiv)

这套机制的直觉是:

重构项保证忠实,稀疏项保证可分解。把它们放在一起,你就在激活空间里得到了一套“更接近单义”的坐标系。(arXiv)

2.3 泛化和它有什么关系?超位置强弱决定“缩放律是否稳健”

在论文 “Superposition Yields Robust Neural Scaling” 中,一个很强的感受是: 他们试图把“缩放律”从经验现象拉回到一个非常几何的机制:当超位置很强时,许多向量被压进低维空间,特征之间的干扰(重叠平方和)按 量级缩放,从而得到对数据频率分布更不敏感的“稳健缩放”。(arXiv)

这里我不展开 toy model 的推导,只强调结论的前因后果:

  • 如果模型只表示少数高频特征(弱超位置),loss 缩放会依赖特征频率分布;
  • 如果模型把大量特征都塞进表示空间(强超位置),干扰主导,loss 近似随维度 反比下降,更“普适”。(arXiv)

3. 推理:从“离散 CoT 为什么慢?”到“连续叠加态 = 并行搜索”

讲推理之前,我先把一个常见误解说清楚: 很多人把 CoT 当成“多写几句解释”,但对模型而言更关键的是——你让它的中间状态以什么形式存在

03.1 离散 CoT 的结构性限制:每一步都得“坍缩成一个 token”

传统 CoT 是离散 token 序列。模型每走一步,都要从词表里采样一个 token。 这会带来一个结构性后果:

在不确定时,模型也必须“选一条路先走”。 一旦选错,就容易陷入局部路径,需要更多步回退。

03.2 Coconut:把“思维”留在连续隐空间(而不是落到 token)

Coconut 的动作非常干净:用最后隐状态表示“推理状态”,不把它解码成词,而是直接喂回模型作为下一步输入嵌入。(arXiv)

你可以把它写成一个状态迭代:

关键差异在于: 是连续向量,它可以天然表达“多个候选状态的叠加”。

Coconut 论文明确提到:连续 thought 可以编码多个备选推理步骤,使模型在一定任务上呈现类似 BFS 的行为。(arXiv)

03.3 “Reasoning by Superposition”:为什么连续 CoT 在图可达性上更快?

这篇理论论文我特别喜欢,因为它把“连续思维为什么强”讲成了一个非常清晰的计算图差异:

  • 两层 Transformer + 连续 CoT 可以解有向图可达性;
  • 离散 CoT 的常深度 Transformer 需要 解码步数( 是节点数)。(arXiv)

更关键的是他们给了直观解释:

每个连续 thought 向量是一种 superposition state,可同时编码多个搜索前沿(并行 BFS); 离散 CoT 必须从叠加态里采样一条路径,于是变成顺序搜索。(arXiv)

你把它翻译成线性代数会更清楚: 用向量 表示当前 BFS 前沿(多个节点的叠加),一次扩展相当于邻接矩阵作用后再归一化。连续向量允许这个“前沿向量”同时存在,而离散 token 每步只能选一个节点(坍缩),于是效率差异是结构性的。(arXiv)

3.4 “Emergence of Superposition”:叠加态不是手工注入,而是训练会“自然学出”

上一节讲的是“存在性构造”。但更难的问题是:训练为什么会学到这种叠加策略?

“Emergence of Superposition”分析连续 CoT 在训练中如何出现叠加态,提出一个关键量:index-matching logit,会先增长后保持有界;有界 logit 让模型在不确定时给多条候选路径相近权重,从而维持叠加。(arXiv)

这段话的要点是:

  • logit 很大 → softmax 近似 one-hot → 你必须“选一条路”
  • logit 有界 → softmax 保持软分布 → 你能“多条路并行保留”(arXiv)

3.5 “Topology of Reasoning”:把推理过程粗粒化成图,就能讨论“思维结构”

如果说连续 CoT 把推理变成“叠加态搜索”,那另一个我觉得很 RG 的思路是:把推理轨迹投影成一个图对象,再用拓扑量描述它。

“Topology of Reasoning”提出 reasoning graph:聚类每步隐藏态得到节点,按推理步连边,然后分析 cyclicity、diameter、small-world index 等性质,并发现这些结构与任务难度和模型表现相关。(arXiv)

这一招很像 RG:你不再盯每一个 token/每一个状态点,而是把它们“粗粒化成节点”,再研究宏观结构。


4. 训练动力学:SFT、预训练与 RLVR 是三种不同的“参数空间流”

在思考训练动力学时,需要先把“训练目标”写清楚,否则很容易陷入“经验争论”。

4.1 RL 的“自由能”形式:奖励 + KL 锚定 + 熵

RLVR/RLHF 常见的一类形式是:

  • :可验证奖励(数学/代码等)
  • KL 项:不让策略偏离参考模型太远(“锚定”)
  • 熵项:鼓励探索(很多实现里这项偏弱或隐式,从而导致熵塌缩问题)

“Entropy Mechanism”直接指出:策略熵变化由“动作概率与 logit 变化的协方差”驱动,而在 policy gradient 下 logit 变化与 advantage 相关,因此协方差往往为正,解释了熵为什么会单调下降。(arXiv)

4.2 RL’s Razor:为什么在线 RL 更少遗忘?

“RL’s Razor”给了一个非常简洁的原则:遗忘与否主要由 fine-tuned policy 和 base policy 在新任务上的 KL 位移决定;而 on-policy RL 隐式偏向“在所有解决新任务的解里,KL 最小的那一个”。(arXiv)

这句话为什么重要?因为它把“遗忘”从玄学变成几何:

RL 更新像在概率单纯形上做保守投影:能完成新任务就行,但尽量别离基模太远。(arXiv)

4.3 RLVR 的“动得少”到底是什么?The Path Not Taken 给了参数空间层面的答案

“The Path Not Taken”几乎是为“训练动力学 RG化”量身定做的:它观察到 RLVR 改动参数很少,但提升推理显著;进一步提出 Three-Gate Theory,并指出 RLVR 更新会偏向 off-principal directions、低曲率、保谱子空间,而 SFT 更倾向主方向更新、谱漂移更大。(arXiv)

你可以把它理解为:

  • RLVR 不太像“重写知识”,更像“在不破坏基座谱结构的前提下,把某些推理路径变得更常见、更稳定”。(arXiv)

4.4 RL 到底有没有“拓展能力边界”?有必要把这个争论也纳入框架

“Does Reinforcement Learning Really Incentivize Reasoning Capacity Beyond the Base Model?”用大 的 pass@k 去测“能力边界”,发现 RLVR 在小 (如 1)显著更强,但大 时 base model 通过采样可追平甚至更高,说明 RL 更多是在重新加权已有路径,提高采样效率,但也可能让边界更窄。(arXiv)

这对我们写“有效理论”很关键:

训练的“能力提升”可能分两种:扩展可达集合(边界外推) vs 在既有集合内重新分配概率质量(效率提升)。(arXiv)

4.5 训练管线里被忽视的一段:mid-training

“On the Interplay of Pre-Training, Mid-Training, and RL…”用可控合成任务拆分三段贡献,指出 RL 产生真正能力增益(例如 pass@128)需要 pretraining 留 headroom 且 RL 数据瞄准能力边界附近;mid-training 在固定算力下非常关键。(arXiv)

这像什么?像 RG 里不同尺度上的“有效扰动”:

  • pretraining 决定你落在哪个普适类附近
  • mid-training 把你推近临界面(边界)
  • RL 决定你沿哪个方向贴着临界面走

5. LLM 代数 RG 框架

基于以上观察,可以从RG角度把大模型的尺度拆成三类(因为它们对应三种研究对象):

  1. 表示尺度(activation scale):你看神经元还是看 SAE 特征?
  2. 计算尺度(depth / thought step):你看层数 或推理步 ?
  3. 训练尺度(training stage):pre → mid/SFT → RL 的管线本身就是尺度变化

5.1 Step 1:定义微观变量、哈密顿量/能量函数的类比

  • 微观变量:token、注意力权重、神经元激活
  • “能量函数/作用量”类比:训练目标 或 RL 的正则化回报

甚至可以写一个最粗的“有效能量”:

(这是 RL 里最像“自由能”的形式。)

5.2 Step 2:选择尺度变量 ,定义粗粒化算子

粗粒化不是比喻,它对应具体操作:

  • 激活粗粒化: SAE 把激活 映射为稀疏系数 ,把“超位置纠缠”变成“稀疏可分解”。(arXiv)
  • 推理轨迹粗粒化: reasoning graph 把轨迹聚类成节点,研究拓扑量(cycle/diameter/small-world)。(arXiv)
  • 权重粗粒化(谱/子空间投影): “The Path Not Taken”强调 principal / off-principal 子空间的重要性(更新偏置、谱漂移)。(arXiv)

5.3 Step 3:写出“耦合常数”——也就是你要跟踪的宏观参数

这一步是 RG 的灵魂:你不跟踪所有 ,你跟踪一小组“宏观耦合”。

LLM中的耦合集合如下:

  1. 特征稀疏度: 或 激活强度(对应 SAE)(arXiv)
  2. 超位置强度:特征重叠的平均干扰(对应 robust scaling 的几何推导)(arXiv)
  3. 推理拓扑量:cycle / diameter / small-world index(对应 reasoning graph)(arXiv)
  4. 分布位移:(对应 RL’s Razor)(arXiv)
  5. 与其下降速率(对应熵机制)(arXiv)
  6. 谱漂移/子空间旋转:主奇异子空间的旋转量、谱范数漂移(对应 RLVR off-principal)(arXiv)
  7. 共享谱子空间维数(对应 UWSH)(arXiv)

这些量的共同点:都能被写成子空间/谱/协方差/图结构


5.4 Step 4:写“RG 流方程”——宏观耦合随尺度怎么变?

这一步难以写成close form,但是可以写成足够“物理化”的表示:

然后把不同训练阶段当作不同的“扰动”:

  • 预训练:主要改变“特征字典”和超位置结构(02+robust scaling)(arXiv)
  • SFT:更可能沿主方向大幅改变谱结构(对比 RLVR 的结论)(arXiv)
  • RL/RLVR:KL 锚定 + 熵机制 + 几何门控,倾向 off-principal、保谱、但可能熵塌缩(04)(arXiv)
  • Mid-training:在固定算力下扮演“把系统推近临界/边界”的角色,让 RL 真正有 headroom(interplay 论文)(arXiv)

5.5 Step 5:找不动点与普适类(这一步是“看不全”的解法)

  • 不动点视角
    • RL’s Razor 暗示:on-policy RL 的吸引子更靠近 base policy(KL 最小最优解),像一个稳定流形。(arXiv)
    • 熵机制告诉你:如果没有对抗项,熵可能沿流迅速下降,进入“探索耗尽相”(一种相结构)。(arXiv)
  • 普适类视角
    • UWSH 的“共享谱子空间”像一种几何普适性:不同任务的训练会坍缩到相似低维谱子空间(同一普适类)。(arXiv)
    • 推理图拓扑量也可能形成另一种普适类:不同模型/数据蒸馏的推理结构落到可比较的拓扑区间。(arXiv)

5.6 Step 6:回到开头那句“看不清/看不全”

写到这里,我们现在基本完成采用RG 语言从“物理”视角看待LLM:

我们用三次粗粒化把大模型压到可研究的尺度:表征上从神经元到稀疏特征(SAE); 推理上从逐 token 轨迹到叠加态/拓扑图; 训练上从全参数到谱子空间与 KL/熵等宏观耦合。 然后研究这些耦合在预训练—SFT—RL 的尺度流中如何演化,哪些结构稳定、哪些结构决定相变。


拓展阅读

为了方便查阅相关资料,我将这篇文章提及的研究论文列在这里,欢迎大家交流讨论

代码语言:javascript
复制
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
# 表征 / 可解释性 / 超位置
Sparse Autoencoders Find Highly Interpretable Features in Language Models
https://arxiv.org/abs/2309.08600

Superposition Yields Robust Neural Scaling
https://arxiv.org/abs/2505.10465

# 推理 / 连续思维 / 叠加
Training Large Language Models to Reason in a Continuous Latent Space (Coconut)
https://arxiv.org/abs/2412.06769

Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought
https://arxiv.org/abs/2505.12514

Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought
https://arxiv.org/abs/2509.23365

Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties
https://arxiv.org/abs/2506.05744

Do Language Models Use Their Depth Efficiently?
https://arxiv.org/abs/2505.13898

# 训练动力学 / RLVR / 熵 / 遗忘
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
https://arxiv.org/abs/2505.22617

RL's Razor: Why Online Reinforcement Learning Forgets Less
https://arxiv.org/abs/2509.04259

The Path Not Taken: RLVR Provably Learns Off the Principals
https://arxiv.org/abs/2511.08567

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
https://arxiv.org/abs/2504.13837

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
https://arxiv.org/abs/2512.07783

# 权重几何 / 普适子空间 / 连续 RL 几何
The Universal Weight Subspace Hypothesis
https://arxiv.org/abs/2512.05117

Geometry of Neural Reinforcement Learning in Continuous State and Action Spaces
https://arxiv.org/abs/2507.20853

# 持续学习
Continual Learning via Sparse Memory Finetuning
https://arxiv.org/abs/2510.15103

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 赛博解生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 先把“大模型”写成一个系统:我们到底要研究什么“动力学”?
  • 1.1 Transformer 一层怎么写,为什么它很“RG”?
  • 2. 泛化:从“神经元解释为什么总失败?”到 SAE 的稀疏特征字典
    • 2.1 多义性从哪来?先别急着怪“解释方法不行”
    • 2.2 SAE 在做什么?一句话:把“叠在一起的特征方向”分离出来
    • 2.3 泛化和它有什么关系?超位置强弱决定“缩放律是否稳健”
  • 3. 推理:从“离散 CoT 为什么慢?”到“连续叠加态 = 并行搜索”
    • 03.1 离散 CoT 的结构性限制:每一步都得“坍缩成一个 token”
    • 03.2 Coconut:把“思维”留在连续隐空间(而不是落到 token)
    • 03.3 “Reasoning by Superposition”:为什么连续 CoT 在图可达性上更快?
    • 3.4 “Emergence of Superposition”:叠加态不是手工注入,而是训练会“自然学出”
    • 3.5 “Topology of Reasoning”:把推理过程粗粒化成图,就能讨论“思维结构”
  • 4. 训练动力学:SFT、预训练与 RLVR 是三种不同的“参数空间流”
    • 4.1 RL 的“自由能”形式:奖励 + KL 锚定 + 熵
    • 4.2 RL’s Razor:为什么在线 RL 更少遗忘?
    • 4.3 RLVR 的“动得少”到底是什么?The Path Not Taken 给了参数空间层面的答案
    • 4.4 RL 到底有没有“拓展能力边界”?有必要把这个争论也纳入框架
    • 4.5 训练管线里被忽视的一段:mid-training
  • 5. LLM 代数 RG 框架
    • 5.1 Step 1:定义微观变量、哈密顿量/能量函数的类比
    • 5.2 Step 2:选择尺度变量 ,定义粗粒化算子
    • 5.3 Step 3:写出“耦合常数”——也就是你要跟踪的宏观参数
    • 5.4 Step 4:写“RG 流方程”——宏观耦合随尺度怎么变?
    • 5.5 Step 5:找不动点与普适类(这一步是“看不全”的解法)
    • 5.6 Step 6:回到开头那句“看不清/看不全”
  • 拓展阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档