大模型原理三部曲-代数篇：从表征到推理的多尺度动力学

赛博解生

发布于 2026-04-09 13:07:10

1640

——泛化性、推理能力与训练动力学（个人阅读笔记版）

大家好，我是赛博解生酱。最近读了大量关于大模型的理论研究，涉及强化学习，泛化性，特征研究等各个方面。层出不穷的研究及进展背后，事实上是无数个LLM相关的孤立的现象与局部优化。将这一批“推理大模型/后训练/可解释性”的论文串起来仔细研究后，越读越强烈地感觉：我们其实缺的不是更多现象，而是一套能把现象压缩成同一张图的语言。

回到物理里一句非常有画面感的总结：太小的结构我们看不清，太大的结构我们看不全。

于是物理学家发明了重整化群（RG：renormalization group）：不断“粗粒化”（coarse-grain）系统，把看不清的细节压掉，把看不全的复杂性投影到少数几个宏观参数上，然后研究这些参数如何在尺度变换下如何流动，以及哪些结构在流动中保持不变（不动点/普适类）。

这篇文章（非严格数学，更类似读后感吧）想做的是从代数角度：把“大模型的泛化、推理、训练动力学”也写成一套代数化的 RG 图像，在这之后会从信息论以及流形角度对大模型原理进行分析（即大模型原理-信息篇与流形篇）。代数篇的主线可以总结为三句话：

泛化 = 表征空间里的“特征代数”（稀疏字典 vs 超位置）
推理 = 轨迹空间里的“算子/图拓扑”（并行叠加 vs 顺序采样）
训练 = 权重空间里的“子空间几何流”（主方向/非主方向、KL 锚定、熵机制）

下面按 RG 的写法，从“系统定义 → 可观测量 → 粗粒化 → 流动 → 不动点/普适类”一路推进。

1. 先把“大模型”写成一个系统：我们到底要研究什么“动力学”？

语言模型最简洁的形式可以写成一个策略函数：

这里表示小于的序数集合，训练可以被看作在参数空间上的梯度流：

或

但问题也立刻出现：

盯着神经元/单层细节：看不清（太细，语义纠缠）。
盯着全参数空间：看不全（太大，缺结构）。

RG 的套路是：找一组“粗粒化后的可观测量”，并在这些量上写出“有效理论”。

在 Transformer 里，我最喜欢的“中间尺度”对象是：残差流（residual stream）。因为它把每一层都投到同一个 -维向量空间里，天然可用线性代数来写。

1.1 Transformer 一层怎么写，为什么它很“RG”？

“Transformer 一层”段落改成严格的 Pre-LN 形式（现代大模型主流）：

设第层输入是，则一层由两次残差更新组成：

(1) Attention 子层：

(2) MLP 子层：

注意力内部（单头写法）：

为什么这很“RG”？因为每一层不是“重写表示”，而是在同一个向量空间里做小步增量。你可以把层数直接当作一种“尺度变量”，把残差增量当作“在尺度上积分掉某些自由度之后的有效作用”。

2. 泛化：从“神经元解释为什么总失败？”到 SAE 的稀疏特征字典

很多人第一次做机理解释都会走同一条路： “我能不能找一个神经元，它只在某个语义出现时亮？” 比如“只在出现否定时亮”，“只在出现法国地名时亮”。

但很快会遇到挫败：一个神经元往往在多个互不相干的场景下都激活。这就是所谓 神经元多义性（polysemanticity）——一个神经元“身兼数职”。Cunningham 等在 SAE 论文里把它当作可解释性的核心障碍之一来讨论。(arXiv)

2.1 多义性从哪来？先别急着怪“解释方法不行”

直觉上，多义性像是解释失败；但 SAE 这条线索给了一个更结构性的解释：

模型要表示的“有用特征”（features）数量，往往远大于它拥有的神经元/维度。于是模型会把多个特征“塞进同一个维度空间里”，这叫 superposition（超位置）。(arXiv)

这里“特征”你可以理解为：对任务有因果贡献的方向/概念，比如“这是数字推理”、“这是代码缩进结构”，“这是反问语气”。

当特征数远大于表示维度时，模型没法给每个特征分配一个独立神经元，只能把它们叠放在同一空间里。

用一个很简单的代数形式表示就是：

：某层的激活向量（残差流里的一个点）
：第个“特征方向”
：该特征在当前样本上的强度（多数时候应该接近 0）

当时，不同必然共享子空间，于是你在“神经元坐标系”里看到的就是：一个神经元同时响应多种语义——多义性是超位置的表象。(arXiv)

到这里，逻辑链条才完整：（想解释神经元） → 发现多义性 → 怀疑结构性原因 → 引出超位置。

2.2 SAE 在做什么？一句话：把“叠在一起的特征方向”分离出来

如果多义性是因为特征叠放，那更自然的解释单位就不是神经元，而是“特征方向”。问题变成：

我能不能从激活里，自动学习出一组“特征方向”，使得每个样本只激活很少几个方向？

这正是 稀疏自编码器（Sparse Autoencoder, SAE） 做的事：它学习一个“编码器”把变成稀疏的特征系数，再用“解码器”把这些系数还原回。(arXiv)

核心公式是：

别急着跳过，我逐行解释它为什么合理：

第一行（编码）：把原激活投影到一个更大的“特征槽位”里（常见是过完备：特征维度）。ReLU 的作用是让系数非负、便于稀疏（大量为 0）。
第二行（解码）：把稀疏特征系数线性组合回原空间，得到重构。
第三行（目标函数）：前半项要求“别编故事”：你学到的特征必须真的能重构原激活；后半项是稀疏惩罚：它逼迫你“少用几个特征就解释清楚”，从而把超位置里混在一起的方向拆开。(arXiv)

这套机制的直觉是：

重构项保证忠实，稀疏项保证可分解。把它们放在一起，你就在激活空间里得到了一套“更接近单义”的坐标系。(arXiv)

2.3 泛化和它有什么关系？超位置强弱决定“缩放律是否稳健”

在论文 “Superposition Yields Robust Neural Scaling” 中，一个很强的感受是：他们试图把“缩放律”从经验现象拉回到一个非常几何的机制：当超位置很强时，许多向量被压进低维空间，特征之间的干扰（重叠平方和）按量级缩放，从而得到对数据频率分布更不敏感的“稳健缩放”。(arXiv)

这里我不展开 toy model 的推导，只强调结论的前因后果：

如果模型只表示少数高频特征（弱超位置），loss 缩放会依赖特征频率分布；
如果模型把大量特征都塞进表示空间（强超位置），干扰主导，loss 近似随维度反比下降，更“普适”。(arXiv)

3. 推理：从“离散 CoT 为什么慢？”到“连续叠加态 = 并行搜索”

讲推理之前，我先把一个常见误解说清楚：很多人把 CoT 当成“多写几句解释”，但对模型而言更关键的是——你让它的中间状态以什么形式存在。

03.1 离散 CoT 的结构性限制：每一步都得“坍缩成一个 token”

传统 CoT 是离散 token 序列。模型每走一步，都要从词表里采样一个 token。这会带来一个结构性后果：

在不确定时，模型也必须“选一条路先走”。一旦选错，就容易陷入局部路径，需要更多步回退。

03.2 Coconut：把“思维”留在连续隐空间（而不是落到 token）

Coconut 的动作非常干净：用最后隐状态表示“推理状态”，不把它解码成词，而是直接喂回模型作为下一步输入嵌入。(arXiv)

你可以把它写成一个状态迭代：

关键差异在于：是连续向量，它可以天然表达“多个候选状态的叠加”。

Coconut 论文明确提到：连续 thought 可以编码多个备选推理步骤，使模型在一定任务上呈现类似 BFS 的行为。(arXiv)

03.3 “Reasoning by Superposition”：为什么连续 CoT 在图可达性上更快？

这篇理论论文我特别喜欢，因为它把“连续思维为什么强”讲成了一个非常清晰的计算图差异：

两层 Transformer + 连续 CoT 可以解有向图可达性；
离散 CoT 的常深度 Transformer 需要解码步数（是节点数）。(arXiv)

更关键的是他们给了直观解释：

每个连续 thought 向量是一种 superposition state，可同时编码多个搜索前沿（并行 BFS）；离散 CoT 必须从叠加态里采样一条路径，于是变成顺序搜索。(arXiv)

你把它翻译成线性代数会更清楚：用向量表示当前 BFS 前沿（多个节点的叠加），一次扩展相当于邻接矩阵作用后再归一化。连续向量允许这个“前沿向量”同时存在，而离散 token 每步只能选一个节点（坍缩），于是效率差异是结构性的。(arXiv)

3.4 “Emergence of Superposition”：叠加态不是手工注入，而是训练会“自然学出”

上一节讲的是“存在性构造”。但更难的问题是：训练为什么会学到这种叠加策略？

“Emergence of Superposition”分析连续 CoT 在训练中如何出现叠加态，提出一个关键量：index-matching logit，会先增长后保持有界；有界 logit 让模型在不确定时给多条候选路径相近权重，从而维持叠加。(arXiv)

这段话的要点是：

logit 很大 → softmax 近似 one-hot → 你必须“选一条路”
logit 有界 → softmax 保持软分布 → 你能“多条路并行保留”(arXiv)

3.5 “Topology of Reasoning”：把推理过程粗粒化成图，就能讨论“思维结构”

如果说连续 CoT 把推理变成“叠加态搜索”，那另一个我觉得很 RG 的思路是：把推理轨迹投影成一个图对象，再用拓扑量描述它。

“Topology of Reasoning”提出 reasoning graph：聚类每步隐藏态得到节点，按推理步连边，然后分析 cyclicity、diameter、small-world index 等性质，并发现这些结构与任务难度和模型表现相关。(arXiv)

这一招很像 RG：你不再盯每一个 token/每一个状态点，而是把它们“粗粒化成节点”，再研究宏观结构。

4. 训练动力学：SFT、预训练与 RLVR 是三种不同的“参数空间流”

在思考训练动力学时，需要先把“训练目标”写清楚，否则很容易陷入“经验争论”。

4.1 RL 的“自由能”形式：奖励 + KL 锚定 + 熵

RLVR/RLHF 常见的一类形式是：

：可验证奖励（数学/代码等）
KL 项：不让策略偏离参考模型太远（“锚定”）
熵项：鼓励探索（很多实现里这项偏弱或隐式，从而导致熵塌缩问题）

“Entropy Mechanism”直接指出：策略熵变化由“动作概率与 logit 变化的协方差”驱动，而在 policy gradient 下 logit 变化与 advantage 相关，因此协方差往往为正，解释了熵为什么会单调下降。(arXiv)

4.2 RL’s Razor：为什么在线 RL 更少遗忘？

“RL’s Razor”给了一个非常简洁的原则：遗忘与否主要由 fine-tuned policy 和 base policy 在新任务上的 KL 位移决定；而 on-policy RL 隐式偏向“在所有解决新任务的解里，KL 最小的那一个”。(arXiv)

这句话为什么重要？因为它把“遗忘”从玄学变成几何：

RL 更新像在概率单纯形上做保守投影：能完成新任务就行，但尽量别离基模太远。(arXiv)

4.3 RLVR 的“动得少”到底是什么？The Path Not Taken 给了参数空间层面的答案

“The Path Not Taken”几乎是为“训练动力学 RG化”量身定做的：它观察到 RLVR 改动参数很少，但提升推理显著；进一步提出 Three-Gate Theory，并指出 RLVR 更新会偏向 off-principal directions、低曲率、保谱子空间，而 SFT 更倾向主方向更新、谱漂移更大。(arXiv)

你可以把它理解为：

RLVR 不太像“重写知识”，更像“在不破坏基座谱结构的前提下，把某些推理路径变得更常见、更稳定”。(arXiv)

4.4 RL 到底有没有“拓展能力边界”？有必要把这个争论也纳入框架

“Does Reinforcement Learning Really Incentivize Reasoning Capacity Beyond the Base Model?”用大的 pass@k 去测“能力边界”，发现 RLVR 在小（如 1）显著更强，但大时 base model 通过采样可追平甚至更高，说明 RL 更多是在重新加权已有路径，提高采样效率，但也可能让边界更窄。(arXiv)

这对我们写“有效理论”很关键：

训练的“能力提升”可能分两种：扩展可达集合（边界外推） vs 在既有集合内重新分配概率质量（效率提升）。(arXiv)

4.5 训练管线里被忽视的一段：mid-training

“On the Interplay of Pre-Training, Mid-Training, and RL…”用可控合成任务拆分三段贡献，指出 RL 产生真正能力增益（例如 pass@128）需要 pretraining 留 headroom 且 RL 数据瞄准能力边界附近；mid-training 在固定算力下非常关键。(arXiv)

这像什么？像 RG 里不同尺度上的“有效扰动”：

pretraining 决定你落在哪个普适类附近
mid-training 把你推近临界面（边界）
RL 决定你沿哪个方向贴着临界面走

5. LLM 代数 RG 框架

基于以上观察，可以从RG角度把大模型的尺度拆成三类（因为它们对应三种研究对象）：

表示尺度（activation scale）：你看神经元还是看 SAE 特征？
计算尺度（depth / thought step）：你看层数或推理步？
训练尺度（training stage）：pre → mid/SFT → RL 的管线本身就是尺度变化

5.1 Step 1：定义微观变量、哈密顿量/能量函数的类比

微观变量：token、注意力权重、神经元激活
“能量函数/作用量”类比：训练目标或 RL 的正则化回报

甚至可以写一个最粗的“有效能量”：

（这是 RL 里最像“自由能”的形式。）

5.2 Step 2：选择尺度变量，定义粗粒化算子

粗粒化不是比喻，它对应具体操作：

激活粗粒化： SAE 把激活映射为稀疏系数，把“超位置纠缠”变成“稀疏可分解”。(arXiv)
推理轨迹粗粒化： reasoning graph 把轨迹聚类成节点，研究拓扑量（cycle/diameter/small-world）。(arXiv)
权重粗粒化（谱/子空间投影）： “The Path Not Taken”强调 principal / off-principal 子空间的重要性（更新偏置、谱漂移）。(arXiv)

5.3 Step 3：写出“耦合常数”——也就是你要跟踪的宏观参数

这一步是 RG 的灵魂：你不跟踪所有，你跟踪一小组“宏观耦合”。

LLM中的耦合集合如下：

特征稀疏度：或激活强度（对应 SAE）(arXiv)
超位置强度：特征重叠的平均干扰（对应 robust scaling 的几何推导）(arXiv)
推理拓扑量：cycle / diameter / small-world index（对应 reasoning graph）(arXiv)
分布位移：（对应 RL’s Razor）(arXiv)
熵与其下降速率（对应熵机制）(arXiv)
谱漂移/子空间旋转：主奇异子空间的旋转量、谱范数漂移（对应 RLVR off-principal）(arXiv)
共享谱子空间维数（对应 UWSH）(arXiv)

这些量的共同点：都能被写成子空间/谱/协方差/图结构。

5.4 Step 4：写“RG 流方程”——宏观耦合随尺度怎么变？

这一步难以写成close form，但是可以写成足够“物理化”的表示：

然后把不同训练阶段当作不同的“扰动”：

预训练：主要改变“特征字典”和超位置结构（02+robust scaling）(arXiv)
SFT：更可能沿主方向大幅改变谱结构（对比 RLVR 的结论）(arXiv)
RL/RLVR：KL 锚定 + 熵机制 + 几何门控，倾向 off-principal、保谱、但可能熵塌缩（04）(arXiv)
Mid-training：在固定算力下扮演“把系统推近临界/边界”的角色，让 RL 真正有 headroom（interplay 论文）(arXiv)

5.5 Step 5：找不动点与普适类（这一步是“看不全”的解法）

不动点视角：
- RL’s Razor 暗示：on-policy RL 的吸引子更靠近 base policy（KL 最小最优解），像一个稳定流形。(arXiv)
- 熵机制告诉你：如果没有对抗项，熵可能沿流迅速下降，进入“探索耗尽相”（一种相结构）。(arXiv)
普适类视角：
- UWSH 的“共享谱子空间”像一种几何普适性：不同任务的训练会坍缩到相似低维谱子空间（同一普适类）。(arXiv)
- 推理图拓扑量也可能形成另一种普适类：不同模型/数据蒸馏的推理结构落到可比较的拓扑区间。(arXiv)

5.6 Step 6：回到开头那句“看不清/看不全”

写到这里，我们现在基本完成采用RG 语言从“物理”视角看待LLM：

我们用三次粗粒化把大模型压到可研究的尺度：表征上从神经元到稀疏特征（SAE）；推理上从逐 token 轨迹到叠加态/拓扑图；训练上从全参数到谱子空间与 KL/熵等宏观耦合。然后研究这些耦合在预训练—SFT—RL 的尺度流中如何演化，哪些结构稳定、哪些结构决定相变。

拓展阅读

为了方便查阅相关资料，我将这篇文章提及的研究论文列在这里，欢迎大家交流讨论

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
# 表征 / 可解释性 / 超位置
Sparse Autoencoders Find Highly Interpretable Features in Language Models
https://arxiv.org/abs/2309.08600

Superposition Yields Robust Neural Scaling
https://arxiv.org/abs/2505.10465

# 推理 / 连续思维 / 叠加
Training Large Language Models to Reason in a Continuous Latent Space (Coconut)
https://arxiv.org/abs/2412.06769

Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought
https://arxiv.org/abs/2505.12514

Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought
https://arxiv.org/abs/2509.23365

Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties
https://arxiv.org/abs/2506.05744

Do Language Models Use Their Depth Efficiently?
https://arxiv.org/abs/2505.13898

# 训练动力学 / RLVR / 熵 / 遗忘
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
https://arxiv.org/abs/2505.22617

RL's Razor: Why Online Reinforcement Learning Forgets Less
https://arxiv.org/abs/2509.04259

The Path Not Taken: RLVR Provably Learns Off the Principals
https://arxiv.org/abs/2511.08567

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
https://arxiv.org/abs/2504.13837

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
https://arxiv.org/abs/2512.07783

# 权重几何 / 普适子空间 / 连续 RL 几何
The Universal Weight Subspace Hypothesis
https://arxiv.org/abs/2512.05117

Geometry of Neural Reinforcement Learning in Continuous State and Action Spaces
https://arxiv.org/abs/2507.20853

# 持续学习
Continual Learning via Sparse Memory Finetuning
https://arxiv.org/abs/2510.15103

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-12-27，如有侵权请联系 cloudcommunity@tencent.com 删除

集合

本文分享自赛博解生微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度