——泛化性、推理能力与训练动力学(个人阅读笔记版)
大家好,我是赛博解生酱。最近读了大量关于大模型的理论研究,涉及强化学习,泛化性,特征研究等各个方面。层出不穷的研究及进展背后,事实上是无数个LLM相关的孤立的现象与局部优化。将这一批“推理大模型/后训练/可解释性”的论文串起来仔细研究后,越读越强烈地感觉:我们其实缺的不是更多现象,而是一套能把现象压缩成同一张图的语言。
回到物理里一句非常有画面感的总结:太小的结构我们看不清,太大的结构我们看不全。
于是物理学家发明了重整化群(RG:renormalization group):不断“粗粒化”(coarse-grain)系统,把看不清的细节压掉,把看不全的复杂性投影到少数几个宏观参数上,然后研究这些参数如何在尺度变换下如何流动,以及哪些结构在流动中保持不变(不动点/普适类)。
这篇文章(非严格数学,更类似读后感吧)想做的是从代数角度:把“大模型的泛化、推理、训练动力学”也写成一套代数化的 RG 图像,在这之后会从信息论以及流形角度对大模型原理进行分析(即大模型原理-信息篇与流形篇)。代数篇的主线可以总结为三句话:
下面按 RG 的写法,从“系统定义 → 可观测量 → 粗粒化 → 流动 → 不动点/普适类”一路推进。
语言模型最简洁的形式可以写成一个策略函数:
这里表示小于的序数集合,训练可以被看作在参数空间 上的梯度流:
或
但问题也立刻出现:
RG 的套路是:找一组“粗粒化后的可观测量”,并在这些量上写出“有效理论”。
在 Transformer 里,我最喜欢的“中间尺度”对象是:残差流(residual stream)。因为它把每一层都投到同一个 -维向量空间里,天然可用线性代数来写。
“Transformer 一层”段落改成严格的 Pre-LN 形式(现代大模型主流):
设第 层输入是 ,则一层由两次残差更新组成:
(1) Attention 子层:
(2) MLP 子层:
注意力内部(单头写法):
为什么这很“RG”?因为每一层不是“重写表示”,而是在同一个向量空间里做小步增量。你可以把层数 直接当作一种“尺度变量”,把残差增量当作“在尺度上积分掉某些自由度之后的有效作用”。
很多人第一次做机理解释都会走同一条路: “我能不能找一个神经元,它只在某个语义出现时亮?” 比如“只在出现否定时亮”,“只在出现法国地名时亮”。
但很快会遇到挫败:一个神经元往往在多个互不相干的场景下都激活。这就是所谓 神经元多义性(polysemanticity)——一个神经元“身兼数职”。Cunningham 等在 SAE 论文里把它当作可解释性的核心障碍之一来讨论。(arXiv)
直觉上,多义性像是解释失败;但 SAE 这条线索给了一个更结构性的解释:
模型要表示的“有用特征”(features)数量,往往远大于它拥有的神经元/维度。于是模型会把多个特征“塞进同一个维度空间里”,这叫 superposition(超位置)。(arXiv)
这里“特征”你可以理解为:对任务有因果贡献的方向/概念,比如“这是数字推理”、“这是代码缩进结构”,“这是反问语气”。
当特征数 远大于表示维度 时,模型没法给每个特征分配一个独立神经元,只能把它们叠放在同一空间里。
用一个很简单的代数形式表示就是:
当 时,不同 必然共享子空间,于是你在“神经元坐标系”里看到的就是:一个神经元同时响应多种语义——多义性是超位置的表象。(arXiv)
到这里,逻辑链条才完整:(想解释神经元) → 发现多义性 → 怀疑结构性原因 → 引出超位置。
如果多义性是因为特征叠放,那更自然的解释单位就不是神经元,而是“特征方向”。问题变成:
我能不能从激活 里,自动学习出一组“特征方向”,使得每个样本只激活很少几个方向?
这正是 稀疏自编码器(Sparse Autoencoder, SAE) 做的事: 它学习一个“编码器”把 变成稀疏的特征系数 ,再用“解码器”把这些系数还原回 。(arXiv)
核心公式是:
别急着跳过,我逐行解释它为什么合理:
这套机制的直觉是:
重构项保证忠实,稀疏项保证可分解。把它们放在一起,你就在激活空间里得到了一套“更接近单义”的坐标系。(arXiv)
在论文 “Superposition Yields Robust Neural Scaling” 中,一个很强的感受是: 他们试图把“缩放律”从经验现象拉回到一个非常几何的机制:当超位置很强时,许多向量被压进低维空间,特征之间的干扰(重叠平方和)按 量级缩放,从而得到对数据频率分布更不敏感的“稳健缩放”。(arXiv)
这里我不展开 toy model 的推导,只强调结论的前因后果:
讲推理之前,我先把一个常见误解说清楚: 很多人把 CoT 当成“多写几句解释”,但对模型而言更关键的是——你让它的中间状态以什么形式存在。
传统 CoT 是离散 token 序列。模型每走一步,都要从词表里采样一个 token。 这会带来一个结构性后果:
在不确定时,模型也必须“选一条路先走”。 一旦选错,就容易陷入局部路径,需要更多步回退。
Coconut 的动作非常干净:用最后隐状态表示“推理状态”,不把它解码成词,而是直接喂回模型作为下一步输入嵌入。(arXiv)
你可以把它写成一个状态迭代:
关键差异在于: 是连续向量,它可以天然表达“多个候选状态的叠加”。
Coconut 论文明确提到:连续 thought 可以编码多个备选推理步骤,使模型在一定任务上呈现类似 BFS 的行为。(arXiv)
这篇理论论文我特别喜欢,因为它把“连续思维为什么强”讲成了一个非常清晰的计算图差异:
更关键的是他们给了直观解释:
每个连续 thought 向量是一种 superposition state,可同时编码多个搜索前沿(并行 BFS); 离散 CoT 必须从叠加态里采样一条路径,于是变成顺序搜索。(arXiv)
你把它翻译成线性代数会更清楚: 用向量 表示当前 BFS 前沿(多个节点的叠加),一次扩展相当于邻接矩阵作用后再归一化。连续向量允许这个“前沿向量”同时存在,而离散 token 每步只能选一个节点(坍缩),于是效率差异是结构性的。(arXiv)
上一节讲的是“存在性构造”。但更难的问题是:训练为什么会学到这种叠加策略?
“Emergence of Superposition”分析连续 CoT 在训练中如何出现叠加态,提出一个关键量:index-matching logit,会先增长后保持有界;有界 logit 让模型在不确定时给多条候选路径相近权重,从而维持叠加。(arXiv)
这段话的要点是:
如果说连续 CoT 把推理变成“叠加态搜索”,那另一个我觉得很 RG 的思路是:把推理轨迹投影成一个图对象,再用拓扑量描述它。
“Topology of Reasoning”提出 reasoning graph:聚类每步隐藏态得到节点,按推理步连边,然后分析 cyclicity、diameter、small-world index 等性质,并发现这些结构与任务难度和模型表现相关。(arXiv)
这一招很像 RG:你不再盯每一个 token/每一个状态点,而是把它们“粗粒化成节点”,再研究宏观结构。
在思考训练动力学时,需要先把“训练目标”写清楚,否则很容易陷入“经验争论”。
RLVR/RLHF 常见的一类形式是:
“Entropy Mechanism”直接指出:策略熵变化由“动作概率与 logit 变化的协方差”驱动,而在 policy gradient 下 logit 变化与 advantage 相关,因此协方差往往为正,解释了熵为什么会单调下降。(arXiv)
“RL’s Razor”给了一个非常简洁的原则:遗忘与否主要由 fine-tuned policy 和 base policy 在新任务上的 KL 位移决定;而 on-policy RL 隐式偏向“在所有解决新任务的解里,KL 最小的那一个”。(arXiv)
这句话为什么重要?因为它把“遗忘”从玄学变成几何:
RL 更新像在概率单纯形上做保守投影:能完成新任务就行,但尽量别离基模太远。(arXiv)
“The Path Not Taken”几乎是为“训练动力学 RG化”量身定做的:它观察到 RLVR 改动参数很少,但提升推理显著;进一步提出 Three-Gate Theory,并指出 RLVR 更新会偏向 off-principal directions、低曲率、保谱子空间,而 SFT 更倾向主方向更新、谱漂移更大。(arXiv)
你可以把它理解为:
“Does Reinforcement Learning Really Incentivize Reasoning Capacity Beyond the Base Model?”用大 的 pass@k 去测“能力边界”,发现 RLVR 在小 (如 1)显著更强,但大 时 base model 通过采样可追平甚至更高,说明 RL 更多是在重新加权已有路径,提高采样效率,但也可能让边界更窄。(arXiv)
这对我们写“有效理论”很关键:
训练的“能力提升”可能分两种:扩展可达集合(边界外推) vs 在既有集合内重新分配概率质量(效率提升)。(arXiv)
“On the Interplay of Pre-Training, Mid-Training, and RL…”用可控合成任务拆分三段贡献,指出 RL 产生真正能力增益(例如 pass@128)需要 pretraining 留 headroom 且 RL 数据瞄准能力边界附近;mid-training 在固定算力下非常关键。(arXiv)
这像什么?像 RG 里不同尺度上的“有效扰动”:
基于以上观察,可以从RG角度把大模型的尺度拆成三类(因为它们对应三种研究对象):
甚至可以写一个最粗的“有效能量”:
(这是 RL 里最像“自由能”的形式。)
粗粒化不是比喻,它对应具体操作:
这一步是 RG 的灵魂:你不跟踪所有 ,你跟踪一小组“宏观耦合”。
LLM中的耦合集合如下:
这些量的共同点:都能被写成子空间/谱/协方差/图结构。
这一步难以写成close form,但是可以写成足够“物理化”的表示:
然后把不同训练阶段当作不同的“扰动”:
写到这里,我们现在基本完成采用RG 语言从“物理”视角看待LLM:
我们用三次粗粒化把大模型压到可研究的尺度:表征上从神经元到稀疏特征(SAE); 推理上从逐 token 轨迹到叠加态/拓扑图; 训练上从全参数到谱子空间与 KL/熵等宏观耦合。 然后研究这些耦合在预训练—SFT—RL 的尺度流中如何演化,哪些结构稳定、哪些结构决定相变。
为了方便查阅相关资料,我将这篇文章提及的研究论文列在这里,欢迎大家交流讨论
ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line
# 表征 / 可解释性 / 超位置
Sparse Autoencoders Find Highly Interpretable Features in Language Models
https://arxiv.org/abs/2309.08600
Superposition Yields Robust Neural Scaling
https://arxiv.org/abs/2505.10465
# 推理 / 连续思维 / 叠加
Training Large Language Models to Reason in a Continuous Latent Space (Coconut)
https://arxiv.org/abs/2412.06769
Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought
https://arxiv.org/abs/2505.12514
Emergence of Superposition: Unveiling the Training Dynamics of Chain of Continuous Thought
https://arxiv.org/abs/2509.23365
Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties
https://arxiv.org/abs/2506.05744
Do Language Models Use Their Depth Efficiently?
https://arxiv.org/abs/2505.13898
# 训练动力学 / RLVR / 熵 / 遗忘
The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models
https://arxiv.org/abs/2505.22617
RL's Razor: Why Online Reinforcement Learning Forgets Less
https://arxiv.org/abs/2509.04259
The Path Not Taken: RLVR Provably Learns Off the Principals
https://arxiv.org/abs/2511.08567
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
https://arxiv.org/abs/2504.13837
On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
https://arxiv.org/abs/2512.07783
# 权重几何 / 普适子空间 / 连续 RL 几何
The Universal Weight Subspace Hypothesis
https://arxiv.org/abs/2512.05117
Geometry of Neural Reinforcement Learning in Continuous State and Action Spaces
https://arxiv.org/abs/2507.20853
# 持续学习
Continual Learning via Sparse Memory Finetuning
https://arxiv.org/abs/2510.15103