大模型原理三部曲-信息篇：从统计物理、信号处理到控制与信息论的一体框架

赛博解生

发布于 2026-04-09 13:18:15

2380

摘要

大家好，我是赛博解生酱，今天给大家带来大模型原理三部曲的最后一篇：信息篇。代数篇里我将一堆看似分散的 LLM 现象（SAE/超位置、连续 CoT、RLVR 的“动得少但变强”）压缩成一套“重整化群”的语言。在信息篇中，我将把“从“表征”到“推理””这个“大主题”拆成三个小主题，并从统计物理、信号与信息论的角度进行介绍。深度学习（尤其是大模型/基础模型）在工程上表现为“端到端拟合 + 自回归生成 + 对齐与工具增强”。要给出真正“第一性原理”的解释，最有穿透力的方式不是从某个具体架构出发，而是从概率分布、信息、能量、动力学与最优控制等对象出发，给出一个统一的变分目标，然后把训练、推理、对齐、检索、代理（agent）等现象全部解释为该目标在不同约束/不同近似下的同构实现。

本篇从三个方面进行整合：

统计物理：学习 = 在高维能量地形上重排概率质量；泛化/相变/尺度律可用热力学与随机动力系统语言刻画。
信号处理：生成 = 深度自回归；注意力 = 内容自适应、时变的多通道滤波/核回归；Transformer 与状态空间模型（SSM）存在可形式化的对应。
控制与信息论：对齐 = 受信息预算（KL）约束的最优控制；RLHF/DPO/推理时搜索/工具调用可统一为“控制即推断（control-as-inference）”。

总览：KL/自由能最小化是“总方程”
统计物理视角：能量、熵、自由能与训练动力学
信号处理视角：VAR/状态空间、注意力作为自适应滤波器
控制与信息论视角：KL 正则化控制、RLHF/DPO 与推理时规划
一体化推论：为什么“规模化 + 结构化推理 + 外部工具 + 对齐”会同时发生
待解问题与潜在解决方案

1. 总览：KL/自由能最小化是“总方程”

1.1 关键对象：数据分布、模型分布、目标分布

物理里一个极其强的套路是：把复杂系统写成“某个泛函最小化”。在深度学习里同样如此：你几乎总是在做 KL（相对熵）最小化。设真实世界产生数据的分布为。深度学习训练一个参数化分布逼近它。无论是分类、回归、生成，最终都可写成某种分布匹配。最基本的目标是极大似然（MLE）：

利用交叉熵分解：

因此 MLE 等价于最小化。这是第一性原理的第一块基石：训练就是在 KL 意义下逼近真实分布。而对于参数化分布，在大模型中常用自回归分解：

表示小于的序列集合，Transformer 之所以成为主流序列建模骨干，是因为它把这一条件分布族做到了表达力强、可并行训练、可扩展（self-attention）。(arXiv)

变分视角：变分推断的经典恒等式是：对任意

因此最大化 ELBO 等价于最小化后验 KL.统计物理的“变分自由能”就是把这个分解改写成能量—熵形式,令能量，则(arXiv)：

其中是熵。这就是 （无温度常数的）自由能泛函：

所以当你看到大模型里反复出现

entropy 正则
指数重加权（Boltzmann / Gibbs）不要把它当成“工程技巧”，它是变分原理的必然结果。

1.2 统一的“总方程”：变分自由能 / KL 最小化

为了从同一个数学框架看待LLM，我们引入更一般的“目标分布” （可以是数据、隐变量轨迹、行动轨迹等），以及模型可表示的近似族。统一目标：

当、、：得到 预训练/MLE。
当、：得到 变分推断（ELBO）。
当是控制轨迹、：得到 最大熵 RL / 控制即推断（下文详述）。(arXiv)
当引入 “别偏离基座太多” 的 KL 约束：得到 RLHF/DPO 等对齐目标。(arXiv)

这条“总方程”即是信息篇的骨架。

2. 统计物理视角：能量、熵、自由能与训练动力学

统计物理的贡献不在于“把神经网络硬说成自旋玻璃”，而在于它提供了一套处理高维随机系统的语言：能量landscape、配分函数、自由能、相变、临界现象、随机动力学。深度学习恰好是一个在高维参数空间里做随机优化的系统，所以这些概念天然对齐。(Neural Dynamics and Computation Lab)

2.1 能量模型形式：NLL = 能量 + 自由能

能量模型（Energy-Based Model, EBM）的基本定义是：

于是负对数似然（NLL）满足：

这里是配分函数的对数，对应物理里的（无温度系数时的）自由能项：它保证归一化，也意味着“全空间竞争态”都会影响学习。LeCun 的 EBM 教程把这套框架作为统一视角：很多判别/生成/结构化预测模型都能写进同一个“能量 + 推断 + 学习”框架里。

为什么这对自回归大模型有意义？自回归模型每一步 softmax 都显式归一化，相当于把全局分解成一串局部配分函数（每步词表归一化）。但“能量 + 归一化常数”的结构没有消失，而是被分摊到每个条件分布：

这里表示小于的序列集合，每项都包含一个“局部能量差 + 局部 ”（softmax 分母）。因此：能量语言不是只能讲 EBM，它实际上也解释了 softmax/温度/熵/KL 为什么总出现。

2.2 SGD 作为随机动力系统：训练 = 非平衡系统演化

SGD 更新：

其中是小批量梯度，等于真梯度加噪声。把噪声项抽象为近似高斯扰动（在一定条件下成立），SGD 可被视为某种离散化的随机微分方程（Langevin 类动力学）。这条线索使得“学习率、批大小、动量”等超参可以被解释为系统温度、摩擦与噪声强度，从而讨论训练的“稳态分布”。Mandt 等人给出了“常数学习率 SGD 的稳态分布近似后验”的系统分析框架。(arXiv)

这提供了一个很“第一性”的解释：训练并非只是找一个点估计，而是在高维能量地形上进行带噪探索，最终停在某个由超参决定的“有效温度稳态”附近。

2.3 泛化与“相变”：double descent 与过参数化

经典统计学习理论强调“偏差—方差权衡”，但现代深度学习常处于极端过参数化：训练误差趋近 0，却仍能泛化。double descent 现象为这一点提供了清晰的可视化：当模型容量跨过插值阈值时，测试误差可能先升后降。Belkin 等给出了double descent 在简单模型中的严格分析。(arXiv)

统计物理进一步提供“相变/临界”的语言：在某些控制参数（如参数量、数据量、噪声强度、正则系数）变化时，系统的典型结构（极小值形态、Hessian 谱、平坦方向数量、可解性等）会发生类似相变的突变或临界缩放。Bahri 等综述系统讨论了深度学习与随机景观、jamming、相变、混沌等的联系。(Neural Dynamics and Computation Lab)

2.4 规模化（scaling laws）：经验尺度律与“计算最优”训练

语言模型损失随模型规模/数据规模/算力呈幂律规律是近年最重要的经验发现之一：Kaplan 等系统总结了语言模型的尺度律。(arXiv)。随后 Hoffmann 等在“计算最优训练（Chinchilla）”中指出：在给定算力下，参数量与训练 token 数应更接近“等比例扩展”，并给出大量实证。(arXiv)

第一性解释（从统计物理角度的直觉）可以这样组织：

模型容量增大，相当于可表达的“微观态”变多；
数据增多，相当于对能量地形施加更多约束项；
算力限制决定系统能探索到的“有效自由能最低区域”的深度；
幂律意味着：在相当宽的尺度区间内，系统表现出某种“自相似”（scale invariance）或近似临界结构，这在复杂系统中并不罕见。

同时，业界也在讨论“仅靠 scaling 是否足够”。例如有观点认为需要更强的世界模型、规划与记忆机制，而不仅是堆算力与数据（这是一个重要分歧点，Lecun 等认为世界模型才能实现真正的AGI）。

3. 信号处理视角：VAR/状态空间、注意力作为自适应滤波器

如果统计物理解释“为什么训练像复杂系统”，信号处理解释的则是：为什么 Transformer 的计算结构像一套可学习的滤波器/预测器，以及为何它能在离散符号上实现类似时序建模的能力。

3.1 从线性自回归到向量自回归 VAR(p)

经典多元时间序列模型 VAR(p)：

它刻画“当前向量由过去若干步线性组合 + 噪声”生成，是多元自回归的标准形式。(UW Faculty)

VAR(p) 可以写成伴随（companion）状态空间形式，把阶系统变为 1 阶扩维系统。令扩维状态

则存在矩阵使

其中的第一行块是，其余块是移位用的单位阵。该表示把“高阶记忆”变成“高维状态”，这是理解现代序列模型的关键桥梁（Transformer/SSM 都在做“用高维状态承载长记忆”，只是机制不同）。

3.2 注意力 = 核回归（Nadaraya–Watson）= 自适应滤波

单头缩放点积注意力：

这在数学上与 Nadaraya–Watson 核回归同构：核回归估计

只要取核函数，就得到注意力权重形式。D2L 用核回归讲注意力机制，明确指出“注意力池化可以视为非参数核回归”。(Brightspace)

这条同构非常关键，因为它把注意力从“神经网络模块”翻译成信号处理语言：

是“要被滤波/聚合的信号”；
是内容依赖的、时变的滤波系数；
softmax 的归一化确保权重和为 1，使其像概率加权的平滑器。

3.3 Transformer 是“非线性、时变、数据依赖的 VAR/状态空间”

把注意力输出写成序列形式。令第步的 value 序列为，则

这像不像 VAR？非常像，但有两个关键升级：

系数不固定：由决定，取决于当前内容与历史内容，相当于“状态依赖的 VAR”。
输入不是原始观测而是表示：，，。也就是说，滤波在一个学习到的特征空间中进行。

多头注意力进一步像“滤波器组”（filter bank）：不同头对应不同子空间的核与不同的动态聚合模式（近似不同频段/不同关系类型的滤波）。Transformer 的深层堆叠则对应“多级滤波 + 非线性 + 残差反馈”的深度系统。

这就是“信号处理篇”的第一性结论：

大模型的自回归生成并不只是“统计拟合”，它实现了一套可学习的、内容自适应的时变滤波/预测系统。

3.4 长上下文与复杂度：为什么要 FlashAttention 与 SSM（Mamba）

标准注意力的时间/显存复杂度近似。这在长上下文时成为瓶颈，于是出现两类关键进展：

（A）算法工程：让 exact attention 更快FlashAttention 的主张是：要获得极致加速，必须 IO-aware，用分块/tiling 减少 HBM 与 SRAM 间的读写，并给出对 IO 复杂度的分析与“在一定 SRAM 范围内最优”的结论；同时可支持更长上下文并带来质量收益，从而显著降低显存访问成本。(arXiv)

这一点所带来的启发是：

很多“结构创新”最终是否成立，不仅取决于表达能力，还取决于它能否匹配硬件内存层次结构。

（B）架构路线：用状态空间模型（SSM）做线性时间序列建模Mamba 提出选择性状态空间模型，在语言等“信息密集序列”上展示了很强表现，并认为在某些情况下可实现更好的长序列效率。(arXiv)

S4 明确把序列建模写成经典控制/信号里的 SSM：

并强调其在长依赖上的理论与工程优势。(arXiv)

离散化后可写作

把递推展开：

代回得到卷积形式：

所以 SSM 同时拥有两种等价视角：

递推视角（RNN/滤波）：隐状态携带记忆；
卷积视角（LTI 滤波）：是冲激响应。

S4 的关键工程贡献之一是：通过结构化参数化让这种卷积/递推在超长序列上可高效计算，同时保持理论强项。(arXiv)

很多亚二次结构（线性注意力、卷积、SSM）在语言上曾落后于标准注意力。在SSM基础上，Mamba 的定位就是：指出这类结构的弱点在于缺少“内容依赖的推理/路由”，并通过让 SSM 参数成为输入的函数（selective SSM）来补齐；同时给出硬件友好的并行递推算法，实现线性时间并在长序列上扩展到百万级长度。

如果用第一性语言总结这两路线：

FlashAttention 是“同一个算子（注意力）更高效的实现”；
SSM/Mamba 是“换一种滤波器族”：用显式状态递推（通常是线性/近线性结构）承载长记忆，复杂度更接近。

3.5 RAG = 外部记忆/观测增强：把“上下文”从有限窗口扩展到可检索世界

检索增强生成（RAG）的信号处理解释是：你给系统额外的“观测通道”，在生成时对外部数据库进行条件检索，将检索结果作为新的输入信号注入滤波/预测过程。

RAG 的系统化综述强调了其演化路径与未来方向，并指出它主要用于缓解幻觉、知识时效性等问题。(arXiv)

但 RAG 也带来新的系统挑战：隐私泄露、提示注入、访问控制等（后文“安全挑战”详述，并给出“可证明安全 RAG”等路线）。(arXiv)

4. 控制与信息论视角：KL 正则化控制、RLHF/DPO 与推理时规划

这一部分我用一句话做开场：

语言模型生成 token 的过程，本身就是一个随机策略；一旦你谈“偏好/奖励/安全”，你就在做最优控制。

4.1 最大熵 RL：把“探索”写进目标函数（信息论角度就是加熵正则）

最大熵 RL 的标准目标是：

Soft Actor-Critic（SAC）正是这一框架的代表：策略既要拿到回报，也要保持高熵以获得更稳定/更鲁棒的学习。(arXiv)

而把 RL 写成控制即推断（control as inference）时，Levine 的综述给出系统推导：在确定性动力学下可等价为精确推断，在随机动力学下对应变分推断。(arXiv) 这一步是“整合框架”的关键桥梁：控制 ⇄ 推断，于是“对齐”就能被写成“后验修正”。

当模型不仅“预测下一个 token”，还要“为了目标生成更好的输出”（更符合偏好、更安全、更能完成任务），问题就从纯预测进入决策与控制。

从控制论的视角，我们可以把“对齐与推理策略”写成一个明确的最优化问题，并解释为什么 KL 正则化会自然出现。

4.2 控制即推断（control-as-inference）：奖励指数化得到 Gibbs 轨迹分布

考虑轨迹。在没有任何外部奖励的情况下，设“被动动力学/先验策略”诱导的轨迹先验为。在RL训练中，我们希望引导整个系统朝我们偏好的方向发展，引入“最优性变量”并令

则条件于全程“最优”的轨迹后验满足

这就是统计物理的 Gibbs 形式：能量，温度。Levine 的综述系统阐述了 RL 与概率推断的统一视角；最大熵 RL（如 SAC）直接以“奖励 + 熵”形式优化策略。(arXiv)

4.3 KL 正则化最优控制：对齐的“闭式核心”

在大模型对齐中，我们几乎总要限制新策略不要偏离基座模型太远。最常见的形式是：

更完整的正则化回报形式则是：

上式即是控制论、信息论、统计物理三者在同一位置的交汇点，其中是提示/状态，是对整段输出的奖励或偏好得分，是信息预算（越小越“低温”，越强调奖励），其含义非常控制论：

奖励：任务驱动；
KL：别离参考策略太远（信任域/锚定）；
熵：保持探索，避免早熟坍缩。(arXiv)

对“单步决策/上下文 bandit”情形，上式有闭式解（指数倾斜）：

引入拉格朗日函数并对做变分，可得最优满足

这条公式解释了为什么对齐算法里反复出现：

“基座分布 ”
“奖励指数化”
“归一化常数（配分函数）”
“温度/ KL 系数”

也就是说：最优策略 = 在参考策略上做指数加权的后验重标定。这就是“KL 控制/后验推断”的核心形状（control-as-inference 视角下尤其自然）。(arXiv)它告诉你很多所谓“后训练魔法”，本质只是把概率质量从参考分布挪到高回报区域——至于挪得多猛，由决定。

4.4 RLHF：PPO + KL 罚项是上述原则的数值实现

InstructGPT（OpenAI）展示了典型 RLHF 流程：先监督微调（SFT），再训练奖励模型（RM），最后用强化学习（常见是 PPO）在 KL 约束下优化策略，使其更符合人类偏好与更少毒性/更高真实性。(arXiv)

用第一性表达，RLHF 的核心目标可写为（省略细节）：

其中是参考模型（常取 SFT 模型或基座模型），KL 用来抑制策略漂移与 reward hacking。

4.5 DPO：把“KL 正则化 RLHF”化为一个分类损失

DPO 的核心主张是：对 RLHF 的奖励模型做一种参数化后，可以在闭式形式中提取与标准 RLHF 相同目标的最优策略，从而把问题化为一个简单的偏好分类损失，避免在微调阶段再做采样与复杂 RL 调参。(arXiv)

DPO 常见写法（对每个偏好对）：

其中是 logistic sigmoid，控制偏好强度（相当于温度的倒数）。定义：

则 DPO 目标（典型写法）是最大化：

等价于最小化 logistic loss。它的“第一性原理解释”是：

是模型把概率质量从挪到的对数比；
减去相当于以参考策略为基线做“后验重标定”；
对应 KL 温度/信任域强度。

这与“指数倾斜”的第一性公式完全同构：你在做的是“相对 reference 的 log-likelihood ratio”提升。此外，偏好学习仍在快速演进，2025 年也有对 DPO 偏好建模假设的再审视工作（如 BPO）。(arXiv)

4.6 Constitutional AI / AI Feedback：把监督与对齐扩展到“可扩展监督”

Constitutional AI 提出用一组“原则/宪法”让模型进行自我批评与修订，在较少人工逐条标注的情况下提升无害性与一致性，是“用 AI 监督 AI”的重要方向。(arXiv)

其第一性意义：当人类监督资源有限时，你需要把监督写成可组合、可复用、可审计的规则/评价器，使其能在控制即推断框架中扮演奖励/约束的角色。

4.7 推理时计算（inference-time compute）= 规划 + 验证：从 ToT 到 ReAct 到工具学习

训练给了你一个先验策略，推理时你常常还叠加一个“验证器/任务奖励” ，然后用采样/搜索近似最大化：

Tree of Thoughts（ToT）：在“思维节点”上做树搜索，显式引入探索与回溯，典型就是把生成视为规划问题。(arXiv)
ReAct：把“推理轨迹”与“行动（检索/调用环境）”交错生成，本质是在线 MPC（模型预测控制）：生成—行动—观测—校正循环。(arXiv)
Toolformer：让模型学会何时调用外部工具（计算器、检索、翻译等），相当于把系统从纯语言模型扩展为“带外部观测与执行器的控制系统”。(arXiv)

这一切在第一性上是一件事：把不可微或难以端到端学到的能力（计算、检索、执行）外包给工具，并通过控制/规划把它们组合起来。

5. 一体化推论：为什么“规模化 + 结构化推理 + 外部工具 + 对齐”会同时发生？

把前面所有结论压到一张“可以推导”的统一式子里，可以用一个广义自由能/广义 ELBO 的写法来装下训练目标（5.1）：

5.1 统一的“广义目标函数”（目标函数角度拆解）

对每个输入，模型在输出序列上定义策略。考虑一个包含三类项的泛函：

统计学习：拟合数据（）控制：信任域锚定信息论：最大熵探索

只保留第一项：就是预训练（最大似然）。
加上 KL + 熵：就是 RLHF/RLVR 一类后训练的“自由能式”目标（与 control-as-inference 自然同构）。

把前面所有内容压缩成三条链：

5.2 训练为什么像统计物理：因为你在高维空间做带噪优化与分布匹配

目标函数是 KL/交叉熵（信息量）；
SGD 是带噪动力学（温度）；
模型规模变化会触发结构变化（相变/临界/双降）；
幂律 scaling 说明在一定尺度区间存在近似自相似结构。(arXiv)

5.3 架构为什么像信号处理：因为注意力就是核回归，堆叠后就是非线性状态空间

注意力是归一化核加权（滤波/估计）；
多头是滤波器组；
残差与层叠形成深度动态系统；
长上下文需求推动 IO-aware attention（FlashAttention）与线性时间 SSM（Mamba）。(Brightspace)

5.4 对齐与推理策略为什么像控制：因为“目标 + KL 约束”必然导出 Gibbs/softmax 形式

RLHF 的 KL 罚项不是工程补丁，而是信息论控制的自然形式；(arXiv)
DPO 是把该目标化成稳定的监督式优化；(arXiv)
ToT/ReAct/工具调用是在推理时做近似规划与后验重加权；(arXiv)

6. 待解问题与潜在解决方案

问题 1：可靠性与幻觉——模型缺乏可校准的不确定性表达

问题本质（第一性）自回归模型训练的目标是最大化似然：它被强烈驱动去输出“在训练分布上平均更可能的 token 序列”。但“事实正确”不是等价目标；当上下文不足或问题超出分布时，模型仍会给出高置信的流畅答案，即幻觉。

幻觉研究已形成系统分类、检测与缓解路线图的综述体系。(arXiv)

潜在解决方案（可组合路线）

观测增强：RAG / 工具检索 / 多源证据聚合把“缺失信息”转化为“可查询观测”，等价于强化贝叶斯滤波中的 measurement update。RAG 的系统综述给出了模块化演进路线。(arXiv)
验证器/裁判：生成-验证分离（generate–verify）训练或使用外部 verifier（事实核验、单元测试、逻辑一致性检查）来近似优化。 ToT/ReAct 等属于这一类的推理时规划。(arXiv)
不确定性与“可拒答”的评分规则从信息论角度，把“乱猜”视为负效用：修改评价与训练，使模型在证据不足时倾向输出“我不知道/需要检索”。

问题 2：对齐的可扩展性——偏好数据稀缺、目标错设与 reward hacking

问题本质（第一性）对齐是一个受信息预算约束的最优控制问题：你需要在“提升偏好奖励”与“保持语言先验/能力”之间做率失真权衡。偏好信号若不完备或目标错设，就会出现 reward hacking、策略漂移、多样性塌缩等。

RLHF 的有效性与复杂性已在 InstructGPT 等工作中展示；DPO 提供更稳定更简单的替代，但偏好建模假设仍是活跃研究区。(arXiv)

潜在解决方案

偏好学习范式的稳健化：改进 DPO 类目标的统计假设、引入更鲁棒的偏好噪声模型、做分布鲁棒优化（DRO）来抵抗偏好偏差。(arXiv)
过程监督（process supervision）与可解释约束：从“只评价最终答案”走向“评价推理过程/中间决策”，减少投机路径（specification gaming）。
AI 反馈与宪法原则：用 Constitutional AI 思路，把监督编码成可审计规则，让 AI 帮助生成/筛选训练信号，缓解人类标注瓶颈。(arXiv)

问题 3：长上下文与记忆—— 与“可泛化记忆”之间的结构矛盾

问题本质注意力是强表达力的内容依赖滤波器，但全连接注意力导致的计算与显存压力；同时，模型对“超长上下文”的泛化与鲁棒性仍有限。

潜在解决方案

IO-aware exact attention：FlashAttention 等优化让同一算子更高效。(arXiv)
架构替代：SSM/Mamba 与混合模型把“显式状态递推”用于长记忆承载，兼顾表达力与线性复杂度；Mamba 是该路线的重要代表。(arXiv)
外部记忆：RAG/向量数据库/结构化存储将记忆从参数内迁移到可更新外存，但要解决安全与一致性。(arXiv)

问题 4：安全与攻击面——提示注入、越狱、数据投毒、RAG 泄露

问题本质（第一性）当模型进入“代理化”（能调用工具、执行动作）时，输入不再只是用户文本，还包括网页内容、检索片段、工具返回。于是系统变成了典型的“受污染观测的控制系统”。攻击者可以通过 prompt injection / jailbreak 改写控制目标或诱导泄露。

OWASP 已将 prompt injection 作为 GenAI 风险中的关键类别，并强调需要系统级防御。(OWASP Gen AI Security Project)
越狱攻击与防御已有系统化综述与分类。(arXiv)

RAG 系统还引入“向量库/embedding”层面的新攻击：embedding inversion、越权检索、检索污染等。近期出现了试图给出“可证明安全”或端到端安全框架的研究。(arXiv)

潜在解决方案（系统工程 + 理论）

最小权限与强访问控制：检索与工具调用必须继承源系统权限（而不是把数据集中到一个弱控制的向量库里）。
信息流隔离：把“指令通道”和“数据通道”分离，检索结果默认作为“不可执行数据”，需要显式的策略层批准才能影响系统指令。
安全训练与红队闭环：将 prompt injection / jailbreak 作为对抗样本分布纳入对齐，做持续评估与迭代。
形式化安全 RAG：采用具备形式化保证的 secure RAG 结构，至少在机密性/完整性层面给出可验证的安全边界。(arXiv)

问题 5：可解释性与可控性——我们缺少“可扩展的机制级理解”

问题本质当前模型规模巨大、内部表征高度分布式。我们缺少在机制层面回答“模型为何在此输入下产生此输出”的方法，这直接影响安全、调试、可靠性与对齐。

机制可解释性（mechanistic interpretability）已形成面向 AI 安全的系统综述，并明确指出其可扩展性、自动化与完整解释仍是核心难题。(arXiv)

潜在解决方案

自动化电路发现与因果干预工具链：从“看激活”走向“可操控的因果图谱”。
以可解释性为约束的训练/蒸馏：让模型在保持能力的同时更“结构化”（例如通过稀疏化、模块化、可组合子网络）。
解释与能力的双刃剑管理：该领域也强调 interpretability 可能带来能力提升与双重用途风险，需要治理与发布策略配合。(arXiv)

问题 6：评估与污染——基准饱和、训练数据泄漏、静态评测失真

问题本质当训练数据规模覆盖互联网，很多评测集可能被“见过”或可被检索到；模型可能对静态基准过拟合，导致评估失真。

数据污染已出现专门综述，讨论定义、影响与“无污染评估”的策略（动态基准、改写、预防）。(arXiv)

与此同时，行业也在推进更系统的风险与可靠性评估基准，如 MLCommons 的 AILuminate（覆盖多类风险提示测试）。(MLCommons) 新加坡 IMDA/AI Verify 也提出了针对 LLM 的标准化安全评测维度（鲁棒性、事实性、偏见、毒性、数据治理等）。(Infocomm Media Development Authority)

潜在解决方案

动态与对抗式评测：持续更新题库、引入红队提示、对分布外能力做压力测试。
污染检测与数据治理：训练数据全链路 provenance、去重、版权与隐私过滤、对抗投毒防护。
以任务成功率为核心的端到端评估：对 agent 系统用“真实工作流完成度”替代纯文本 benchmark。

问题 7：可持续性与算力瓶颈——训练/推理能耗与成本快速上升

问题本质规模化带来能耗与成本压力（训练、推理、实验迭代、存储）。已有研究给出 LLM 全链路碳足迹建模与综述。(arXiv)

行业也在推动能效基准（如 AI Energy Score）以提高透明度与可比性。(Salesforce)

潜在解决方案

计算最优训练与数据效率：沿 Chinchilla 路线做“算力—数据—参数”的最优配比。(arXiv)
稀疏激活模型（MoE）：Switch Transformer 通过稀疏专家路由，在计算成本近似不变下扩大参数量，是典型路线。(arXiv)
推理系统优化：KV cache 压缩、IO-aware 推理：如 GEAR 等工作专注 KV cache 压缩以提升吞吐与降低显存占用。(arXiv)
蒸馏、量化与小模型专用化：把大模型能力压到更小、更省电的模型上（配合能效基准推动落地）。

结语：一句“统一第一性原则”与一句“统一工程原则”

统一第一性原则（数学）：

深度学习（训练推理对齐代理）可以统一为在约束下最小化某种自由能。

统一工程原则（系统）：

把模型当作先验生成器，把任务目标当作后验约束，用检索工具验证器做观测更新与规划近似。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-01-11，如有侵权请联系 cloudcommunity@tencent.com 删除

统计

本文分享自赛博解生微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度