首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大模型原理三部曲-信息篇:从统计物理、信号处理到控制与信息论的一体框架

大模型原理三部曲-信息篇:从统计物理、信号处理到控制与信息论的一体框架

作者头像
赛博解生
发布2026-04-09 13:18:15
发布2026-04-09 13:18:15
1050
举报

摘要

大家好,我是赛博解生酱,今天给大家带来大模型原理三部曲的最后一篇:信息篇。代数篇里我将一堆看似分散的 LLM 现象(SAE/超位置、连续 CoT、RLVR 的“动得少但变强”)压缩成一套“重整化群”的语言。在信息篇中,我将把“从“表征”到“推理””这个“大主题”拆成三个小主题,并从统计物理、信号与信息论的角度进行介绍。深度学习(尤其是大模型/基础模型)在工程上表现为“端到端拟合 + 自回归生成 + 对齐与工具增强”。要给出真正“第一性原理”的解释,最有穿透力的方式不是从某个具体架构出发,而是从概率分布、信息、能量、动力学与最优控制等对象出发,给出一个统一的变分目标,然后把训练、推理、对齐、检索、代理(agent)等现象全部解释为该目标在不同约束/不同近似下的同构实现。

本篇从三个方面进行整合:

  • 统计物理:学习 = 在高维能量地形上重排概率质量;泛化/相变/尺度律可用热力学与随机动力系统语言刻画。
  • 信号处理:生成 = 深度自回归;注意力 = 内容自适应、时变的多通道滤波/核回归;Transformer 与状态空间模型(SSM)存在可形式化的对应。
  • 控制与信息论:对齐 = 受信息预算(KL)约束的最优控制;RLHF/DPO/推理时搜索/工具调用可统一为“控制即推断(control-as-inference)”。

目录

  1. 总览:KL/自由能最小化是“总方程”
  2. 统计物理视角:能量、熵、自由能与训练动力学
  3. 信号处理视角:VAR/状态空间、注意力作为自适应滤波器
  4. 控制与信息论视角:KL 正则化控制、RLHF/DPO 与推理时规划
  5. 一体化推论:为什么“规模化 + 结构化推理 + 外部工具 + 对齐”会同时发生
  6. 待解问题与潜在解决方案

1. 总览:KL/自由能最小化是“总方程”

1.1 关键对象:数据分布、模型分布、目标分布

物理里一个极其强的套路是:把复杂系统写成“某个泛函最小化”。 在深度学习里同样如此:你几乎总是在做 KL(相对熵)最小化。设真实世界产生数据的分布为 。深度学习训练一个参数化分布 逼近它。无论是分类、回归、生成,最终都可写成某种分布匹配。最基本的目标是极大似然(MLE):

利用交叉熵分解:

因此 MLE 等价于最小化 。这是第一性原理的第一块基石:训练就是在 KL 意义下逼近真实分布。而对于参数化分布 ,在大模型中常用自回归分解:

表示小于的序列集合,Transformer 之所以成为主流序列建模骨干,是因为它把这一条件分布族做到了表达力强、可并行训练、可扩展(self-attention)。(arXiv)

变分视角:变分推断的经典恒等式是:对任意

因此最大化 ELBO 等价于最小化后验 KL.统计物理的“变分自由能”就是把这个分解改写成能量—熵形式,令能量 ,则(arXiv):

其中 是熵。这就是 (无温度常数的)自由能泛函

所以当你看到大模型里反复出现

  • entropy 正则
  • 指数重加权(Boltzmann / Gibbs) 不要把它当成“工程技巧”,它是变分原理的必然结果。

1.2 统一的“总方程”:变分自由能 / KL 最小化

为了从同一个数学框架看待LLM,我们引入更一般的“目标分布” ( 可以是数据、隐变量轨迹、行动轨迹等),以及模型可表示的近似族 。统一目标:

  • 当 、、:得到 预训练/MLE
  • 当 、:得到 变分推断(ELBO)
  • 当 是控制轨迹、:得到 最大熵 RL / 控制即推断(下文详述)。(arXiv)
  • 当 引入 “别偏离基座太多” 的 KL 约束:得到 RLHF/DPO 等对齐目标。(arXiv)

这条“总方程”即是信息篇的骨架。


2. 统计物理视角:能量、熵、自由能与训练动力学

统计物理的贡献不在于“把神经网络硬说成自旋玻璃”,而在于它提供了一套处理高维随机系统的语言:能量landscape、配分函数、自由能、相变、临界现象、随机动力学。深度学习恰好是一个在高维参数空间里做随机优化的系统,所以这些概念天然对齐。(Neural Dynamics and Computation Lab)

2.1 能量模型形式:NLL = 能量 + 自由能

能量模型(Energy-Based Model, EBM)的基本定义是:

于是负对数似然(NLL)满足:

这里 是配分函数的对数,对应物理里的(无温度系数时的)自由能项:它保证归一化,也意味着“全空间竞争态”都会影响学习。LeCun 的 EBM 教程把这套框架作为统一视角:很多判别/生成/结构化预测模型都能写进同一个“能量 + 推断 + 学习”框架里。

为什么这对自回归大模型有意义?自回归模型每一步 softmax 都显式归一化,相当于把全局 分解成一串局部配分函数(每步词表归一化)。但“能量 + 归一化常数”的结构没有消失,而是被分摊到每个条件分布:

这里表示小于的序列集合,每项 都包含一个“局部能量差 + 局部 ”(softmax 分母)。 因此:能量语言不是只能讲 EBM,它实际上也解释了 softmax/温度/熵/KL 为什么总出现。


2.2 SGD 作为随机动力系统:训练 = 非平衡系统演化

SGD 更新:

其中 是小批量梯度,等于真梯度加噪声。把噪声项抽象为近似高斯扰动(在一定条件下成立),SGD 可被视为某种离散化的随机微分方程(Langevin 类动力学)。这条线索使得“学习率、批大小、动量”等超参可以被解释为系统温度、摩擦与噪声强度,从而讨论训练的“稳态分布”。Mandt 等人给出了“常数学习率 SGD 的稳态分布近似后验”的系统分析框架。(arXiv)

这提供了一个很“第一性”的解释:训练并非只是找一个点估计 ,而是在高维能量地形上进行带噪探索,最终停在某个由超参决定的“有效温度稳态”附近。


2.3 泛化与“相变”:double descent 与过参数化

经典统计学习理论强调“偏差—方差权衡”,但现代深度学习常处于极端过参数化:训练误差趋近 0,却仍能泛化。double descent 现象为这一点提供了清晰的可视化:当模型容量跨过插值阈值时,测试误差可能先升后降。Belkin 等给出了double descent 在简单模型中的严格分析。(arXiv)

统计物理进一步提供“相变/临界”的语言:在某些控制参数(如参数量、数据量、噪声强度、正则系数)变化时,系统的典型结构(极小值形态、Hessian 谱、平坦方向数量、可解性等)会发生类似相变的突变或临界缩放。Bahri 等综述系统讨论了深度学习与随机景观、jamming、相变、混沌等的联系。(Neural Dynamics and Computation Lab)


2.4 规模化(scaling laws):经验尺度律与“计算最优”训练

语言模型损失随模型规模/数据规模/算力呈幂律规律是近年最重要的经验发现之一:Kaplan 等系统总结了语言模型的尺度律。(arXiv)。随后 Hoffmann 等在“计算最优训练(Chinchilla)”中指出:在给定算力下,参数量与训练 token 数应更接近“等比例扩展”,并给出大量实证。(arXiv)

第一性解释(从统计物理角度的直觉)可以这样组织:

  • 模型容量增大,相当于可表达的“微观态”变多;
  • 数据增多,相当于对能量地形施加更多约束项;
  • 算力限制决定系统能探索到的“有效自由能最低区域”的深度;
  • 幂律意味着:在相当宽的尺度区间内,系统表现出某种“自相似”(scale invariance)或近似临界结构,这在复杂系统中并不罕见。

同时,业界也在讨论“仅靠 scaling 是否足够”。例如有观点认为需要更强的世界模型、规划与记忆机制,而不仅是堆算力与数据(这是一个重要分歧点,Lecun 等认为世界模型才能实现真正的AGI)。


3. 信号处理视角:VAR/状态空间、注意力作为自适应滤波器

如果统计物理解释“为什么训练像复杂系统”,信号处理解释的则是:为什么 Transformer 的计算结构像一套可学习的滤波器/预测器,以及为何它能在离散符号上实现类似时序建模的能力。

3.1 从线性自回归到向量自回归 VAR(p)

经典多元时间序列模型 VAR(p):

它刻画“当前向量由过去若干步线性组合 + 噪声”生成,是多元自回归的标准形式。(UW Faculty)

VAR(p) 可以写成伴随(companion)状态空间形式,把 阶系统变为 1 阶扩维系统。令扩维状态

则存在矩阵 使

其中 的第一行块是 ,其余块是移位用的单位阵。该表示把“高阶记忆”变成“高维状态”,这是理解现代序列模型的关键桥梁(Transformer/SSM 都在做“用高维状态承载长记忆”,只是机制不同)。


3.2 注意力 = 核回归(Nadaraya–Watson)= 自适应滤波

单头缩放点积注意力:

这在数学上与 Nadaraya–Watson 核回归同构:核回归估计

只要取核函数 ,就得到注意力权重形式。D2L 用核回归讲注意力机制,明确指出“注意力池化可以视为非参数核回归”。(Brightspace)

这条同构非常关键,因为它把注意力从“神经网络模块”翻译成信号处理语言:

  • 是“要被滤波/聚合的信号”;
  • 内容依赖的、时变的滤波系数
  • softmax 的归一化确保权重和为 1,使其像概率加权的平滑器。

3.3 Transformer 是“非线性、时变、数据依赖的 VAR/状态空间”

把注意力输出写成序列形式。令第 步的 value 序列为 ,则

这像不像 VAR?非常像,但有两个关键升级:

  1. 系数不固定: 由 决定,取决于当前内容与历史内容,相当于“状态依赖的 VAR”。
  2. 输入不是原始观测而是表示:,,。也就是说,滤波在一个学习到的特征空间中进行。

多头注意力进一步像“滤波器组”(filter bank):不同头对应不同子空间的核与不同的动态聚合模式(近似不同频段/不同关系类型的滤波)。Transformer 的深层堆叠则对应“多级滤波 + 非线性 + 残差反馈”的深度系统。

这就是“信号处理篇”的第一性结论:

大模型的自回归生成并不只是“统计拟合”,它实现了一套可学习的、内容自适应的时变滤波/预测系统。


3.4 长上下文与复杂度:为什么要 FlashAttention 与 SSM(Mamba)

标准注意力的时间/显存复杂度近似 。这在长上下文时成为瓶颈,于是出现两类关键进展:

(A)算法工程:让 exact attention 更快FlashAttention 的主张是:要获得极致加速,必须 IO-aware,用分块/tiling 减少 HBM 与 SRAM 间的读写,并给出对 IO 复杂度的分析与“在一定 SRAM 范围内最优”的结论;同时可支持更长上下文并带来质量收益,从而显著降低显存访问成本。(arXiv)

这一点所带来的启发是:

很多“结构创新”最终是否成立,不仅取决于表达能力,还取决于它能否匹配硬件内存层次结构。

(B)架构路线:用状态空间模型(SSM)做线性时间序列建模Mamba 提出选择性状态空间模型,在语言等“信息密集序列”上展示了很强表现,并认为在某些情况下可实现更好的长序列效率。(arXiv)

S4 明确把序列建模写成经典控制/信号里的 SSM:

并强调其在长依赖上的理论与工程优势。(arXiv)

离散化后可写作

把递推展开:

代回得到卷积形式:

所以 SSM 同时拥有两种等价视角:

  • 递推视角(RNN/滤波):隐状态携带记忆;
  • 卷积视角(LTI 滤波): 是冲激响应。

S4 的关键工程贡献之一是:通过结构化参数化让这种卷积/递推在超长序列上可高效计算,同时保持理论强项。(arXiv)

很多亚二次结构(线性注意力、卷积、SSM)在语言上曾落后于标准注意力。在SSM基础上,Mamba 的定位就是:指出这类结构的弱点在于缺少“内容依赖的推理/路由”,并通过让 SSM 参数成为输入的函数(selective SSM)来补齐;同时给出硬件友好的并行递推算法,实现线性时间并在长序列上扩展到百万级长度。

如果用第一性语言总结这两路线:

  • FlashAttention 是“同一个算子(注意力)更高效的实现”;
  • SSM/Mamba 是“换一种滤波器族”:用显式状态递推(通常是线性/近线性结构)承载长记忆,复杂度更接近 。

3.5 RAG = 外部记忆/观测增强:把“上下文”从有限窗口扩展到可检索世界

检索增强生成(RAG)的信号处理解释是:你给系统额外的“观测通道”,在生成时对外部数据库进行条件检索,将检索结果作为新的输入信号注入滤波/预测过程。

RAG 的系统化综述强调了其演化路径与未来方向,并指出它主要用于缓解幻觉、知识时效性等问题。(arXiv)

但 RAG 也带来新的系统挑战:隐私泄露、提示注入、访问控制等(后文“安全挑战”详述,并给出“可证明安全 RAG”等路线)。(arXiv)


4. 控制与信息论视角:KL 正则化控制、RLHF/DPO 与推理时规划

这一部分我用一句话做开场:

语言模型生成 token 的过程,本身就是一个随机策略;一旦你谈“偏好/奖励/安全”,你就在做最优控制。

4.1 最大熵 RL:把“探索”写进目标函数(信息论角度就是加熵正则)

最大熵 RL 的标准目标是:

Soft Actor-Critic(SAC)正是这一框架的代表:策略既要拿到回报,也要保持高熵以获得更稳定/更鲁棒的学习。(arXiv)

而把 RL 写成控制即推断(control as inference)时,Levine 的综述给出系统推导:在确定性动力学下可等价为精确推断,在随机动力学下对应变分推断。(arXiv) 这一步是“整合框架”的关键桥梁:控制 ⇄ 推断,于是“对齐”就能被写成“后验修正”。

当模型不仅“预测下一个 token”,还要“为了目标生成更好的输出”(更符合偏好、更安全、更能完成任务),问题就从纯预测进入决策与控制

从控制论的视角,我们可以把“对齐与推理策略”写成一个明确的最优化问题,并解释为什么 KL 正则化会自然出现。


4.2 控制即推断(control-as-inference):奖励指数化得到 Gibbs 轨迹分布

考虑轨迹 。在没有任何外部奖励的情况下,设“被动动力学/先验策略”诱导的轨迹先验为 。在RL训练中,我们希望引导整个系统朝我们偏好的方向发展,引入“最优性变量”并令

则条件于全程“最优”的轨迹后验满足

这就是统计物理的 Gibbs 形式:能量 ,温度 。Levine 的综述系统阐述了 RL 与概率推断的统一视角;最大熵 RL(如 SAC)直接以“奖励 + 熵”形式优化策略。(arXiv)


4.3 KL 正则化最优控制:对齐的“闭式核心”

在大模型对齐中,我们几乎总要限制新策略 不要偏离基座模型 太远。最常见的形式是:

更完整的正则化回报形式则是:

上式即是控制论、信息论、统计物理三者在同一位置的交汇点,其中 是提示/状态, 是对整段输出的奖励或偏好得分, 是信息预算(越小越“低温”,越强调奖励),其含义非常控制论:

  • 奖励 :任务驱动;
  • KL:别离参考策略太远(信任域/锚定);
  • 熵:保持探索,避免早熟坍缩。(arXiv)

对“单步决策/上下文 bandit”情形,上式有闭式解(指数倾斜):

引入拉格朗日函数并对 做变分,可得最优满足

这条公式解释了为什么对齐算法里反复出现:

  • “基座分布 ”
  • “奖励指数化”
  • “归一化常数(配分函数)”
  • “温度/ KL 系数”

也就是说:最优策略 = 在参考策略上做指数加权的后验重标定。这就是“KL 控制/后验推断”的核心形状(control-as-inference 视角下尤其自然)。(arXiv)它告诉你很多所谓“后训练魔法”,本质只是把概率质量从参考分布挪到高回报区域——至于挪得多猛,由 决定。


4.4 RLHF:PPO + KL 罚项是上述原则的数值实现

InstructGPT(OpenAI)展示了典型 RLHF 流程:先监督微调(SFT),再训练奖励模型(RM),最后用强化学习(常见是 PPO)在 KL 约束下优化策略,使其更符合人类偏好与更少毒性/更高真实性。(arXiv)

用第一性表达,RLHF 的核心目标可写为(省略细节):

其中 是参考模型(常取 SFT 模型或基座模型),KL 用来抑制策略漂移与 reward hacking。


4.5 DPO:把“KL 正则化 RLHF”化为一个分类损失

DPO 的核心主张是:对 RLHF 的奖励模型做一种参数化后,可以在闭式形式中提取与标准 RLHF 相同目标的最优策略,从而把问题化为一个简单的偏好分类损失,避免在微调阶段再做采样与复杂 RL 调参。(arXiv)

DPO 常见写法(对每个偏好对 ):

其中 是 logistic sigmoid, 控制偏好强度(相当于温度的倒数)。定义:

则 DPO 目标(典型写法)是最大化:

等价于最小化 logistic loss。它的“第一性原理解释”是:

  • 是模型把概率质量从 挪到 的对数比;
  • 减去 相当于以参考策略为基线做“后验重标定”;
  • 对应 KL 温度/信任域强度。

这与“指数倾斜”的第一性公式完全同构:你在做的是“相对 reference 的 log-likelihood ratio”提升。此外,偏好学习仍在快速演进,2025 年也有对 DPO 偏好建模假设的再审视工作(如 BPO)。(arXiv)


4.6 Constitutional AI / AI Feedback:把监督与对齐扩展到“可扩展监督”

Constitutional AI 提出用一组“原则/宪法”让模型进行自我批评与修订,在较少人工逐条标注的情况下提升无害性与一致性,是“用 AI 监督 AI”的重要方向。(arXiv)

其第一性意义:当人类监督资源有限时,你需要把监督写成可组合、可复用、可审计的规则/评价器,使其能在控制即推断框架中扮演奖励/约束的角色。


4.7 推理时计算(inference-time compute)= 规划 + 验证:从 ToT 到 ReAct 到工具学习

训练给了你一个先验策略 ,推理时你常常还叠加一个“验证器/任务奖励” ,然后用采样/搜索近似最大化:

  • Tree of Thoughts(ToT):在“思维节点”上做树搜索,显式引入探索与回溯,典型就是把生成视为规划问题。(arXiv)
  • ReAct:把“推理轨迹”与“行动(检索/调用环境)”交错生成,本质是在线 MPC(模型预测控制):生成—行动—观测—校正循环。(arXiv)
  • Toolformer:让模型学会何时调用外部工具(计算器、检索、翻译等),相当于把系统从纯语言模型扩展为“带外部观测与执行器的控制系统”。(arXiv)

这一切在第一性上是一件事:把不可微或难以端到端学到的能力(计算、检索、执行)外包给工具,并通过控制/规划把它们组合起来。


5. 一体化推论:为什么“规模化 + 结构化推理 + 外部工具 + 对齐”会同时发生?

把前面所有结论压到一张“可以推导”的统一式子里,可以用一个广义自由能/广义 ELBO 的写法来装下训练目标(5.1):

5.1 统一的“广义目标函数”(目标函数角度拆解)

对每个输入 ,模型在输出序列 上定义策略 。考虑一个包含三类项的泛函:

统计学习:拟合数据()控制:信任域锚定信息论:最大熵探索

  • 只保留第一项:就是预训练(最大似然)。
  • 加上 KL + 熵:就是 RLHF/RLVR 一类后训练的“自由能式”目标(与 control-as-inference 自然同构)。

把前面所有内容压缩成三条链:

5.2 训练为什么像统计物理:因为你在高维空间做带噪优化与分布匹配

  • 目标函数是 KL/交叉熵(信息量);
  • SGD 是带噪动力学(温度);
  • 模型规模变化会触发结构变化(相变/临界/双降);
  • 幂律 scaling 说明在一定尺度区间存在近似自相似结构。(arXiv)

5.3 架构为什么像信号处理:因为注意力就是核回归,堆叠后就是非线性状态空间

  • 注意力是归一化核加权(滤波/估计);
  • 多头是滤波器组;
  • 残差与层叠形成深度动态系统;
  • 长上下文需求推动 IO-aware attention(FlashAttention)与线性时间 SSM(Mamba)。(Brightspace)

5.4 对齐与推理策略为什么像控制:因为“目标 + KL 约束”必然导出 Gibbs/softmax 形式

  • RLHF 的 KL 罚项不是工程补丁,而是信息论控制的自然形式;(arXiv)
  • DPO 是把该目标化成稳定的监督式优化;(arXiv)
  • ToT/ReAct/工具调用是在推理时做近似规划与后验重加权;(arXiv)

6. 待解问题与潜在解决方案

问题 1:可靠性与幻觉——模型缺乏可校准的不确定性表达

问题本质(第一性)自回归模型训练的目标是最大化似然:它被强烈驱动去输出“在训练分布上平均更可能的 token 序列”。但“事实正确”不是等价目标;当上下文不足或问题超出分布时,模型仍会给出高置信的流畅答案,即幻觉。

幻觉研究已形成系统分类、检测与缓解路线图的综述体系。(arXiv)

潜在解决方案(可组合路线)

  1. 观测增强:RAG / 工具检索 / 多源证据聚合把“缺失信息”转化为“可查询观测”,等价于强化贝叶斯滤波中的 measurement update。RAG 的系统综述给出了模块化演进路线。(arXiv)
  2. 验证器/裁判:生成-验证分离(generate–verify)训练或使用外部 verifier(事实核验、单元测试、逻辑一致性检查)来近似优化。 ToT/ReAct 等属于这一类的推理时规划。(arXiv)
  3. 不确定性与“可拒答”的评分规则从信息论角度,把“乱猜”视为负效用:修改评价与训练,使模型在证据不足时倾向输出“我不知道/需要检索”。

问题 2:对齐的可扩展性——偏好数据稀缺、目标错设与 reward hacking

问题本质(第一性)对齐是一个受信息预算约束的最优控制问题:你需要在“提升偏好奖励”与“保持语言先验/能力”之间做率失真权衡。偏好信号若不完备或目标错设,就会出现 reward hacking、策略漂移、多样性塌缩等。

RLHF 的有效性与复杂性已在 InstructGPT 等工作中展示;DPO 提供更稳定更简单的替代,但偏好建模假设仍是活跃研究区。(arXiv)

潜在解决方案

  1. 偏好学习范式的稳健化:改进 DPO 类目标的统计假设、引入更鲁棒的偏好噪声模型、做分布鲁棒优化(DRO)来抵抗偏好偏差。(arXiv)
  2. 过程监督(process supervision)与可解释约束:从“只评价最终答案”走向“评价推理过程/中间决策”,减少投机路径(specification gaming)。
  3. AI 反馈与宪法原则:用 Constitutional AI 思路,把监督编码成可审计规则,让 AI 帮助生成/筛选训练信号,缓解人类标注瓶颈。(arXiv)

问题 3:长上下文与记忆—— 与“可泛化记忆”之间的结构矛盾

问题本质注意力是强表达力的内容依赖滤波器,但全连接注意力导致 的计算与显存压力;同时,模型对“超长上下文”的泛化与鲁棒性仍有限。

潜在解决方案

  1. IO-aware exact attention:FlashAttention 等优化让同一算子更高效。(arXiv)
  2. 架构替代:SSM/Mamba 与混合模型把“显式状态递推”用于长记忆承载,兼顾表达力与线性复杂度;Mamba 是该路线的重要代表。(arXiv)
  3. 外部记忆:RAG/向量数据库/结构化存储将记忆从参数内迁移到可更新外存,但要解决安全与一致性。(arXiv)

问题 4:安全与攻击面——提示注入、越狱、数据投毒、RAG 泄露

问题本质(第一性)当模型进入“代理化”(能调用工具、执行动作)时,输入不再只是用户文本,还包括网页内容、检索片段、工具返回。于是系统变成了典型的“受污染观测的控制系统”。攻击者可以通过 prompt injection / jailbreak 改写控制目标或诱导泄露。

  • OWASP 已将 prompt injection 作为 GenAI 风险中的关键类别,并强调需要系统级防御。(OWASP Gen AI Security Project)
  • 越狱攻击与防御已有系统化综述与分类。(arXiv)

RAG 系统还引入“向量库/embedding”层面的新攻击:embedding inversion、越权检索、检索污染等。近期出现了试图给出“可证明安全”或端到端安全框架的研究。(arXiv)

潜在解决方案(系统工程 + 理论)

  1. 最小权限与强访问控制:检索与工具调用必须继承源系统权限(而不是把数据集中到一个弱控制的向量库里)。
  2. 信息流隔离:把“指令通道”和“数据通道”分离,检索结果默认作为“不可执行数据”,需要显式的策略层批准才能影响系统指令。
  3. 安全训练与红队闭环:将 prompt injection / jailbreak 作为对抗样本分布纳入对齐,做持续评估与迭代。
  4. 形式化安全 RAG:采用具备形式化保证的 secure RAG 结构,至少在机密性/完整性层面给出可验证的安全边界。(arXiv)

问题 5:可解释性与可控性——我们缺少“可扩展的机制级理解”

问题本质当前模型规模巨大、内部表征高度分布式。我们缺少在机制层面回答“模型为何在此输入下产生此输出”的方法,这直接影响安全、调试、可靠性与对齐。

机制可解释性(mechanistic interpretability)已形成面向 AI 安全的系统综述,并明确指出其可扩展性、自动化与完整解释仍是核心难题。(arXiv)

潜在解决方案

  1. 自动化电路发现与因果干预工具链:从“看激活”走向“可操控的因果图谱”。
  2. 以可解释性为约束的训练/蒸馏:让模型在保持能力的同时更“结构化”(例如通过稀疏化、模块化、可组合子网络)。
  3. 解释与能力的双刃剑管理:该领域也强调 interpretability 可能带来能力提升与双重用途风险,需要治理与发布策略配合。(arXiv)

问题 6:评估与污染——基准饱和、训练数据泄漏、静态评测失真

问题本质当训练数据规模覆盖互联网,很多评测集可能被“见过”或可被检索到;模型可能对静态基准过拟合,导致评估失真。

数据污染已出现专门综述,讨论定义、影响与“无污染评估”的策略(动态基准、改写、预防)。(arXiv)

与此同时,行业也在推进更系统的风险与可靠性评估基准,如 MLCommons 的 AILuminate(覆盖多类风险提示测试)。(MLCommons) 新加坡 IMDA/AI Verify 也提出了针对 LLM 的标准化安全评测维度(鲁棒性、事实性、偏见、毒性、数据治理等)。(Infocomm Media Development Authority)

潜在解决方案

  1. 动态与对抗式评测:持续更新题库、引入红队提示、对分布外能力做压力测试。
  2. 污染检测与数据治理:训练数据全链路 provenance、去重、版权与隐私过滤、对抗投毒防护。
  3. 以任务成功率为核心的端到端评估:对 agent 系统用“真实工作流完成度”替代纯文本 benchmark。

问题 7:可持续性与算力瓶颈——训练/推理能耗与成本快速上升

问题本质规模化带来能耗与成本压力(训练、推理、实验迭代、存储)。已有研究给出 LLM 全链路碳足迹建模与综述。(arXiv)

行业也在推动能效基准(如 AI Energy Score)以提高透明度与可比性。(Salesforce)

潜在解决方案

  1. 计算最优训练与数据效率:沿 Chinchilla 路线做“算力—数据—参数”的最优配比。(arXiv)
  2. 稀疏激活模型(MoE):Switch Transformer 通过稀疏专家路由,在计算成本近似不变下扩大参数量,是典型路线。(arXiv)
  3. 推理系统优化:KV cache 压缩、IO-aware 推理:如 GEAR 等工作专注 KV cache 压缩以提升吞吐与降低显存占用。(arXiv)
  4. 蒸馏、量化与小模型专用化:把大模型能力压到更小、更省电的模型上(配合能效基准推动落地)。

结语:一句“统一第一性原则”与一句“统一工程原则”

  • 统一第一性原则(数学):

深度学习(训练推理对齐代理)可以统一为在约束下最小化某种自由能。

  • 统一工程原则(系统):

把模型当作先验生成器,把任务目标当作后验约束,用检索工具验证器做观测更新与规划近似。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 赛博解生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
    • 目录
    • 1. 总览:KL/自由能最小化是“总方程”
      • 1.1 关键对象:数据分布、模型分布、目标分布
      • 1.2 统一的“总方程”:变分自由能 / KL 最小化
    • 2. 统计物理视角:能量、熵、自由能与训练动力学
      • 2.1 能量模型形式:NLL = 能量 + 自由能
      • 2.2 SGD 作为随机动力系统:训练 = 非平衡系统演化
      • 2.3 泛化与“相变”:double descent 与过参数化
      • 2.4 规模化(scaling laws):经验尺度律与“计算最优”训练
    • 3. 信号处理视角:VAR/状态空间、注意力作为自适应滤波器
      • 3.1 从线性自回归到向量自回归 VAR(p)
      • 3.2 注意力 = 核回归(Nadaraya–Watson)= 自适应滤波
      • 3.3 Transformer 是“非线性、时变、数据依赖的 VAR/状态空间”
      • 3.4 长上下文与复杂度:为什么要 FlashAttention 与 SSM(Mamba)
      • 3.5 RAG = 外部记忆/观测增强:把“上下文”从有限窗口扩展到可检索世界
    • 4. 控制与信息论视角:KL 正则化控制、RLHF/DPO 与推理时规划
      • 4.1 最大熵 RL:把“探索”写进目标函数(信息论角度就是加熵正则)
      • 4.2 控制即推断(control-as-inference):奖励指数化得到 Gibbs 轨迹分布
      • 4.3 KL 正则化最优控制:对齐的“闭式核心”
      • 4.4 RLHF:PPO + KL 罚项是上述原则的数值实现
      • 4.5 DPO:把“KL 正则化 RLHF”化为一个分类损失
      • 4.6 Constitutional AI / AI Feedback:把监督与对齐扩展到“可扩展监督”
      • 4.7 推理时计算(inference-time compute)= 规划 + 验证:从 ToT 到 ReAct 到工具学习
    • 5. 一体化推论:为什么“规模化 + 结构化推理 + 外部工具 + 对齐”会同时发生?
      • 5.1 统一的“广义目标函数”(目标函数角度拆解)
      • 5.2 训练为什么像统计物理:因为你在高维空间做带噪优化与分布匹配
      • 5.3 架构为什么像信号处理:因为注意力就是核回归,堆叠后就是非线性状态空间
      • 5.4 对齐与推理策略为什么像控制:因为“目标 + KL 约束”必然导出 Gibbs/softmax 形式
    • 6. 待解问题与潜在解决方案
      • 问题 1:可靠性与幻觉——模型缺乏可校准的不确定性表达
      • 问题 2:对齐的可扩展性——偏好数据稀缺、目标错设与 reward hacking
      • 问题 3:长上下文与记忆—— 与“可泛化记忆”之间的结构矛盾
      • 问题 4:安全与攻击面——提示注入、越狱、数据投毒、RAG 泄露
      • 问题 5:可解释性与可控性——我们缺少“可扩展的机制级理解”
      • 问题 6:评估与污染——基准饱和、训练数据泄漏、静态评测失真
      • 问题 7:可持续性与算力瓶颈——训练/推理能耗与成本快速上升
    • 结语:一句“统一第一性原则”与一句“统一工程原则”
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档