LLM 记忆机制研究：从底层逻辑出发，理解大模型的记忆本质与先天局限

赛博解生

发布于 2026-04-09 13:24:14

6140

大家好，我是赛博解生酱！

最近半年，不管是和实验室的同学跑微调实验，还是和工业界做落地的朋友聊天，发现大家踩的很多坑，最后都绕回了同一个问题上 —— 大模型的记忆机制。

比如有人花了不少算力给基座做行业 SFT，模型在垂直任务上效果确实上去了，但转头连基础的代码生成、翻译任务效果掉得厉害；有人做长文档问答，把相关内容放在 prompt 开头或者结尾，模型能答对，放中间就完全找不到；还有人做 RAG，检索召回明明没问题，模型就是能把召回的正确内容给 “忽略” 了，输出一堆和事实不符的内容。

这些问题，表面看是微调策略、prompt 写法、检索方案的问题，本质上，都是我们对大模型的记忆怎么存、怎么取、怎么更新，理解得不够透。

如果说Transformer是大模型的躯体，参数是血肉，那记忆就是大模型的灵魂。没有稳定、可控、可扩展的记忆系统，再大的参数规模，再长的上下文窗口，都只是空中楼阁。

今天，我们继续大模型挑战深潜系列——《LLM深潜系列-记忆内核》。记忆是智能的基础，在该篇我们基于全面的调研结果，扎进Transformer的最底层，从信息论、非凸优化、线性代数的第一性原理出发，把大模型记忆的全貌进行全面拆解。从理论容量的物理极限，到记忆的完整分类体系，再到灾难性遗忘的底层宿命，最后到工业界落地的前沿破局方案。

作为系列开篇，这篇文章我们会彻底讲透：大模型的记忆到底是什么？它的物理极限在哪里？为什么遗忘和幻觉是写在数学里的必然？以及，我们到底该如何突破这些限制。

先明确：我们说的 LLM「记忆」，到底指什么

很多人以为，大模型的记忆就是「它能记住我之前说的话」，但这只是最浅层的上下文记忆。在严谨的学术框架里，大模型的记忆，是一个横跨参数、激活值、外部存储、交互轨迹的多层次异构系统。

我们先给出严格定义：

在现代计算语言学与信息论的语境下，大模型的「记忆」，是指在预训练、微调或推理阶段写入的、持久且可寻址的状态，该状态能够跨越时间步稳定地影响模型的后续输出分布。

基于最新的前沿研究，我们可以用「存储位置-持久性-更新路径-访问方式」的四元组框架，把大模型的记忆体系，清晰地划分为四大核心类别，没有任何遗漏：

记忆类型	存储位置	生命周期	核心本质	核心优缺点
参数化记忆	Transformer的权重矩阵（核心是FFN层）	长期持久，仅随预训练/微调缓慢更新	把海量世界知识，隐式压缩在高维连续向量空间里	访问极快（一次前向传播完成），但存在灾难性遗忘，难以定点修改
上下文记忆（工作记忆）	内存中的KV Cache（注意力的键值激活值）	会话级短期，推理结束即释放	模型当前推理能直接寻址的局部状态，是所有逻辑推演的「工作台」	灵活可控，但受限于上下文窗口的二次方计算复杂度，极易爆显存
外部记忆（非参数化记忆）	向量数据库、知识图谱、关系型数据库	长期持久，可独立于模型增删改查	以显式离散数据存在，通过检索注入上下文	可解释性强、事实一致性高、无限扩展，依赖检索精度
程序化/情景记忆	智能体状态库、跨会话交互轨迹	跨会话持久，随用户/任务持续进化	记录历史交互、决策路径、反馈，支撑个性化与长程决策	实现复杂智能体的核心，但极易带来隐私泄露风险

这里要重点纠正一个绝大多数人都搞反的常识：Transformer里，真正存知识的，不是自注意力机制，而是前馈网络FFN层。

自注意力机制，本质上是负责输入序列内部的信息路由和上下文聚合，相当于模型的「信息调度员」；而占据了Transformer约三分之二参数量的FFN层，才是真正的「知识存储器」。这一点，在数学上已经被严格证明：FFN本质上就是一个非归一化的键值对（Key-Value）关联记忆网络。

我们直接上公式，对于隐藏维度为d的输入向量，第l层FFN的前向计算过程可以表示为：

其中，分别是键矩阵和值矩阵，f是GELU/ReLU非线性激活函数。

这个公式的物理意义非常直白：

●键矩阵K的每一行，都是一个「模式探测器」：当输入x在特征空间中靠近时，内积会产生强激活信号，量化当前输入和这个记忆单元的匹配程度；

●值矩阵V的对应行，就是被触发的「知识内容」：FFN的最终输出，是所有被激活的值向量的加权线性组合，直接引导下一个Token的预测概率。

更有意思的是，知识在FFN里是分层存储的：浅层FFN主要记句法结构和n-gram词法搭配，深层FFN才负责存储高阶语义关系和结构化事实（比如“中国的首都是北京”）。

搞懂这一点，后面做知识编辑、抗遗忘微调的时候，才知道该针对哪一层做操作。

物理天花板：大模型的记忆容量，到底有极限吗？

很多人会有一个朴素的认知：参数越多，模型能装的知识就越多。这个结论只对了一半，LLM 的记忆容量，存在一个信息论层面的、很难突破的物理边界。

2025年Morris等人的前沿研究，彻底剥离了泛化能力对容量测量的干扰——他们用完全随机、无任何统计规律的二进制比特串作为训练语料。由于数据没有可抽象的规律，模型无法做任何模式泛化，所有交叉熵损失的下降，只能归因于参数对数据的纯死记硬背。

最终，他们推导出了一个惊人且极其稳定的标度律：

在bfloat16精度下训练的Transformer模型，记忆容量严格饱和于约 3.6比特/参数（bits-per-parameter）。

这个结论，直接颠覆了很多人的认知，我们拆解它的三个核心意义：

1. 绝对的物理存储上限

一个10亿（1B）参数的大模型，最大纯记忆容量约为36亿比特，换算下来就是约450MB的信息量。这个容量，不足以存下整个维基百科，但足以把海量核心常识编码进网络深层。

换句话说，你堆再多参数，它的纯记忆容量，也只能按照3.6bits/parameter的比例线性增长，没有任何捷径。

2. 参数精度的非线性骗局

很多人觉得，把权重从bfloat16换成float32，精度翻倍，记忆容量也会翻倍。但实验结果狠狠打了脸：从16位到32位，模型的记忆容量仅从3.51bits微涨到3.83bits，几乎没有变化。

数学上的解释是：高精度浮点数多出的有效尾数位，根本没有被用来存储原始信息，而是用来维持高维损失流形的平滑性，和优化动力学的稳定性。说白了，就是给优化过程“稳心态”用的，不是给你存知识用的。

3. 顿悟（Grokking）现象的终极解释

这个标度律，完美解释了机器学习里著名的“双重下降”和“顿悟”现象：

当数据集的信息量小于模型的记忆容量上限（≈3.6×参数量）时，模型会倾向于直接背诵数据；而当数据规模超过这个上限，模型的存储空间被彻底耗尽，被迫放弃死记硬背，转而寻找数据背后更底层的通用规则，实现极致的数据压缩。

所谓的顿悟与泛化能力的涌现，恰恰发生在模型耗尽原始存储空间的临界点上。

讲完了静态存储的极限，我们还要讲动态组合的极限。很多人发现，大模型做单跳知识问答很准，但做多跳推理、多位乘法、亲属关系推演时，就很容易出错。这不是模型“记性不好”，而是Transformer架构本身存在的计算复杂性瓶颈。

Hahn等人用通信复杂性理论证明了：对于一个单层Transformer，当满足不等式

（其中是注意力头数，是嵌入维度，是计算精度，是输入域大小）时，模型在数学上就无法绝对正确地求解多跳函数组合问题。

简单说，Transformer的注意力矩阵，天生就存在信息传输位宽的瓶颈，面对需要多次迭代映射的长程逻辑推演，它的失败是写在数学里的必然。

更颠覆的是，我们常说的幻觉，根本不是工程缺陷，而是有限容量下的最优解。

2026年最新的率失真理论研究，把大模型的事实记忆形式化为一个成员测试问题：在所有可能的声明全集U中，真实事实集合K是极其稀疏的。在参数量有限的约束下，模型要最小化损失，就必须做最优有损压缩。

理论推导给出了每个记忆键所需的最小存储成本下界：

其中是真实事实的置信度分布，是非真实事实的置信度分布，KL散度衡量了两者的差异。

这个公式告诉我们：因为非真实事实的空间过于庞大，想要把所有非事实的置信度都压缩到0，所需的内存成本会指数级爆炸。所以，模型只能采取一个妥协策略：保证记住核心真实事实的同时，允许部分非事实被分配极高的置信度——这就是我们看到的幻觉。

在信息论意义上，幻觉不是模型的错误，而是受限内存下，全局损失最小化的最优解。

我们常说的「灾难性遗忘」，到底是怎么发生的？

灾难性遗忘应该是所有做 LLM 微调的同行，都踩过的坑：模型在新任务上微调完，学会了新技能，却把之前的通用能力全丢了。很多人刚开始会把这归咎于 “数据不好”“调参不对”，但跑多了实验就会发现，这是 Transformer 架构在持续学习中，很难完全避免的问题。

我们从四个微观维度，彻底拆解它的第一性原理：

1. 参数空间：破坏性梯度干涉

神经网络的核心是分布式权重共享，这就带来了一个致命问题：当模型在新任务上做梯度下降时，如果新梯度的方向，和支撑旧任务的参数驻点方向存在负相关或非正交重叠，新的参数更新就会像橡皮擦一样，直接抹除旧技能的权重配置。

实证研究发现，在24层的深层Transformer中，约15%-23%的底层注意力头，会因为强烈的梯度冲突直接“功能性瘫痪”，丧失对早期任务的特征筛选能力。

数学上，新旧任务梯度的余弦对齐度（Gradient Alignment），能精准预测遗忘的严重程度，两者呈现极强的负相关，皮尔逊相关系数甚至高达-0.94。简单说，梯度方向越冲突，遗忘越严重。

2. 表征空间：中间层的几何表征漂移

除了参数直接打架，模型前向传播的特征空间，也发生了不可逆的几何变迁。

这种漂移不是均匀发生的，而是高度集中在模型的中段：24层架构的第8-16层，40层架构的第12-24层，是漂移的重灾区。

采用中心化核对齐（CKA）这个高维相似度度量工具可以发现：旧任务的输入，经过微调后的中间层时，CKA相似度会骤降0.32-0.47。同时，PCA分析显示，漂移影响了占据60%-75%方差的主导表征子空间——这意味着，模型对核心概念的抽象编码逻辑，被彻底扭曲了。

3. 优化地形：损失极小值的“平坦化”塌陷

从非凸优化的视角看，预训练结束时，模型参数通常躺在旧任务损失函数的一个尖锐局部极小值盆地里，数学上体现为该处的Hessian矩阵最大特征值极高。这个盆地的“陡峭曲率”，就是模型回归旧知识的数学“恢复力”。

但序贯微调，直接把这个盆地给抹平了。拓扑测量显示：学习3个新任务后，原始任务的Hessian最大特征值，从147.3急剧塌陷到34.2，损失地形的线性度指数从0.28飙升到0.71。

盆地变成了平原，曲率消失了，模型向旧知识回归的恢复力，也就彻底没了。能力衰减，变成了不可逆的热力学过程。

4. 无法打破的遗忘缩放定律

很多人会问：我不用全参微调，用LoRA这种参数高效微调，总不会遗忘了吧？

答案是：依然逃不掉。

遗忘程度，被证明是一个关于「参与微调的参数量」和「优化更新步数」的平移幂律函数。LoRA只是减少了微调的参数量，延缓了遗忘的到来，但根本无法打破这个幂律的宿命。单纯靠调参、早停，解决不了根本性问题。

目前针对记忆相关问题，有哪些可行的解决思路

讲完了极限和挑战，我们来聊，当前学术界和工业界，到底有哪些方法，能突破这些记忆瓶颈。我把这些方案，分为四大方向：

方向一：参数化记忆的“外科手术”——知识编辑

重新预训练整个模型的成本太高，知识编辑技术，就是通过直接修改局部权重，实现对参数化记忆的定点更新，相当于给模型的大脑做“微创手术”。

1. ROME：单体知识的精准编辑

ROME（Rank-One Model Editing）建立在因果中介分析的基础上，首先定位到负责特定事实的决策中心——通常在深层Transformer的FFN模块中。

它把目标层的FFN权重矩阵W视作线性联想记忆器，把更新目标设定为一个带约束的最优化问题：在引入新知识的同时，最小化对原有知识的干扰。

最终，ROME给出了秩为1的更新闭式解析解：

其中是主体的键特征，是目标客体向量，C是键的协方差矩阵。这个公式，能在几乎不干扰原有知识的前提下，精准植入新的事实记忆。

2. MEMIT：批量知识的持续编辑

ROME每次只能编辑一个事实，而MEMIT（Mass-Editing Memory in a Transformer），把单一约束放宽为最小二乘目标，把更新误差分布到多层FFN中，实现了单次操作批量注入上万条新记忆。

而后续的AlphaEdit算法，通过引入零空间投影策略，把新知识更新严格限制在已有知识特征空间的零空间内，彻底解决了频繁编辑带来的知识崩塌问题，实现了真正无损的持续记忆修正。

方向二：外部记忆的无缝协同——RAG

参数化记忆天生带幻觉，无法溯源，所以把显式文档库作为外部非参数化记忆，已经成为行业共识，这就是检索增强生成（RAG）。

在Lewis等人建立的概率论框架里，RAG把召回的外部文档z视为隐变量，通过边缘化的概率方法指导解码，分为两大核心模块：

●检索器：用双编码器把文档和查询映射到同维向量空间，通过最大内积搜索（MIPS）定位Top-K记忆片段；

●生成器：基于查询和检索到的上下文，自回归生成响应。

RAG有两种核心的边缘化策略：

1.RAG-Sequence：整个生成过程依赖同一篇文档，生成概率是各文档独立生成概率的加权和：

2.RAG-Token：生成每个Token时都能动态切换文档，能混合多篇文档的信息生成复杂长文本：

信息论分析显示：优化检索器的精度，给整个系统带来的准确率增益，远超单独优化生成器，甚至能带来超过100%的非线性提升。

方向三：上下文记忆的硬件级突破——KV Cache优化

上下文记忆的物理载体，就是KV Cache。随着上下文长度增加，KV Cache的显存占用极易导致OOM，成为限制上下文长度的阿喀琉斯之踵。当前的核心优化方案有三个：

1.FlashAttention：通过IO感知的分块和重计算，避免把巨大的注意力得分矩阵写回HBM，把内存复杂度从降到，让模型处理数万Token成为可能；

2.PagedAttention：借鉴操作系统虚拟内存分页的理念，把KV Cache切割成固定大小的物理块，用块表索引，彻底消除了显存碎片，还实现了前缀缓存，是vLLM等推理框架的核心技术；

3.MQA/GQA：在多个Query头之间共享Key和Value头，大幅缩小KV Cache的显存占用，以极小的精度损失，换取了巨大的吞吐量提升。

方向四：抗遗忘的终身学习方案

针对灾难性遗忘，当前的前沿方案可以分为四大流派：

1.物理隔离法：用MoE混合专家模型，给新任务挂载独立的专家模块，旧任务的特征路由到预训练主干，新任务路由到新专家，从物理上隔绝梯度污染；

2.代数约束法：用正交投影LoRA（OPLoRA），把新任务的梯度更新，强制限制在旧知识表征的正交零空间中，从代数上避免梯度干涉；

3.拓扑修复法：用弹性权重巩固（EWC）算法，通过Fisher信息矩阵评估权重对旧任务的重要性，对重要权重施加强正则化惩罚；用SAM锐度感知最小化，强迫模型收敛到有刚性曲率的极小值，抵抗地形塌陷；

4.数据回放法：微调时混入1%左右的预训练通用语料，就能作为极强的隐式正则化，大幅缓解遗忘；针对旧数据缺失的场景，用模型自回归生成伪历史数据回放，也能有效延缓遗忘。

写在最后

大语言模型的记忆系统，早已不是一个简单的统计学概念，而是一个横跨参数化知识压缩、上下文工作区、外部知识库、终身学习机制的复杂动态生态。

不论是3.6bits/parameter的物理标度律，通信复杂性带来的组合瓶颈，还是率失真定律下幻觉的必然性，都告诉我们：单纯靠堆参数、堆上下文窗口，永远无法真正解决大模型的记忆问题。

未来大模型记忆能力的跃迁，一定是来自底层架构的协同创新，来自对记忆机制的深度理解，而不是算力的野蛮堆叠。

如果你不想错过后续的硬核内容，欢迎关注，点赞、在看、转发，是我持续更新的最大动力。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-04-04，如有侵权请联系 cloudcommunity@tencent.com 删除

存储

本文分享自赛博解生微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度