首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >LLM 记忆机制研究:从底层逻辑出发,理解大模型的记忆本质与先天局限

LLM 记忆机制研究:从底层逻辑出发,理解大模型的记忆本质与先天局限

作者头像
赛博解生
发布2026-04-09 13:24:14
发布2026-04-09 13:24:14
1440
举报

大家好,我是赛博解生酱!

最近半年,不管是和实验室的同学跑微调实验,还是和工业界做落地的朋友聊天,发现大家踩的很多坑,最后都绕回了同一个问题上 —— 大模型的记忆机制。

比如有人花了不少算力给基座做行业 SFT,模型在垂直任务上效果确实上去了,但转头连基础的代码生成、翻译任务效果掉得厉害;有人做长文档问答,把相关内容放在 prompt 开头或者结尾,模型能答对,放中间就完全找不到;还有人做 RAG,检索召回明明没问题,模型就是能把召回的正确内容给 “忽略” 了,输出一堆和事实不符的内容。

这些问题,表面看是微调策略、prompt 写法、检索方案的问题,本质上,都是我们对大模型的记忆怎么存、怎么取、怎么更新,理解得不够透。

如果说Transformer是大模型的躯体,参数是血肉,那记忆就是大模型的灵魂。没有稳定、可控、可扩展的记忆系统,再大的参数规模,再长的上下文窗口,都只是空中楼阁。

今天,我们继续大模型挑战深潜系列——《LLM深潜系列-记忆内核》。记忆是智能的基础,在该篇我们基于全面的调研结果,扎进Transformer的最底层,从信息论、非凸优化、线性代数的第一性原理出发,把大模型记忆的全貌进行全面拆解。从理论容量的物理极限,到记忆的完整分类体系,再到灾难性遗忘的底层宿命,最后到工业界落地的前沿破局方案。

作为系列开篇,这篇文章我们会彻底讲透:大模型的记忆到底是什么?它的物理极限在哪里?为什么遗忘和幻觉是写在数学里的必然?以及,我们到底该如何突破这些限制。


先明确:我们说的 LLM「记忆」,到底指什么

很多人以为,大模型的记忆就是「它能记住我之前说的话」,但这只是最浅层的上下文记忆。在严谨的学术框架里,大模型的记忆,是一个横跨参数、激活值、外部存储、交互轨迹的多层次异构系统。

我们先给出严格定义:

在现代计算语言学与信息论的语境下,大模型的「记忆」,是指在预训练、微调或推理阶段写入的、持久且可寻址的状态,该状态能够跨越时间步稳定地影响模型的后续输出分布

基于最新的前沿研究,我们可以用「存储位置-持久性-更新路径-访问方式」的四元组框架,把大模型的记忆体系,清晰地划分为四大核心类别,没有任何遗漏:

记忆类型

存储位置

生命周期

核心本质

核心优缺点

参数化记忆

Transformer的权重矩阵(核心是FFN层)

长期持久,仅随预训练/微调缓慢更新

把海量世界知识,隐式压缩在高维连续向量空间里

访问极快(一次前向传播完成),但存在灾难性遗忘,难以定点修改

上下文记忆(工作记忆)

内存中的KV Cache(注意力的键值激活值)

会话级短期,推理结束即释放

模型当前推理能直接寻址的局部状态,是所有逻辑推演的「工作台」

灵活可控,但受限于上下文窗口的二次方计算复杂度,极易爆显存

外部记忆(非参数化记忆)

向量数据库、知识图谱、关系型数据库

长期持久,可独立于模型增删改查

以显式离散数据存在,通过检索注入上下文

可解释性强、事实一致性高、无限扩展,依赖检索精度

程序化/情景记忆

智能体状态库、跨会话交互轨迹

跨会话持久,随用户/任务持续进化

记录历史交互、决策路径、反馈,支撑个性化与长程决策

实现复杂智能体的核心,但极易带来隐私泄露风险

这里要重点纠正一个绝大多数人都搞反的常识:Transformer里,真正存知识的,不是自注意力机制,而是前馈网络FFN层

自注意力机制,本质上是负责输入序列内部的信息路由和上下文聚合,相当于模型的「信息调度员」;而占据了Transformer约三分之二参数量的FFN层,才是真正的「知识存储器」。这一点,在数学上已经被严格证明:FFN本质上就是一个非归一化的键值对(Key-Value)关联记忆网络。

我们直接上公式,对于隐藏维度为d的输入向量,第l层FFN的前向计算过程可以表示为:

其中, 分别是键矩阵和值矩阵,f是GELU/ReLU非线性激活函数。

这个公式的物理意义非常直白:

●键矩阵K的每一行,都是一个「模式探测器」:当输入x在特征空间中靠近时,内积会产生强激活信号,量化当前输入和这个记忆单元的匹配程度;

●值矩阵V的对应行,就是被触发的「知识内容」:FFN的最终输出,是所有被激活的值向量的加权线性组合,直接引导下一个Token的预测概率。

更有意思的是,知识在FFN里是分层存储的:浅层FFN主要记句法结构和n-gram词法搭配,深层FFN才负责存储高阶语义关系和结构化事实(比如“中国的首都是北京”)。

搞懂这一点,后面做知识编辑、抗遗忘微调的时候,才知道该针对哪一层做操作。


物理天花板:大模型的记忆容量,到底有极限吗?

很多人会有一个朴素的认知:参数越多,模型能装的知识就越多。这个结论只对了一半,LLM 的记忆容量,存在一个信息论层面的、很难突破的物理边界。

2025年Morris等人的前沿研究,彻底剥离了泛化能力对容量测量的干扰——他们用完全随机、无任何统计规律的二进制比特串作为训练语料。由于数据没有可抽象的规律,模型无法做任何模式泛化,所有交叉熵损失的下降,只能归因于参数对数据的纯死记硬背。

最终,他们推导出了一个惊人且极其稳定的标度律

在bfloat16精度下训练的Transformer模型,记忆容量严格饱和于约 3.6比特/参数(bits-per-parameter)

这个结论,直接颠覆了很多人的认知,我们拆解它的三个核心意义:

1. 绝对的物理存储上限

一个10亿(1B)参数的大模型,最大纯记忆容量约为36亿比特,换算下来就是约450MB的信息量。这个容量,不足以存下整个维基百科,但足以把海量核心常识编码进网络深层。

换句话说,你堆再多参数,它的纯记忆容量,也只能按照3.6bits/parameter的比例线性增长,没有任何捷径。

2. 参数精度的非线性骗局

很多人觉得,把权重从bfloat16换成float32,精度翻倍,记忆容量也会翻倍。但实验结果狠狠打了脸:从16位到32位,模型的记忆容量仅从3.51bits微涨到3.83bits,几乎没有变化。

数学上的解释是:高精度浮点数多出的有效尾数位,根本没有被用来存储原始信息,而是用来维持高维损失流形的平滑性,和优化动力学的稳定性。说白了,就是给优化过程“稳心态”用的,不是给你存知识用的。

3. 顿悟(Grokking)现象的终极解释

这个标度律,完美解释了机器学习里著名的“双重下降”和“顿悟”现象:

当数据集的信息量小于模型的记忆容量上限(≈3.6×参数量)时,模型会倾向于直接背诵数据;而当数据规模超过这个上限,模型的存储空间被彻底耗尽,被迫放弃死记硬背,转而寻找数据背后更底层的通用规则,实现极致的数据压缩。

所谓的顿悟与泛化能力的涌现,恰恰发生在模型耗尽原始存储空间的临界点上。

讲完了静态存储的极限,我们还要讲动态组合的极限。很多人发现,大模型做单跳知识问答很准,但做多跳推理、多位乘法、亲属关系推演时,就很容易出错。这不是模型“记性不好”,而是Transformer架构本身存在的计算复杂性瓶颈。

Hahn等人用通信复杂性理论证明了:对于一个单层Transformer,当满足不等式

(其中是注意力头数,是嵌入维度,是计算精度,是输入域大小)时,模型在数学上就无法绝对正确地求解多跳函数组合问题。

简单说,Transformer的注意力矩阵,天生就存在信息传输位宽的瓶颈,面对需要多次迭代映射的长程逻辑推演,它的失败是写在数学里的必然。

更颠覆的是,我们常说的幻觉,根本不是工程缺陷,而是有限容量下的最优解

2026年最新的率失真理论研究,把大模型的事实记忆形式化为一个成员测试问题:在所有可能的声明全集U中,真实事实集合K是极其稀疏的。在参数量有限的约束下,模型要最小化损失,就必须做最优有损压缩。

理论推导给出了每个记忆键所需的最小存储成本下界:

其中是真实事实的置信度分布,是非真实事实的置信度分布,KL散度衡量了两者的差异。

这个公式告诉我们:因为非真实事实的空间过于庞大,想要把所有非事实的置信度都压缩到0,所需的内存成本会指数级爆炸。所以,模型只能采取一个妥协策略:保证记住核心真实事实的同时,允许部分非事实被分配极高的置信度——这就是我们看到的幻觉。

在信息论意义上,幻觉不是模型的错误,而是受限内存下,全局损失最小化的最优解。


我们常说的「灾难性遗忘」,到底是怎么发生的?

灾难性遗忘应该是所有做 LLM 微调的同行,都踩过的坑:模型在新任务上微调完,学会了新技能,却把之前的通用能力全丢了。很多人刚开始会把这归咎于 “数据不好”“调参不对”,但跑多了实验就会发现,这是 Transformer 架构在持续学习中,很难完全避免的问题。

我们从四个微观维度,彻底拆解它的第一性原理:

1. 参数空间:破坏性梯度干涉

神经网络的核心是分布式权重共享,这就带来了一个致命问题:当模型在新任务上做梯度下降时,如果新梯度的方向,和支撑旧任务的参数驻点方向存在负相关或非正交重叠,新的参数更新就会像橡皮擦一样,直接抹除旧技能的权重配置。

实证研究发现,在24层的深层Transformer中,约15%-23%的底层注意力头,会因为强烈的梯度冲突直接“功能性瘫痪”,丧失对早期任务的特征筛选能力。

数学上,新旧任务梯度的余弦对齐度(Gradient Alignment),能精准预测遗忘的严重程度,两者呈现极强的负相关,皮尔逊相关系数甚至高达-0.94。简单说,梯度方向越冲突,遗忘越严重。

2. 表征空间:中间层的几何表征漂移

除了参数直接打架,模型前向传播的特征空间,也发生了不可逆的几何变迁。

这种漂移不是均匀发生的,而是高度集中在模型的中段:24层架构的第8-16层,40层架构的第12-24层,是漂移的重灾区。

采用中心化核对齐(CKA)这个高维相似度度量工具可以发现:旧任务的输入,经过微调后的中间层时,CKA相似度会骤降0.32-0.47。同时,PCA分析显示,漂移影响了占据60%-75%方差的主导表征子空间——这意味着,模型对核心概念的抽象编码逻辑,被彻底扭曲了。

3. 优化地形:损失极小值的“平坦化”塌陷

从非凸优化的视角看,预训练结束时,模型参数通常躺在旧任务损失函数的一个尖锐局部极小值盆地里,数学上体现为该处的Hessian矩阵最大特征值极高。这个盆地的“陡峭曲率”,就是模型回归旧知识的数学“恢复力”。

但序贯微调,直接把这个盆地给抹平了。拓扑测量显示:学习3个新任务后,原始任务的Hessian最大特征值,从147.3急剧塌陷到34.2,损失地形的线性度指数从0.28飙升到0.71。

盆地变成了平原,曲率消失了,模型向旧知识回归的恢复力,也就彻底没了。能力衰减,变成了不可逆的热力学过程。

4. 无法打破的遗忘缩放定律

很多人会问:我不用全参微调,用LoRA这种参数高效微调,总不会遗忘了吧?

答案是:依然逃不掉。

遗忘程度,被证明是一个关于「参与微调的参数量」和「优化更新步数」的平移幂律函数。LoRA只是减少了微调的参数量,延缓了遗忘的到来,但根本无法打破这个幂律的宿命。单纯靠调参、早停,解决不了根本性问题。


目前针对记忆相关问题,有哪些可行的解决思路

讲完了极限和挑战,我们来聊,当前学术界和工业界,到底有哪些方法,能突破这些记忆瓶颈。我把这些方案,分为四大方向:

方向一:参数化记忆的“外科手术”——知识编辑

重新预训练整个模型的成本太高,知识编辑技术,就是通过直接修改局部权重,实现对参数化记忆的定点更新,相当于给模型的大脑做“微创手术”。

1. ROME:单体知识的精准编辑

ROME(Rank-One Model Editing)建立在因果中介分析的基础上,首先定位到负责特定事实的决策中心——通常在深层Transformer的FFN模块中。

它把目标层的FFN权重矩阵W视作线性联想记忆器,把更新目标设定为一个带约束的最优化问题:在引入新知识的同时,最小化对原有知识的干扰。

最终,ROME给出了秩为1的更新闭式解析解:

其中是主体的键特征,是目标客体向量,C是键的协方差矩阵。这个公式,能在几乎不干扰原有知识的前提下,精准植入新的事实记忆。

2. MEMIT:批量知识的持续编辑

ROME每次只能编辑一个事实,而MEMIT(Mass-Editing Memory in a Transformer),把单一约束放宽为最小二乘目标,把更新误差分布到多层FFN中,实现了单次操作批量注入上万条新记忆。

而后续的AlphaEdit算法,通过引入零空间投影策略,把新知识更新严格限制在已有知识特征空间的零空间内,彻底解决了频繁编辑带来的知识崩塌问题,实现了真正无损的持续记忆修正。

方向二:外部记忆的无缝协同——RAG

参数化记忆天生带幻觉,无法溯源,所以把显式文档库作为外部非参数化记忆,已经成为行业共识,这就是检索增强生成(RAG)。

在Lewis等人建立的概率论框架里,RAG把召回的外部文档z视为隐变量,通过边缘化的概率方法指导解码,分为两大核心模块:

●检索器:用双编码器把文档和查询映射到同维向量空间,通过最大内积搜索(MIPS)定位Top-K记忆片段;

●生成器:基于查询和检索到的上下文,自回归生成响应。

RAG有两种核心的边缘化策略:

1.RAG-Sequence:整个生成过程依赖同一篇文档,生成概率是各文档独立生成概率的加权和:

2.RAG-Token:生成每个Token时都能动态切换文档,能混合多篇文档的信息生成复杂长文本:

信息论分析显示:优化检索器的精度,给整个系统带来的准确率增益,远超单独优化生成器,甚至能带来超过100%的非线性提升。

方向三:上下文记忆的硬件级突破——KV Cache优化

上下文记忆的物理载体,就是KV Cache。随着上下文长度增加,KV Cache的显存占用极易导致OOM,成为限制上下文长度的阿喀琉斯之踵。当前的核心优化方案有三个:

1.FlashAttention:通过IO感知的分块和重计算,避免把巨大的注意力得分矩阵写回HBM,把内存复杂度从降到,让模型处理数万Token成为可能;

2.PagedAttention:借鉴操作系统虚拟内存分页的理念,把KV Cache切割成固定大小的物理块,用块表索引,彻底消除了显存碎片,还实现了前缀缓存,是vLLM等推理框架的核心技术;

3.MQA/GQA:在多个Query头之间共享Key和Value头,大幅缩小KV Cache的显存占用,以极小的精度损失,换取了巨大的吞吐量提升。

方向四:抗遗忘的终身学习方案

针对灾难性遗忘,当前的前沿方案可以分为四大流派:

1.物理隔离法:用MoE混合专家模型,给新任务挂载独立的专家模块,旧任务的特征路由到预训练主干,新任务路由到新专家,从物理上隔绝梯度污染;

2.代数约束法:用正交投影LoRA(OPLoRA),把新任务的梯度更新,强制限制在旧知识表征的正交零空间中,从代数上避免梯度干涉;

3.拓扑修复法:用弹性权重巩固(EWC)算法,通过Fisher信息矩阵评估权重对旧任务的重要性,对重要权重施加强正则化惩罚;用SAM锐度感知最小化,强迫模型收敛到有刚性曲率的极小值,抵抗地形塌陷;

4.数据回放法:微调时混入1%左右的预训练通用语料,就能作为极强的隐式正则化,大幅缓解遗忘;针对旧数据缺失的场景,用模型自回归生成伪历史数据回放,也能有效延缓遗忘。


写在最后

大语言模型的记忆系统,早已不是一个简单的统计学概念,而是一个横跨参数化知识压缩、上下文工作区、外部知识库、终身学习机制的复杂动态生态。

不论是3.6bits/parameter的物理标度律,通信复杂性带来的组合瓶颈,还是率失真定律下幻觉的必然性,都告诉我们:单纯靠堆参数、堆上下文窗口,永远无法真正解决大模型的记忆问题。

未来大模型记忆能力的跃迁,一定是来自底层架构的协同创新,来自对记忆机制的深度理解,而不是算力的野蛮堆叠。

如果你不想错过后续的硬核内容,欢迎关注,点赞、在看、转发,是我持续更新的最大动力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 赛博解生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 先明确:我们说的 LLM「记忆」,到底指什么
  • 物理天花板:大模型的记忆容量,到底有极限吗?
    • 1. 绝对的物理存储上限
    • 2. 参数精度的非线性骗局
    • 3. 顿悟(Grokking)现象的终极解释
  • 我们常说的「灾难性遗忘」,到底是怎么发生的?
    • 1. 参数空间:破坏性梯度干涉
    • 2. 表征空间:中间层的几何表征漂移
    • 3. 优化地形:损失极小值的“平坦化”塌陷
    • 4. 无法打破的遗忘缩放定律
  • 目前针对记忆相关问题,有哪些可行的解决思路
    • 方向一:参数化记忆的“外科手术”——知识编辑
      • 1. ROME:单体知识的精准编辑
      • 2. MEMIT:批量知识的持续编辑
    • 方向二:外部记忆的无缝协同——RAG
    • 方向三:上下文记忆的硬件级突破——KV Cache优化
    • 方向四:抗遗忘的终身学习方案
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档