文章/答案/技术大牛

发布

社区首页 >专栏 >大模型再爆弱点！旧记忆忘不掉，新记忆分不出，准确率暴降 | ICML'25

大模型再爆弱点！旧记忆忘不掉，新记忆分不出，准确率暴降 | ICML'25

新智元

发布于 2025-07-21 01:11:58

1390

文章被收录于专栏：新智元新智元

新智元报道

编辑：LRST

【新智元导读】大模型有苦恼，记性太好，无法忘记旧记忆，也区分不出新记忆！基于工作记忆的认知测试显示，LLM的上下文检索存在局限。在一项人类稳定保持高正确率的简单检索任务中，模型几乎一定会混淆无效信息与正确答案。

人们越来越意识到，大语言模型（LLM）里「找信息」这件事，并不是简单地翻字典，而和「写信息」的能力紧紧绑在一起。

一般认为，给模型塞入更长的上下文就能让它找得更准，不过上下文内部存在「互相干扰」，但这种现象却很少被研究。

为了看清这个问题，弗吉尼亚大学和纽约大学神经科学中心研究人员借用了心理学里的「前摄干扰」（proactive interference）概念：先出现的信息会妨碍我们回忆后来更新的内容。

在人身上，这种干扰越强烈，往往意味着工作记忆容量越小。

于是，研究团队使用认知科学经典范式设计了一个新的测验PI-LLM，像播放连续剧一样，把一组语义相关的「键key—值value」配对（例如「key苹果，value红色」）依次喂给模型，并不断更新这些值；最后只问模型「某个key对应的最新value是什么」。

虽然最新value就放在提问前一句话的位置，随着前面干扰项的增加，模型的正确率却以对数速度一路跌到接近零，其中错误的主要来源是模型把旧value当成了新答案。

研究人员尝试用提示工程，比如明确告诉模型「请忽略前面所有旧信息」，但效果有限。

这说明，LLM面对干扰时，并不只是「读到」或「读不到」的问题，而是像人类一样存在「工作记忆瓶颈」：即使上下文触手可及，它们也难以灵活地压制无关信息。

下一步，也许需要新的方法，让模型学会在检索时主动「忘掉」不该用的内容。

论文链接： https://arxiv.org/abs/2506.08184

仓库链接： https://github.com/zhuangziGiantfish/Unable-to-Forget

交互式演示： https://zhuangzigiantfish.github.io/Unable-to-Forget/

这篇论文发现了一个影响所有大语言模型（LLM）的信息检索问题。

该任务对人类没有难度，但是所有LLM均出现显著错误，并对全局记忆（memory）和长推理任务（long reasoning）造成显著损害。

论文已被 ICML 2025 Workshop on Long Context Foundation Models接收。

该研究由王楚培（弗吉尼亚大学物理学士，具哲学背景的跨学科研究者）与孙嘉秋（纽约大学神经科学中心博士生，师从上海纽约大学神经与认知科学副教授-纽约大学全球特聘副教授田兴）共同主导。共同第一作者，共同通讯作者。两位作者分别具备物理、建筑与哲学的多元背景，致力于从认知系统崩溃点探索智能本质。

郑喆阳（Flatiron Institute CCN 客座研究员、纽约大学博士生）与邝一伦（纽约大学 CILVR Lab 博士生，导师：Yann LeCun）在项目的发起与推进过程中，提供了关键性的咨询和建议。

实验核心设定

任务数据input

假设给模型一串常见的动态更新的数据(key-value pair)，比如：

「Blood Pressure=120, Bp=135, Bp=119」

LLM任务Query

血压（BP）的最后一个数值(value)是多少？

结果

目前所有主流LLM（从最新的 GPT-4.1、Llama-4、DeepSeek-V3，到Llama-3、Qwen-2.5等，参数规模从0.6B到600B+不等）都无法稳定地提取最后一个数值，而且错误方式呈现出明确的数学规律呈现对数下降。

讨论

对人类来说，这个任务非常简单，答案显而易见是最后一个值119。因为本任务没有搜索难度。

这种任务模式在金融（账户余额变化）、医疗（生理指标跟踪）、等所有需要追踪动态数据的领域中都极为常见

实验结果

随着更新次数增加，所有模型的准确率都呈现一致的对数线性下降（log-linear decline）。

随着干扰增多，准确率最终稳定地降至0%。此时，所有模型彻底失灵，100%产生幻觉（hallucination），100%无法给出正确答案。

这种一致的衰减模式跨越了模型架构、规模和训练资源的差异，强烈暗示问题的根源可能位于Transformer架构或其所依赖的注意力机制等基础层面。

当语言模型需要在大量语义相似的干扰项之后检索特定目标信息时，其检索准确率会显著且持续地降低，这种对数线性下降趋势在所有主流模型中均被观察到。

LLM-PI测试的基本输入示例：模型需要处理一段连续更新的键值key-value信息流（如「visual art」对应多个值），并在更新结束后准确检索出每个键对应的最终值（图中以加粗显示）。

实验设置

测试中要求模型处理1到46个不同的Key，每个Key的更新次数在1到400次之间。

随机，乱序混合这些更新，然后模型正确提取每个key 的last vale（最新值）的正确率

与人类对比

这一任务的设计本质上非常简单：

（1）不涉及复杂的搜索

（2）不存在逻辑上的难度

人类可以轻松调整注意力，只关注最新信息，受上文内容干扰程度有限。

分析错误答案显示，模型经常错误地提取了无关的上文更新值作为最终答案，这表明当前的LLM在处理此类信息流时难以有效忽略或过滤掉非目标（旧）信息。

进一步的错误分布分析揭示，LLM表现出类似有限工作记忆容量的行为模式：它们似乎在有限的表征空间内记录键值对，一旦更新次数超出该容量，检索性能便会彻底失效。

研究人员还发现，有多种方式可以触发搜索失败，均具备相同的对数衰减曲线：1) 增加同时追踪Key的数量，或者2)增加配对Value的token长度。

这些现象均会对LLM检索任务准确性造成显著影响，同时在人类实验中虽也发现类似现象，但人类的工作记忆并不会在这类任务中彻底失效。

现象解读：「Unable to Forget」

大模型无法忽略或者忘记无关信息，从而造成彻底搜索失效：

尤为反直觉的是，即使采用最直观的自然语言干预策略，例如在输入中明确提示答案所在区域，或直接告诉模型「专注最新更新」或「忘记之前信息」，也无法显著改善模型表现。

这说明干扰效应强大到足以覆盖明确的自然语言指令，迫使模型不得不关注旧信息。

由此可以知道，要对抗干扰，很可能需要对模型架构本身或训练范式进行根本性调整，而非仅依赖提示工程。

LLM为何难以稳定提取最新信息？

对错误的分析表示，LLM的失败并非随机失误，而是系统性地受到反复更新的影响。

随着干扰量的增加，错误呈现清晰的阶段性演变：

初期：邻近干扰占主导，检索错误来源主要是紧邻末尾的value。

中期：干扰范围扩散，错误来源显著扩大到全文任何区域的value。

后期：彻底混乱，模型输出高度分散和大量检索到从未输入的值。

将模型对某个键的响应按其值在更新流中的位置（分11个区间，Bin 1最早 - Bin 11最终）进行统计。

结果显示：随着更新次数增加（左→右面板），正确命中最终值（土黄）的比例骤降。更值得注意的是，错误响应从主要聚集在最终更新附近（如Bin 10-11，可能是混淆相邻更新），逐渐转变为分散到更早的区间（Bin 1-9）。

此外，返回不存在值（「幻觉」，浅灰）和未返回值（「失效」，深灰）的错误也急剧增加，共同描绘出信息过载下模型记忆检索系统的崩溃图景。

Top-Down调控的彻底失效

与人类截然不同，LLM在此类提取任务的表现，几乎不受「自上而下」（Top-Down）prompt提示的影响。这也解释了为何思维链（CoT）模型在此问题上没有性能改善。

自然语言prompt失效： 本文测试了多种提示词（prompt）变体，明确引导模型关注最新信息或忽略历史干扰（例如，明确标注答案区域、「专注下文」或指令「忘记之前内容」）。结果：所有自然语言干预措施，均未能显著提升模型在的提取准确率，也未能改变的log-linear正确率衰退模式。干扰累积时，模型依然顽固地滑向彻底错误（0%正确率）

CoT模型没有改善，即使不设限制的让模型输出冗长的的推理过程（CoT），其提取错误率曲线与不使用CoT的基线模型几乎完全重合。这表明，推理无法有效提升模型抵抗上下文信息干扰的能力。

这说明，干扰信息对模型行为的影响超越了自然语言指令所能引导或抑制的范围。模型「理解」了指令（如声称要专注最新值），但在实际操作中无法有效执行，仍被历史信息强力牵引注意。

问题触及架构或训练根本： prompt 和CoT模型的无效性暗示，仅靠提示工程（Prompt Engineering）无法根治此问题。很可能需要在模型架构设计（如注意力机制、记忆模块）或训练目标/方法（如引入抗干扰的显式训练信号）层面进行创新性调整。这指向了未来研究的一个关键方向。

思维链（CoT）模型对提升信息检索抗干扰能力几乎无效。启用CoT的版本（虚线）性能曲线与其基础模型（实线）高度重合或更差。证实：干扰导致的检索失败是底层机制问题，无法通过附加的「思考」过程克服。

上图展示了五种不同的自然语言干预策略（如指令模型「忘记」特定键历史、提示关注后续信息、自我评估相关性、软会话重置以及技术性的Mock QA重置），它们被设计插入到信息流后期以试图对抗干扰。

然而实验表明，所有这些提示工程策略均未能有效缓解信息过载导致的检索性能崩溃，对数衰减模式依旧，突显了现有自然语言干预的局限性。

Unable to Forget

此外受LLM提示劫持（Prompt Hacking）的启发，研究人员设计了一种非自然语言的对抗式提示策略（adversarial prompting），通过构造具有欺骗性的输入，模拟模型自身的回复格式和逻辑：

在输入中构造一段虚假的人机对话，暗示所有上文更新都属于另一个已被回答完毕的旧问题。

这种「欺骗性上下文隔离」策略部分提升了正确率，但提升后的正确率依然遵循log-linear decay规律。

这说明：LLM无法真正「忘记」或忽略那些造成干扰的信息，只能通过特定输入形式进行一定程度的「屏蔽」。

上图揭示了关键结果：旨在缓解干扰的自然语言提示策略（实线）效果普遍微弱，在高更新量下与基线（黑线）性能曲线几乎无区别，部分策略反而有害。唯一例外是结构化hack-Mock QA重置（橙色虚线），作为人为设计的「hack method」，它带来了实质性提升，但仍无法阻止准确性随信息量增长的整体下滑。

「干扰」作为独立变量

不同于业内通常认为的输入文本长度导致注意力稀释，本文控制变量实验证明。

模型性能的下降主要由干扰强度驱动，而非单纯由文本长度引起。

具体来说，即使固定输入文本长度，控制干扰强度，LLM的错误率依然表现出对数上升。

该实验对LLM在MRCR测试中的不良表现提供了解释角度

DeepMind 的 MRCR 和 OpenAI 的 Open MRCR通过仿真测试在长文本中插入大量相似项，揭示了 LLM 区分相似信息的弱点。

该工作提供了互补且更底层的视角，并证明不需要海量信息也可以触发检索错误：MRCR测试所称为的共指消解（coreference）对应人类认知领域的干涉（interference）现象。

研究人员定量剥离出「干扰」（Interference）作为核心独立变量，直接证明其对性能的因果性负面影响。

结果揭示了此类任务失败的核心驱动因素之一是模型的抗干扰容量（Anti-Interference Capacity）不足，并提供了精确的量化分析框架（log-linear decay）

OpenAI 在 GPT-4.1 文档中指出，客户（尤其在法律、金融领域）高度关注频繁更新并提取信息的任务。（链接Introducing GPT-4.1 in the API）。

研究人员直接指向了MRCR的底层挑战之一不仅是海量信息的搜索造成的，而是LLM在interference信息面前的检索失效造成的。

实验同时对认知科学角度提供了对比：

认知科学的桥梁：该测试在认知科学领域（proactive interference 测试）被广泛用于衡量人类工作记忆（Working Memory）容量和抗干扰能力。

实验采用了严格对应认知科学的实验范式。

因此，结果可被解读为：LLM表现出某种类似工作记忆的有限容量机制，其「抗干扰容量」（Anti-Interference Capacity）是衡量该机制强度的关键指标。

LLM的普遍失效，强烈暗示其目前尚缺乏人类般有效进行 Top-Down 控制、以优化利用上下文信息的能力。

任务要求极其明确，搜索难度极低（理论上最利于 LLM）。提升这种能力，对于增强 LLM 在金融、医疗监测等依赖动态数据追踪的任务中的基础可靠性至关重要，也对执行long reasoning （长推理）的能力提供可靠性支持。

核心结论

LLM目前不具备人类水平的Top-Down信息关注和处理控制的能力，尤其是在需要抵抗语义相似的上下文信息干扰、精确提取数据的场景下无法稳定工作。

ICML评审意见也认可了该研究揭示了一个此前未被发现的LLM检索失败现象，采用认知科学启发的测试设计方法，具有显著新颖性。

参考资料：

https://arxiv.org/abs/2506.08184

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-07-20，如有侵权请联系 cloudcommunity@tencent.com 删除

搜索

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

6624

Go 开发者必备：Protocol Buffers 入门指南

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

4195

60页PPT全解：DeepSeek系列论文技术要点整理

5622

AI记忆伪装被戳穿！GPT、DeepSeek等17款主流大模型根本记不住数字

模型数学统计 DeepSeek gpt

这件小事背后其实考验的是你大脑的工作记忆 —— 保持一个念头、随时对比外部问题并作出一致回应。

机器之心

2025/06/16

1150

全新CoD颠覆推理范式，准确率接近但token消耗成倍降低

数学 token 测试模型数据

如今，OpenAI o1 和 DeepSeek R1 等推理模型的发展，显著提升了思维链 (CoT) 之类的技术在大语言模型 (LLM) 推理任务上的表现。这种范式鼓励模型将问题分解为逐步探索，模仿人类的结构化推理过程。虽然这种方法有效，但它在推理时需要更多的计算资源，导致输出冗长且延迟更高。

机器之心

2025/03/11

1200

下一代语言模型范式LAM崛起！AutoGPT模式席卷LLM，三大组件全面综述：规划、记忆和工具

存储工具论文模型搜索

由ChatGPT掀起的这波AI浪潮已经将我们带入了人工智能时代，语言模型已经成为日常生活中不可或缺的工具。

新智元

2023/08/07

1.4K0

下一代语言模型范式LAM崛起！AutoGPT模式席卷LLM，三大组件全面综述：规划、记忆和工具

大模型自主智能体爆火，OpenAI也在暗中观察、发力，这是内部人的分析博客

openai 博客工具模型数据

最近几个月，随着大语言模型的持续火爆，利用其构建 AI 智能体的研究陆续进入人们的视线。AI 智能体这个概念也流行开来，不断突破人们的想象力。

机器之心

2023/08/07

7010

DeepMind让大模型学会归纳和演绎，GPT-4准确率提升13.7%

迁移 gpt 测试模型性能

当前，大型语言模型（LLM）在推理任务上表现出令人惊艳的能力，特别是在给出一些样例和中间步骤时。然而，prompt 方法往往依赖于 LLM 中的隐性知识，当隐性知识存在错误或者与任务不一致时，LLM 就会给出错误的回答。

机器之心

2023/10/24

3960

LLM准确率飙升27%！谷歌DeepMind提出全新「后退一步」提示技术

基础模型性能原理 LLM

前段时间，谷歌DeepMind提出了一种全新的「Step-Back Prompting」方法，直接让prompt技术变得脑洞大开。

新智元

2023/12/01

3930

NeurIPS 2024 | 可信大模型新挑战：噪声思维链提示下的鲁棒推理，准确率直降40%

模型数据性能工作论文

当前，大语言模型（Large Language Model, LLM）借助上下文学习（In-context Learning）和思维链提示（Chain of Thoughts Prompting），在许多复杂推理任务上展现出了强大的能力。

机器之心

2025/02/14

1950

NeurIPS 2024 | 可信大模型新挑战：噪声思维链提示下的鲁棒推理，准确率直降40%

大模型为啥这么慢，原来是想多了：新方向是和人一样的思维算法

解决方案模型搜索算法效率

人类直觉是一种常被 AI 研究者忽视的能力，但其精妙程度连我们自身也没有彻底理解。弗吉尼亚理工大学和微软的一个研究团队在近日的一篇论文中提出了思维算法（AoT），其组合了直觉能力与算法方法的条理性，从而能在保证 LLM 性能的同时极大节省成本。

机器之心

2023/09/19

3380

GPT-3解数学题准确率升至92.5%！微软提出MathPrompter，无需微调即可打造「理科」语言模型

gpt 解决方案模型数据数学

大型语言模型最为人诟病的缺点，除了一本正经地胡言乱语以外，估计就是「不会算数」了。

新智元

2023/04/04

6400

GPT-3解数学题准确率升至92.5%！微软提出MathPrompter，无需微调即可打造「理科」语言模型

超越 Transformer局限，优化思维链Prompt以提升大型语言模型的推理能力！

优化 prompt 模型搜索性能

大型语言模型（LLMs）的出现标志着自然语言处理和人工智能进入了一个新时代。这些模型在各种领域表现出惊人的能力,在知识检索和表达（张等人，2024年）等任务上实现了接近人类的性能。然而，关于它们的推理能力的担忧已经出现。这些任务范围从基本的操作如计数、排序和乘法，到更复杂的挑战如数学问题求解、算法设计和编程。以前的研究已经探讨了导致这些推理缺陷的各种因素，包括训练优化， Token 化方法，和数据集选择（杨等人，2024年）。在这些因素中，模型的结构在确定其推理能力方面起着关键作用。大多数主流LLM的核心架构——Transformer（有限精度）——与计算深度（Li等人，2024年）有关固有的限制。具体而言，Transformer中的注意力机制只能执行固定数量的连续计算步骤，导致_恒深度_建模。因此，仅依赖Transformer的_内部推理_，模型的可计算性受到限制，只能解决TC（Li等人，2024年；Feng等人，2024年）的复杂度和长度有限的问题（图1.c-d）。

未来先知

2025/01/15

2820

超越 Transformer局限，优化思维链Prompt以提升大型语言模型的推理能力！

OpenAI震撼技术圈！0代码构建Assistants API，技术原理探秘

api openai 工具模型原理

OpenAI 发布会带来了全新的开发方式——Assistants API，这背后基于的正是你可能闻所未闻的 AI Agent 智能体技术。本篇文章将为你全面解析 AI Agent 的概念、技术框架与应用场景。长文干货，先码再看！

腾讯云开发者

2023/11/09

2.2K0

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

LLM 测试工具模型语法

许多认知科学家和机器学习研究人员，都会认为，LLM表现出类人（或「接近类人」）的语言能力。

新智元

2025/02/14

960

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！LLM根本不会推理，只是工具

一个提示，让Llama 2准确率飙至80.3%？Meta提出全新注意力机制S2A，大幅降低模型幻觉

meta 论文模型数据 LLM

比如偏见（或包含不良信息）、幻觉（编造不存在的事情）、推理能力仍然比较弱（尽管有了step by step），还有一个问题是LLM倾向于迎合使用者的观点（阿谀奉承）。

新智元

2023/11/28

3080

一个提示，让Llama 2准确率飙至80.3%？Meta提出全新注意力机制S2A，大幅降低模型幻觉

重塑记忆架构：LLM正在安装「操作系统」

模型 LLM 操作系统架构论文

众所周知，现代大型语言模型（LLM）的上下文窗口普遍有限 —— 大多数模型只能处理数千到数万 token，比如早期的 GPT-3 仅有～2,048 token。虽然近期有些模型已经拓展到了百万级甚至千万级 token 窗口（如 Meta 的 Llama 4 Scout 宣称可达 1,000 万 token）。

机器之心

2025/07/17

1380

100:87：GPT-4心智碾压人类！三大GPT-3.5变种难敌

gpt 测试工作模型性能

---- 新智元报道编辑：Aeneas 好困【新智元导读】最新研究结果表明，AI在心智理论测试中的表现已经优于真人。GPT-4在推理基准测试中准确率可高达100%，而人类仅为87%。 GPT-4的心智理论，已经超越了人类！最近，约翰斯·霍普金斯大学的专家发现，GPT-4可以利用思维链推理和逐步思考，大大提升了自己的心智理论性能。论文地址：https://arxiv.org/abs/2304.11490 在一些测试中，人类的水平大概是87%，而GPT-4，已经达到了天花板级别的100%！

新智元

2023/05/09

2330

智源独家丨谢赛宁：AI是否需要更强的视觉基础来实现理解和意义?

监督学习基础模型搜索系统

实际上，早在 1990 年，Stevan Harnad 就讨论了符号基础的问题。那时，深度学习还没诞生。人们认为，只有当我们为人类语言或计算机代码赋予某种感知基础，这些符号才有意义。AI 要阻止出现「语义鸿沟」：通常人们在判别图像的相似性时并非建立在图像底层视觉特征的相似上，而是建立在对图像所描述的对象或事件的语义理解的基础上。

脑机接口社区

2024/06/21

3480

大模型训练全解析：预训练、微调、强化学习，一步到位！

基础模型数据优化强化学习

2025年初，随着DeepSeek的迅速走红，公众对LLM（大语言模型）的兴趣急剧上升。许多人被LLM展现出的近乎魔法的能力所吸引。然而，这些看似神奇的模型背后究竟隐藏着什么秘密？接下来，我们将深入探讨LLM的构建、训练和微调过程，揭示它们如何从基础模型演变为我们今天所使用的强大AI系统。

福大大架构师每日一题

2025/03/18

1.2K0

REACT：在语言模型中协同推理与行动，使其能够解决各种语言推理和决策任务。

模型数据 react 工作论文

“ 谷歌的研究人员提出了一种通用的方法，将推理（Reson）和行动（Acting）相结合，使得语言模型能够处理多种语言推理和决策任务。该研究表明，采用“推理+动作”范式（ReAct）要优于仅有推理或仅有动作的范式。通过紧密结合推理和动作，这种方法呈现出与人类类似的任务解决方式，从而提升了模型的可解释性、可诊断性和可控性。”

技术人生黄勇

2024/07/19

5560

那天，AI大模型想起了，被「失忆」所束缚的枷锁

管理架构模型系统存储

前些天，谷歌宣布 Gemini 具备了记忆能力。此前，它已经凭借长达 100 万 token 甚至更高的上下文长度，在「短期记忆」上有不错表现 —— 能够在一次会话中保留大量信息。但这一次，Gemini 可以跨越多次对话，从用户的交流中提炼关键细节和偏好，并在下一次交互时主动调用，让对话更自然、更连贯。

机器之心

2025/09/02

1350

大语言模型的上下文工程（Context Engineering for Large Language Models）

模型系统 models 代理工具

叶子的技术碎碎念

2025/07/21

6360