首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

谷歌DeepMind:大模型也很任性,知道最优路径偏要撞南墙

作者头像
机器之心
发布于 2025-05-06 05:59:22
发布于 2025-05-06 05:59:22
1250
举报
文章被收录于专栏:机器之心机器之心

机器之心报道

编辑:陈萍

该研究对 LLM 常见的失败模式贪婪性、频率偏差和知 - 行差距,进行了深入研究。

大语言模型(LLMs)的成功激发了人们对各种智能体的兴趣。将 LLM 用于智能体的一个关键假设是,LLMs 利用常识和思维链(Chain-of-Thought, CoT)进行推理,从而智能体可以有效地探索并高效地解决复杂领域的问题。

然而,LLM 智能体存在次优探索和知 - 行差距(knowing-doing gap)的问题,即无法有效地将模型中的知识转化为行动。

本文,来自谷歌 DeepMind 的研究者系统地研究了为什么 LLM 在决策场景中表现次优的原因。特别是,本文深入研究了三种常见的失败模式:贪婪性、频率偏差和知 - 行差距

在此基础上,本文提出通过强化学习对自动生成的 CoT 推理过程进行微调,以缓解这些不足。实验表明 RL 微调能有效提升 LLMs 的决策能力 —— 既增强了智能体探索性行为,又缩小了知 - 行差距。

  • 论文标题: LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities
  • 论文地址:https://www.alphaxiv.org/abs/2504.16078

方法介绍

本文系统性地分析了中小规模 LLMs 存在的三种典型缺陷:贪婪性策略、频率偏差以及知行差距。分析表明,由于 LLMs 过早陷入贪婪动作选择策略,导致动作覆盖率停滞(最高达 55% 未探索),最终性能持续低于最优水平。

具体而言,本文发现小规模 LLMs(2B)倾向于机械复制上下文中的高频动作(无视其奖励差异),这种现象被定义为频率偏差。

相比之下,大规模 LLMs(27B)虽能显著减弱频率偏差,但依旧维持贪婪行为。

同样值得注意的是,本文通过量化知 - 行差距发现:LLMs 虽能正确理解任务要求,却因执着于贪婪动作而无法有效执行所知方案。

为克服这些缺陷,本文提出在自动生成思维链(CoT)推理的基础上进行强化学习微调方法(RLFT)

RLFT 方法依赖于从环境交互中获得的奖励,对自生成的 CoT 原理进行微调。在 RLFT 过程中,模型会学习迭代地优化其推理过程,从而倾向于选择能够带来更高奖励的 CoT 模式和动作(参见图 1)。本文方法更专注于决策场景。

上下文表示:在步骤 t 时,输入 Token 包括输入指令

,输出指令

和最近的交互历史

。历史表示包含最近 C 个状态、动作和奖励的轨迹

微调目标:本文使用 Schulman 等人引入的裁剪目标进行微调,并对参考策略

进行额外的 KL 约束:

实验结果

比较模型:实验比较了 Gemma2 模型的三种尺寸大小:2B、9B 和 27B 。

环境:多臂老虎机(MAB,Multi-Armed Bandit)以及井字棋游戏。

为什么 LLM 在决策方面表现不佳?

先前的研究发现,LLM 智能体在交互环境中表现欠佳,且探索不足。因此,本文首先研究模型表现欠佳的原因,并确定了三种常见的故障模式:(1) 贪婪,(2) 频率偏差,以及 (3) 知 - 行差距。发现三种故障模式在各个模型尺寸上均持续存在。

贪婪是第一个也是最普遍的故障模式,其特征是 LLM 过度偏向于迄今为止看到的一小部分操作中表现最佳的操作。为了说明这种故障模式,本文展示了 Gemma2 2B/9B/27B 在启用和禁用 CoT 的情况下,在 64 个 MAB(包含 10 个和 20 个分支)上,并且在 50 个交互步骤中实现的平均操作覆盖率(见图 3 a 和 b)。

结果显示模型过早地采用贪婪策略,导致动作覆盖率在 10 步之后停滞不前。增加分支数量会使贪婪更加明显,最大的模型仅覆盖了所有动作的 45%。因此,尽管这些模型比随机智能体有显著改进(参见图 3c),但与 UCB ( Upper-confidence Bound )相比,遗憾值仍然很高。

本文探索的下一个常见故障模式是频率偏差,其特点是模型重复选择上下文中出现频率最高的动作,即使该动作的奖励很低。

结果显示,Gemma2 2B 严重受到重复动作的影响,随着重复次数的增加,熵值不断降低(见图 4a)。相反,27B 模型摆脱了频率偏差(见图 4c)。事实上,对于 2B 来说,频率偏差随着重复次数的增加而不断增加。虽然 27B 摆脱了频率偏差,但它严重受到贪婪的影响。

知 - 行差距。智能体清楚地知道如何解决任务,所有推理中有 87% 是正确的(见图 5)。然而,即使对于正确计算的推理,模型也经常会选择贪婪动作(58%)而不是最优动作(21%)。这种差异凸显了 LLM 在了解算法的情况下采取行动不一的缺陷。

RL 微调的有效性

接下来,本文研究 RLFT 对累积遗憾的影响(相对于最优策略),以及它是否能缓解这些故障模式。

结果显示 RLFT 降低了遗憾值。在各种环境中,LLM 的表现明显优于随机基线,并且 RLFT 降低了 2B 和 9B 的遗憾值。

此外,RLFT 可缓解贪婪性,通过 RLFT,智能体学会了探索,从而缓解了贪婪性。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
理解什么是推理模型,看懂这篇就够了
DeepSeek-R1、OpenAI o3-mini 和 Google Gemini 2.0 Flash Thinking 是通过“推理”框架将 LLMs 扩展到新高度的典范。
AIGC新知
2025/03/21
9030
理解什么是推理模型,看懂这篇就够了
过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%
在提升大型语言模型(LLM)在数学推理方面的能力时,一个常用的方法是训练一个奖励模型(reward model)或验证器(verifier),也可以利用强化学习在测试阶段(test-time)对所有解决方案进行重排序。
新智元
2025/02/14
1430
过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%
谷歌这次确实有诚意,性能翻倍
AI赛道上,科技巨头们激烈角逐。前脚有GPT-4o问世,后脚就出现了Claude 3.5 Sonnet。如此激烈的争斗中,谷歌虽然发力较晚,但在短时间内就能有显著的能力跟进,可见其技术发展与创新的潜力。
Ai学习的老章
2024/07/06
1900
谷歌这次确实有诚意,性能翻倍
Google | 提出CoT解码新方法,无需Prompt,就能让大模型(LLM)进行CoT推理
在增强大语言模型(LLM)的推理能力方面,先前的研究主要集中在特定的Prompt技术上,例如少样本(Few-shot)或零样本(Zero-shot)思维链(CoT)提示。这些方法虽然有效,但通常涉及手工密集型Prompt工程。
ShuYini
2024/02/22
7770
Google | 提出CoT解码新方法,无需Prompt,就能让大模型(LLM)进行CoT推理
每周AI论文速递(250210-250214)
我们研究了一种新型的语言模型架构,该架构能够通过在潜在空间中进行隐式推理来扩展测试时的计算。我们的模型通过迭代一个循环块,在测试时可以展开到任意深度。这与主流的推理模型不同,后者是通过生成更多 Token 来扩展计算能力的。与基于思维链的方法不同,我们不需要任何专门训练的数据,并能够使用小上下文窗口,还可以捕捉那些无法轻易用语言表示的推理类型。我们将一个概念验证模型调整到了 35 亿个参数和 800 亿个 Token 规模。结果表明,该模型在推理基准测试上可以提升性能,有时甚至显著增强,相当于增加了 50 亿个参数的计算负载。
叶子的技术碎碎念
2025/04/08
1650
每周AI论文速递(250210-250214)
大模型 LLM 架构对比,DeepSeek、Llama、Qwen、Kimi、Mistral、Gemma
转载翻译一篇优质文章,原文:https://sebastianraschka.com/blog/2025/the-big-llm-architecture-comparison.html
Ai学习的老章
2025/08/05
8220
大模型 LLM 架构对比,DeepSeek、Llama、Qwen、Kimi、Mistral、Gemma
85篇大模型论文,合集! 附:项目代码
大模型有多火,自不必多说,但是想发论文完全没头绪?那你一定不要错过这6个,备受顶会青睐的方向!
Ai学习的老章
2025/06/19
2310
85篇大模型论文,合集! 附:项目代码
【论文分享】推理大模型Post-Training技术的全面综述
大规模语言模型(LLMs)已经彻底改变了自然语言处理领域,并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础,但研究界现在越来越多地将焦点转向后续训练技术,以实现进一步的突破。虽然预训练提供了广泛的语言基础,但后续训练方法使得LLMs能够精炼其知识、改善推理能力、提升事实准确性,并在更好地与用户意图和伦理考虑保持一致方面发挥重要作用。微调、强化学习和测试时扩展等策略已经成为优化LLMs性能、确保鲁棒性和提高适应性在各种现实任务中的关键方法。本文综述了后续训练方法,系统地分析了它们在进一步完善LLMs方面的作用,讨论了如灾难性遗忘、奖励劫持和推理时的权衡等关键挑战。论文还强调了模型对齐、可扩展适应性和推理时推理能力等新兴方向,并概述了未来的研究方向。
致Great
2025/03/07
4700
【论文分享】推理大模型Post-Training技术的全面综述
每周AI论文速递(250804-250808)
思维链 (Chain-of-Thought, CoT) 提示技术已被证实能显著提升大语言模型 (Large Language Model, LLM) 在多类任务中的表现。采用该方法时,大语言模型会在输出答案前生成类人的推理步骤(称为 CoT 推理),这种现象常被解读为模型正在进行有意识的推理过程。然而,初步研究表明 CoT 推理可能仅停留在表面层面,这促使我们开展深入研究。本文从数据分布的角度出发,探究 CoT 推理是否本质上是模型从分布内数据中习得的结构化归纳偏置 (structured inductive bias),使其能够根据条件生成与训练数据相似的推理路径。因此,其有效性根本上受限于训练数据与测试查询之间的分布差异程度。基于此视角,我们从任务、长度和格式三个维度对 CoT 推理进行解构。为验证每个维度,我们设计了 DataAlchemy——一个隔离可控的实验环境,用于从头训练大语言模型并系统性地测试不同分布条件下的表现。实验结果表明,CoT 推理是一种脆弱的假象,一旦超出训练数据分布范围就会失效。本研究深入揭示了 CoT 推理失效的原因和条件,强调了实现真正具备泛化能力的推理仍面临重大挑战。
叶子的技术碎碎念
2025/08/11
1630
每周AI论文速递(250804-250808)
【论文解读】多模态大模型综述
多模态大语言模型(MLLM)是近年来一个新兴的研究热点,它利用强大的大语言模型(LLM)作为大脑进行多模态研究。MLLM令人惊讶的涌现能力,比如基于图像写故事和无ocr的数学推理,在传统方法中是罕见的,这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先,论文提出了MLLM的公式,并描述了它的相关概念。然后,论文讨论了关键的技术和应用,包括多模态指令调整(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)和LLM辅助视觉推理(LAVR)。最后,论文讨论了现有的挑战,并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始,作者将继续更新这项调查,并希望它能激发更多的研究。
合合技术团队
2024/03/12
7K0
【论文解读】多模态大模型综述
单张A100全精度推理!谷歌明星开源模型Gemma 2上新9B/27B,挑战3140亿Grok-1
就在昨晚,谷歌的明星开源大模型系列,又迎来两位新成员——Gemma 2 9B和Gemma 2 27B!
新智元
2024/06/28
2580
单张A100全精度推理!谷歌明星开源模型Gemma 2上新9B/27B,挑战3140亿Grok-1
开源大模型王座易主!谷歌Gemma杀入场,笔记本可跑,可商用
谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。
机器之心
2024/02/26
3710
开源大模型王座易主!谷歌Gemma杀入场,笔记本可跑,可商用
推理大模型的后训练增强技术-强化学习篇
人生中充满选择,每次选择就是一次决策,我们正是从一次次决策中,把自己带领到人生的下一段旅程中。在回忆往事时,我们会对生命中某些时刻的决策印象深刻:“唉,当初我要是去那家公司实习就好了,在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思,我们或许能领悟一些道理,变得更加睿智和成熟,以更积极的精神来迎接未来的选择和成长。
致Great
2025/03/10
6550
推理大模型的后训练增强技术-强化学习篇
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
更震撼的是,MLLM的空间推理能力虽然仍是瓶颈,但这些模型中,已经出现了局部世界模型和空间意识的迹象!
新智元
2025/02/15
2750
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
代码增强LLM!UIUC | 概述将代码数据加入LLM训练数据中的各种好处
大模型时代的语言模型(LLM)不仅在尺寸上变得更大了,而且训练数据也同时包含了自然语言和形式语言(代码)。作为人类和计算机之间的媒介,代码可以将高级目标转换为可执行的中间步骤,具有语法标准、逻辑一致、抽象和模块化的特点。
ShuYini
2024/01/31
5940
代码增强LLM!UIUC | 概述将代码数据加入LLM训练数据中的各种好处
每周AI论文速递(240401-240405)
我们推出了 Jamba,这是一种基于创新的混合 Transformer-Mamba 混合专家 (MoE) 架构的大型基础语言模型。Jamba 特别地将 Transformer 和 Mamba 层交替布置,兼顾了这两种模型体系的优势。在部分层中融入了 MoE 技术,以扩大模型容量,同时确保参数的活跃使用保持在可控范围内。这种灵活的架构支持针对特定资源和目标的配置。在我们实施的特定配置中,成功构建了一个强大的模型,该模型能够在单个 80GB GPU 上运行。Jamba 在大规模构建时,相比传统 Transformer,提供了更高的吞吐量和更小的内存占用,并在标准语言模型基准测试和长文本评估中展现了卓越性能。值得一提的是,该模型在长达 256K token 的上下文中显示出了强劲的性能。我们对如何结合 Transformer 和 Mamba 层,以及如何混合不同的专家进行了深入研究,并发现其中某些决策对大规模建模至关重要。我们还发现了 Jamba 在训练和评估过程中展现出的几个有趣特性,并计划发布不同消融测试的检查点,以促进对这种新型架构的进一步探索。我们将 Jamba 实现的权重以宽松的许可证形式公开提供。
叶子的技术碎碎念
2025/04/08
940
每周AI论文速递(240401-240405)
Eir-8B 专为医学领域打造的先进大语言模型 !
近年来人工智能(AI)和大型语言模型(LLMs)在自然语言处理(NLP)任务上取得了显著的进步,大大提升了各种功能的使用效率,如客户服务、语言翻译和内容生成。在这个背景下,AI在多个领域,尤其是医疗领域的辅助作用具有尤为重要的意义。
AIGC 先锋科技
2024/09/29
2460
Eir-8B 专为医学领域打造的先进大语言模型 !
每周AI论文速递(241223-241227)
自回归模型是视觉生成的一种强大方法,但由于其逐 Token 的序列预测过程,导致推理速度较慢。在本文中,我们提出了一种简单而有效的并行化自回归视觉生成方法,该方法在保持自回归建模优势的同时提高了生成效率。我们的核心观点是,并行生成依赖于视觉 Token 的依赖关系——依赖关系较弱的 Token 可以并行生成,而依赖关系较强的相邻 Token 则难以并行生成,因为它们的独立采样可能导致不一致性。基于这一发现,我们开发了一种并行生成策略,该策略并行生成依赖关系较远的 Token,同时对依赖关系较强的局部 Token 保持序列生成。我们的方法可以无缝集成到标准的自回归模型中,而无需修改架构或 Tokenizer。在 ImageNet 和 UCF-101 数据集上的实验表明,我们的方法在图像和视频生成任务中实现了 3.6 倍的加速,且质量相当;在质量轻微下降的情况下,加速比可达 9.5 倍。我们希望这项工作能够激发未来在高效视觉生成和统一自回归建模方面的研究。项目页面:https://epiphqny.github.io/PAR-project。
叶子的技术碎碎念
2025/04/08
1370
每周AI论文速递(241223-241227)
DeepMind首提「统一智能体」!大模型做推理,赋能终身学习,AI王者加冕
来自Google DeepMind研究团队,设计了一个框架,使用语言作为核心推理工具,探索让智能体解决一系列基本的RL挑战。
新智元
2023/08/07
5530
DeepMind首提「统一智能体」!大模型做推理,赋能终身学习,AI王者加冕
AAAI 2024|大模型论文总结(下)
上篇介绍前20篇关于大语言模型的文章,本次将继续介绍剩下的55篇文章。(如有疏漏,欢迎大家补充)。
时空探索之旅
2024/11/19
7320
AAAI 2024|大模型论文总结(下)
推荐阅读
相关推荐
理解什么是推理模型,看懂这篇就够了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档