前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Search-R1:复现 OpenAI Deep Research 能力的开源强化学习框架

Search-R1:复现 OpenAI Deep Research 能力的开源强化学习框架

作者头像
AgenticAI
发布2025-04-14 11:02:28
发布2025-04-14 11:02:28
4620
举报
文章被收录于专栏:AgenticAIAgenticAI

🚀 一边思考,一边“查资料”,还会主动规划步骤——这就是 Search-R1 想教会语言模型的能力。

整合知识的能力是创造新知识的先决条件。因此,深入研究标志着我们朝着开发通用人工智能(AGI)这一更宏大目标迈出了重要一步。

OpenAI 在 2025 年 2 月推出了 Deep Research 功能,展示了其模型在复杂任务中多轮检索、规划与推理的强大能力,令人惊艳。虽然该功能暂未全面开放,但我们已经可以在 Grok、Google,以及智谱 AI 的“沉思”系统中看到类似特性逐步落地。

那么,这些“深度研究”能力到底是如何训练出来的?是否可以自己复现一个简化版的 Deep Research 系统?

1. 从 RAG 到主动搜索

最近来自 UIUC、UMass Amherst 和 Google Cloud AI Research 的研究人员提出了一个值得注意的框架Search-R1[1]。它推出了一种结合强化学习(RL)和搜索引擎使用的大语言模型(LLM)训练框架。目标是让 LLM 在推理过程中能够

  • 主动调用搜索引擎
  • 基于检索结果迭代推理*
  • 学习检索 + 推理的整体策略

相较于传统 RAG 方法,Search-R1 的 3B 和 7B 模型在多项数据集上取得了 高达 20%~41% 的性能提升,显示出小模型也能做“大思考”的潜力。而这和 Open AI 的 Deep Research 原理已经非常相似了!

Open AI 官网介绍[2],Deep Research 是基于 O3,利用端到端强化学习技术,在多个领域的复杂浏览和推理任务上进行训练。通过训练,模型学会了规划和执行多步骤路径以查找所需数据,并在必要时进行回溯并对实时信息做出反应。

2. 背景问题

目前将 LLM 与搜索引擎结合的主流方法主要有两类:检索增强生成(RAG)和将搜索引擎视为工具使用。然而,基于提示的方法在泛化性方面存在问题

  • 缺乏多轮交互:无法根据中间思考结果动态检索;
  • 缺乏策略学习:不会自己判断何时该查资料;
  • 泛化能力不足:Prompt 调用策略难以适应新任务。

强化学习(RL)已成为提升 LLM 推理能力的有力手段。多个近期工作表明,通过 RL,模型能够习得复杂的推理技巧,如自我验证与自我纠错。但在“搜索 + 推理”的场景中应用 RL 仍面临 三大关键挑战

  1. 如何将搜索引擎纳入 RL 框架并保持训练稳定性?
  2. 如何设计机制,实现推理与搜索的多轮交替?
  3. 如何设计有效的奖励函数,引导模型学会搜索行为?

3. Search-R1 框架详解

为了解决上述挑战,作者团队提出了 SEARCH-R1 —— 一个新的强化学习框架,能够让 LLM 在自身推理过程中与搜索引擎交替交互。该方法实现了:

  • 将搜索引擎建模为环境的一部分 模型可以在生成中插入 <search>query</search> 指令,系统则响应 <information>results</information>,最终答案用 <answer> 标签输出,推理过程包裹在 <think> 中。
  • 支持多轮思考-检索循环 模型可以识别信息缺口并主动发起下一轮搜索,而不是一次性拼接上下文。
  • 基于强化学习策略学习 训练采用 PPO 或 GRPO 算法,奖励信号基于最终结果(如 Exact Match)而非过程监督。
  • 避免优化干扰的技术细节 引入 Retrieved Token Loss Masking,对搜索返回内容不反向传播,从而保持训练稳定。

4. 示例过程

下图展示了模型在回答复杂问题时的交互过程:

你会发现,这种 <think><search><information><think><answer> 的模式,已经非常接近我们熟悉的 ReAct Agent 范式。不同的是,这里的 Agent 不依赖提示词,而是通过 RL 真正“学会了”搜索策略。Search-R1 实质上就是一个 “带搜索能力的 ReAct Agent”,只不过不再依赖提示词工程,而是直接通过强化学习学会何时搜索、何时推理。注意,它是主动认知到何时需要检索信息,这是一个非常显著的特点和不同。与现有范式区别

接下来,我们也看一下他在具体的数据集表现。

5. 数据集表现

从下图来看,它用 7B 模型就能超越 Search-o1 和 680B 参数的 R1?这种“小模型大能力”的背后,正是 RL 训练出的搜索策略弥补了知识覆盖和参数规模的不足。

整体来看,强化训练出的搜索策略能有效弥补小模型参数量的不足,为高效 Agent 提供了另一种可能路径。

总结

Search-R1 展示了一种高度通用、可扩展的训练范式,成功让语言模型具备主动搜索、动态推理和策略规划能力。其意义不仅在于提高准确率,更在于为“会思考的 AI 助理”奠定了能力基础。我们看到RAG的新范式,期待后续大模型跟进!

最后,该项目已经开源,地址如下自取。

https://github.com/PeterGriffinJin/Search-R1 参考资料

[1]

Search-R1: https://arxiv.org/pdf/2503.09516

[2]

Open AI官网介绍: https://openai.com/index/introducing-deep-research/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 从 RAG 到主动搜索
  • 2. 背景问题
  • 3. Search-R1 框架详解
  • 4. 示例过程
  • 5. 数据集表现
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档