🚀 一边思考,一边“查资料”,还会主动规划步骤——这就是 Search-R1 想教会语言模型的能力。
整合知识的能力是创造新知识的先决条件。因此,深入研究标志着我们朝着开发通用人工智能(AGI)这一更宏大目标迈出了重要一步。
OpenAI 在 2025 年 2 月推出了 Deep Research 功能,展示了其模型在复杂任务中多轮检索、规划与推理的强大能力,令人惊艳。虽然该功能暂未全面开放,但我们已经可以在 Grok、Google,以及智谱 AI 的“沉思”系统中看到类似特性逐步落地。
那么,这些“深度研究”能力到底是如何训练出来的?是否可以自己复现一个简化版的 Deep Research 系统?
最近来自 UIUC、UMass Amherst 和 Google Cloud AI Research 的研究人员提出了一个值得注意的框架Search-R1[1]。它推出了一种结合强化学习(RL)和搜索引擎使用的大语言模型(LLM)训练框架。目标是让 LLM 在推理过程中能够
相较于传统 RAG 方法,Search-R1 的 3B 和 7B 模型在多项数据集上取得了 高达 20%~41% 的性能提升,显示出小模型也能做“大思考”的潜力。而这和 Open AI 的 Deep Research 原理已经非常相似了!
据Open AI 官网介绍[2],Deep Research 是基于 O3,利用端到端强化学习技术,在多个领域的复杂浏览和推理任务上进行训练。通过训练,模型学会了规划和执行多步骤路径以查找所需数据,并在必要时进行回溯并对实时信息做出反应。
目前将 LLM 与搜索引擎结合的主流方法主要有两类:检索增强生成(RAG)和将搜索引擎视为工具使用。然而,基于提示的方法在泛化性方面存在问题:
强化学习(RL)已成为提升 LLM 推理能力的有力手段。多个近期工作表明,通过 RL,模型能够习得复杂的推理技巧,如自我验证与自我纠错。但在“搜索 + 推理”的场景中应用 RL 仍面临 三大关键挑战:
为了解决上述挑战,作者团队提出了 SEARCH-R1 —— 一个新的强化学习框架,能够让 LLM 在自身推理过程中与搜索引擎交替交互。该方法实现了:
<search>query</search>
指令,系统则响应 <information>results</information>
,最终答案用 <answer>
标签输出,推理过程包裹在 <think>
中。下图展示了模型在回答复杂问题时的交互过程:
你会发现,这种 <think>
→ <search>
→ <information>
→ <think>
→ <answer>
的模式,已经非常接近我们熟悉的 ReAct Agent 范式。不同的是,这里的 Agent 不依赖提示词,而是通过 RL 真正“学会了”搜索策略。Search-R1 实质上就是一个 “带搜索能力的 ReAct Agent”,只不过不再依赖提示词工程,而是直接通过强化学习学会何时搜索、何时推理。注意,它是主动认知到何时需要检索信息,这是一个非常显著的特点和不同。与现有范式区别
接下来,我们也看一下他在具体的数据集表现。
从下图来看,它用 7B 模型就能超越 Search-o1 和 680B 参数的 R1?这种“小模型大能力”的背后,正是 RL 训练出的搜索策略弥补了知识覆盖和参数规模的不足。
整体来看,强化训练出的搜索策略能有效弥补小模型参数量的不足,为高效 Agent 提供了另一种可能路径。
Search-R1 展示了一种高度通用、可扩展的训练范式,成功让语言模型具备主动搜索、动态推理和策略规划能力。其意义不仅在于提高准确率,更在于为“会思考的 AI 助理”奠定了能力基础。我们看到RAG的新范式,期待后续大模型跟进!
最后,该项目已经开源,地址如下自取。
https://github.com/PeterGriffinJin/Search-R1
参考资料
[1]
Search-R1: https://arxiv.org/pdf/2503.09516
[2]
Open AI官网介绍: https://openai.com/index/introducing-deep-research/