DeepSeek R1在 2025 年初引发的震撼,让我们过去对于 LLM关于推理和决策的预测时间点提早了大半年。如何让 LLM 具备更好的推理能力已经是 LLM 最热的研究方向之一。那么伴随着 LLM 的推理,RAG 需要做哪些调整? 这正是我们在当前写下本文的主要动机。 中文的推理对应两个不同的英文词汇,一个是 Inference,对应的概念是 Training(训练),另一个是 Reasoning,指对已知信息的演绎和综合,推导出新的知识和结论的过程。我们今天所说的推理,毫无疑问是指后者,因为它是真正让 LLM 及其配套解锁更大价值的源动力。推理并不是 R1 才引入的,LLM 本身的推理,在 2024 年的 Agent 上已经得到广泛使用。流行的 Agent 框架中,普遍涵盖四大模块 Plan、Memory、Action、Tool,以及几个设计模式,其中最知名和容易实现的就是所谓 [ReAct]。那么这类基于过去的 LLM 形成的推理,跟 R1 所带来的推理,在能力上有什么区别呢? 答案就在 R1 引入的思考链或者推理链。简单总结一下,推理的实现有如下技术流派:
RAGFlow 的最新版本,只关于路线三,且只关注如何提供通用方案,如何在基本 RAG 基础之上,进一步解锁推理功能,让 RAG 可以在用户自有数据上,提供自己的 R1 或者 o1。因此,采用启发式搜索和增量微调,以强化学习为基座的系列手段,并不在当前 RAGFlow 的能力规划——不过这仅仅代表在 2025 年春季的演进路线。在对基于此考虑的各路工业和学术的路线做一个总结和整理之前,我们先回答一个问题:是否基本的 RAG 直接接入了 R1 或者 o1,就可以具备推理能力了?——当然不是这么简单,固然基于内部数据提供的素材,利用 R1 或者 o1 可以直接生成推理链,进而产生更好的答案,但有一个问题不容忽视,就是这个答案的思考过程并非 R1 或者 o1 基于 RAG 返回数据,而仍然是来自模型本身的思考 —— 打一个比方,这就是用户提问,搜索素材,然后思考。那么根据这些素材思考的过程是否充分,就是个很大的疑问,因为推理模型只能根据这些素材进行思考。
下边进行总结和整理。 首先一个工作来自于参考文献【5】O1 Embedder,它试图通过训练得到一个具备推理能力的 Embedding 模型,确保同时生成高质量思考内容和精准检索的能力。具体做法,是通过准备包含查询、用 LLM 生成的思考内容、以及相关的文档组成的数据集来训练 Embedding 模型,该模型,给定文本,可以返回 Embedding,也可能返回思考内容。 因此这不是一个普通的 Embedding 模型,而是一个既包含 Embedding,也包含 Decoder 结构的文本生成组件。必须承认这种探索是有意义的,但推理能力本身如果脱离了 LLM ,可以说是放弃了整片森林。 下一个工作叫 [Search o1](参考文献【6】),这个名字一听,就是专门在 RAG 基础之上提供推理能力的。Search o1 的工作流程包含 2 条主线: 一条是推理链,另一条叫 Reason-in-Documents, 两者是协同工作的。其中推理链是推理模型生成的,具体步骤如下:
Reason-in-Documents ,主要目的是解决在 RAG 推理中直接使用检索到的文档可能导致的问题,例如冗余信息过多,干扰推理连贯性,它独立于主推理链运行,对检索到的文档进行深度分析和精炼,提取和当前推理步骤相关的有用信息。Search o1 的工作很完整,可以说是个纯工程性的学术工作。它的工作流程如下图所示,相比 RAG 直接套 R1 的做法,Search o1 最大的不同就在于它引入了迭代,通过迭代推理来反复修正得到高质量的问题,才能找到高质量的答案。但这里边有 2 个问题:
这 2 个问题很难解决,或者说,其实没有解决。但这不代表这种工程式的工作不 work。
下边一个工作是来自微软的 PIKE-RAG (参考文献【7】),它同样依赖 LLM 对用户的问题进行思考和任务分解,产生成多个子问题。所不同的是,它依赖 GraphRAG 来精炼,具体做法是在知识图谱上对多个子问题进行搜索,然后依据多个子问题的答案汇总得到多跳回答的结果。PIKE-RAG 特点是知识感知的任务分解,也就是任务分解过程会考虑知识库的内容,确保分解的问题能有效引导检索和推理过程。如果知识库中存在特定知识结构,任务分解会生成跟这些结构匹配的原子问题。具体的,PIKE-RAG 通过迭代的方式构建推理链,每次迭代中,系统会根据当前的子问题检索知识片段,并根据检索到的知识更新推理链。每次迭代,系统会从生成的原子问题中选择最相关的一个,并检索对应的知识片段,这些片段被逐步积累,形成推理链。当系统认为已经积累了足够的知识片段,或者进一步分解不再需要时,推理链构造会终止。PIKE-RAG 跟 Search o1 十分接近,都是工程性工作的代表。 下边来看一个叫做 Agentic Reasoning 的框架(参考文献【8】),论文标题,就可以看出,是利用 Agent 框架来实现 Deep Research。Agentic Reasoning 的核心思想是让 LLM 在推理过程中像人类一样动态调用外部工具获取信息、执行计算和规划思路。具体来说,推理模型在处理问题时,会根据当前的推理上下文,判断是否需要调用外部工具,生成相应请求。Agentic Reasoning 框架包含 3 个内置 Agent:
因此,可以看到 Agentic Reasoning 跟 Search o1 基本也是同类,只是增加了 Coding Agent 可以执行一些计算任务的思考。 最新一个工作 LevelRAG (参考文献【9】),跟以上几个工作也基本类似,只是称呼不同:执行思考和问题分解的被称作 High-Level Searcher,执行具体搜索的被称作 Low-Level Searcher。放上论文的配图,看起来很好理解,就不多介绍了。
来自浙大和阿里通义的 [OmniThink](参考文献【10】),同样是一个 Deep Research 类的工作,不过它并非基于推理的问答系统,而是基于推理的报告生成:旨在通过模拟人的思考过程,以 RAG 为基座生成高质量的长文本内容。它的工作过程分成 3 个阶段:
从输入主题开始,OmniThink 通过 Web 搜索引擎(如 Bing 或 Google)检索与主题相关的初始信息。这些信息用来构建信息树的根节点,形成初始的概念池。所谓概念池是对主题的逐步理解,用来指导后续的扩展和反思过程。接下来,OmniThink 分析信息树的所有叶子节点,判断它们是否需要进一步扩展。对于需要扩展的叶子节点,OmniThink 基于当前的概念池生成子节点,每个子节点代表当前节点的一个具体方面或者子主题,然后为每个子节点检索相关信息,并将其添加到信息树的相应位置。反思阶段会对新检索到的所有叶子节点的信息进行分析、过滤和综合,提取核心观点,这些核心观点倍整合到当前的概念池中,用来指导下一步的扩展过程。 以上是一个迭代的过程,直到满足以下条件之一:获取的信息足够丰富,可以用于文章生成;达到预设的最大检索深度。 至此可以看出,从 Search o1 开始的这些工作都是纯工程实现,没有引入任何算法和模型上的工作。它们的核心都是以 LLM 和迭代为基座,不断生成合适的问题或主题。它们都面临一些问题:推理链的质量如何评估;迭代式反思如何终止。 RAG-Gym(参考文献【11】),看名字就跟强化学习有着莫大的关系,它的核心思想是把问答任务建模为一个嵌套的 MDP 马尔可夫决策过程,外层 MDP 控制和检索环境的交互,内层 MDP 控制 LLM 的 Token 生成,外层 MDP 的奖励模型基于最终预测的正确性。RAG-Gym 是真正基于强化学习的 Agent ,采用监督微调等方式来训练 Agent,奖励模型训练的目的是让 Agent 知道哪些查询和推理是高质量的,从而能够引导 Agent 做出更好的决策。训练数据的收集,是通过收集智能体的决策轨迹,然后标注其中的高质量数据得到的。因此,RAG-Gym 是一种可以解决以上问题的工作:通过强化学习来评估质量,并终止迭代。同类的工作还有 DeepRAG (参考文献【12】),它也把基于 RAG 的推理建模为 MDP 马尔可夫决策过程,通过迭代分解查询,动态决定每一步是检索外部知识还是依赖参数进行推理。DeepRAG 专门解决上述推理工作的核心痛点:
不过 DeepRAG 并没有直接引入强化学习,而是采用模仿学习搭配微调,来帮助模型更好理解其知识边界。 不论是 RAG-Gym 还是 DeepRAG, 都依赖 LLM 的监督微调,因此落地实现并不容易,更多代表对解决推理所面临痛点的一种探索。因此,在 RAGFlow 已经发布的 0.17 版本中,还是选择了工程更友好的方式来实现。具体做法中,RAGFlow 结合了 Search o1,PIKE RAG,Agentic Reasoning,LevelRAG 等工作的长处,是一个开源的 Deep Research 类工作的复现:
工作流程如下图所示:
下边是采用 RAGFlow 连接 DeepSeek V3 得到的推理对话结果,看起来,跟 DeepSeek R1 结果十分类似。
在使用推理大模型的过程中,我们目前有如下体会:
通过 RAGFlow 的 Deep Research 类工作,已经可以将 LLM 的推理能力,真正面向企业端产生一些实际的价值。例如我们可以利用它,结合健康数据,病例等给出诊断建议类报告;可以利用它,结合经营数据,运营数据,给出企业商业辅助决策;可以利用它,结合规章制度,案例给出判定决策辅助。。。 等等诸如此类。 如果说过去的 RAG ,仍然停留在知识库,问答,客服等浅层应用,那么今天的 RAG,已经开启了辅助决策的大门。在去年底 Claude 的博文中曾经断言,Agent 的价值还未充分发挥,因此实际场景中工作流采用更多。这个断言,随着推理能力的落地和进化,必定会发生变化——让 LLM 的思考,充分发挥决策,而尽力减少人工的编排和 Plan,是真正让 AI 走向普适的标志,这个标志已经出现,并且在今年会加速进化。这也是为何 RAGFlow 如此快速推出推理能力的主要原因。
参考文献
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有