深度解析RAG技术在大模型时代的原理与实践

原创

可信AI进展

发布于 2024-06-03 11:29:18

4.4K0

文章被收录于专栏：社区动态社区动态

文章推荐

AI Agent 深度解析 * 潜力与挑战并存的智能新世界

AI 日报_硅谷 “鲁迅” 怒怼马斯克_炮轰 AI 界 * 前 OpenAI 安全主管入职友商 Anthropic

继上篇《AI Agent 深度解析：潜力与挑战并存的智能新世界》，吴俊将继续分享参加 QCon 北京 2024 后的见闻，与大家一同探讨大模型应用 - RAG 的核心内容与应用。

作者简介： 吴俊（弈德），蚂蚁集团消金风管技术部 AI 工程团队 TL，当前负责风管大模型应用工程，承担风管部分业务场景的大模型评测，大模型推理优化及大模型应用落地。

AI 内容相关视频

我们即将制作 AI 内容相关视频，因此想提前通过五个问题，调研各位小伙伴对内容有哪些期待～感谢您的宝贵意见，期待制作精彩有趣的 AI 内容视频呈现给大家

⭐️问卷调查地址：https://w.wjx.com/vm/OtQXUxV.aspx#

RAG 的概念

QCon 北京 2024 上涉及了很多大模型应用落地场景，出现比较多的应用模式关键词是：AI Agent 和 RAG（RAG 也常被在 Agent 的 Cot 或是 Mutil-Agent 协作的流程中）。上篇针对 AI Agent 有过初步讲解，那什么是 RAG？本文将结合 Qcon 的见闻，基于 RAG 的核心组件、RAG 的常见范式，RAG 的应用场景及 RAG 的评估，介绍当前各大公司使用 RAG 进行相应应用落地实践情况。

01. 什么是 RAG？

在 LLM 时代，RAG 的具体定义指的是，当回答问题或生成文本时，首先从大量文档中检索相关信息。随后，利用这些检索到的信息来生成响应或文本，从而提高预测质量。一个通用的 RAG 管道它主要由 3 个步骤组成：

索引：文档被分割成块，编码成向量，并存储在向量数据库中；
检索：根据语义相似性检索与问题最相关的前 k 个块；
生成：将原问题和检索到的词块一起输入大语言模型中，生成最终答案。

RAG 文本问答

RAG 多模态问答

02. 为什么用 RAG？

大模型的挑战

大型语言模型展示了强大的能力，但也面临着幻觉、过时知识和不透明推理等挑战。检索增强生成（RAG）通过整合外部数据库的知识，提高了生成内容的准确性和可信度。RAG 将大型语言模型的内在知识与外部数据库融合，为知识密集型任务带来了前景。

RAG 与其它技术比较

在大语言模型的优化方法中，RAG 经常与 Fine-tuning（FT）和提示工程相比较。我们用象限图从外部知识需求和模型适配需求两个维度来说明三种方法的差异。

提示工程： 利用模型的固有功能，而对外部知识和模型适应的需求最少。

RAG： 可以比作为信息检索提供量身定制的教科书模型，非常适合精确的信息检索任务。早期阶段（Naive RAG），几乎不需要对模型进行修改

FT： 需要进一步训练模型，针对不同下游特定任务，需要重新训练整个庞大的模型；相当于学生随着时间的推移内化知识，适用于需要复制特定结构、风格或格式的场景。

有人提出过这个疑问，为什么要用 RAG 来做增强，而不选择比较容易想到的微调来做，这里提及了 RAG 的优势以及和微调的差异，在这里列出两者的对比，主要是为了让大家在进行问题定位和解决方案思考时能参考，权衡好什么时候该用哪些部分。

RAG 的分类

01. 从演进范式角度分类

RAG 研究范式在不断发展和演进，我们将其分为三个阶段：初级 RAG、高级 RAG 和模块化 RAG。虽然早期的 RAG 在成本效益上表现良好，并且性能优于传统的大语言模型 (LLM)，但它仍面临着诸多挑战。高级 RAG 和模块化 RAG 的设计是为了解决原始 RAG (Naive RAG) 的特定不足。下面是三种开发范式解释和相应用组件部分示意图：

朴素 RAG： 主要由三部分组成：索引、检索和生成，直接将输入数据向量化，然后对向量数据库进行匹配，最后将输入数据与向量数据库匹配结果共同放入大模型中生成最终结果；

高级 RAG： 增加了对数据的预筛选，围绕预检索和后检索提出了多种优化策略，其过程与朴素 RAG 相似，仍然遵循链式结构。

模块化 RAG： 继承和发展了以前的范式，整体上显示出更大的灵活性。这体现在引入多个特定的功能模块和替换现有模块上。整个过程不仅限于顺序检索和生成，还包括迭代和自适应检索等方法。

02. 从检索与生成协同角度

根据检索器如何增强生成器，我们将 RAG 基础范式分为 4 个不同类别:

基于查询的 RAG：利用用户 query 检索得到相关文档，将检索结果跟用户 query 拼接到一起作为生成模型的输入。这种方式是直接利用外部检索知识来指导生成模型，是目前 RAG 的主流范式。

基于潜在表征的 RAG：利用用户 query 检索得到相关文档，并获取对应文档的向量表征，在生成模型生成阶段融入知识文档的表征信息。这是一种隐式利用外部检索知识指导生成模型的方式。

基于 Logit 的 RAG：生成模型在 decoder 阶段计算下一个 token 的 logit 时，同时考虑生成预测的结果跟检索模块返回的信息。这种方式将检索模块与生成模块视为两个独立的链路，再联合两者的 logit 值。

Speculative RAG：利用检索模块来替代生成模块的方式，主要用于节省资源跟加速文本生成。这种方式提供一段候选回复，让生成模型判断这段候选回复是否适合作为最终结果。

RAG 核心结构

检索： 从数据源中高效检索相关文档至关重要。其中涉及到几个关键问题，如检索源、检索粒度、检索的预处理以及相应嵌入模型的选择等。

生成： 检索后，将所有检索到的信息直接输入大语言模型来回答问题并不是一个好的做法。需要从调整检索内容和调整大语言模型两个角度介绍调整。

增强： 在 RAG 领域，标准实践通常涉及单个（一次）检索步骤，然后生成，这可能导致效率低下，有时通常不足以满足需要多步骤推理的复杂问题。

01.RAG 的增强功能

RAG 增强是整体体系的重点，从多个角度我整理了下增强 RAG 性能的方法。从整个 RAG 流程角度，我们根据现有方法的增强目标将其分为 5 个不同的组：输入、检索器、生成器、结果和整个管道。单从 RAG 检索一个点来看，检索增强可以包含迭代、递归 & 自适应三个方法。

检索增强分类

除了最常见的一次检索之外，RAG 还包括三种类型的检索增强过程。

迭代检索：涉及检索和生成之间的交替，允许在每一步从知识库中获得更丰富、更有针对性的上下文。

递归检索：涉及逐步细化用户查询并将问题分解为子问题，然后通过检索和生成不断解决复杂问题。

自适应检索：侧重于使 RAG 系统能够自主确定是否需要外部知识检索以及何时停止检索和生成，通常利用 LLM 生成的特殊 Token 进行控制。

RAG 过程增强分类根据现有方法的增强目标将其分为 5 个不同的部分：输入、检索器、生成器、结果和整个管道。针对这些部分有针对性的相应增强方式和方法。

RAG 评估

RAG 在 NLP 领域的快速发展和广泛采用，将 RAG 模型的评估推向了大语言模型界研究的前沿。将 RAG 技术引进到大模型应用场景，我们需要了解和优化 RAG 模型在不同应用场景下的性能。下面简要讲讲 RAG 的主要下游任务、数据集以及如何评估 RAG 系统。

01.RAG 的下游任务

RAG 的核心任务仍然是问答（QA），包括传统的单跳 / 多跳 QA、多选、特定领域的 QA 以及适合 RAG 的长格式场景。除了 QA 之外，RAG 正在不断扩展到多个下游任务，例如信息提取（IE）、对话生成、代码搜索等。RAG 的主要下游任务及其相应的数据集总结在表：

02.RAG 的评估项及度量指标

RAG 模型的当代评估实践强调三个主要质量分数和四个基本能力，它们共同指导 RAG 模型的两个主要目标的评估：检索和生成。其中质量分数： 上下文相关性，答案忠实性，答案相关性基本能力： 噪声鲁棒性，否定拒绝，信息集成，反事实稳健性适用于 RAG 评估方面的指标摘要，分别对应质量分数和基本能力对应的度量标准，如下表所示：

03.RAG 的评估框架及 Benchmark

业界提出了一系列基准测试和工具来促进 RAG 的评估。这些工具提供的定量指标不仅可以衡量 RAG 模型的性能，还可以增强对模型在各个评估方面的能力的理解。RGB、RECALL 和 CRUD 等著名基准，专注于评估 RAG 模型的基本能力。同时，最先进的自动化工具如 RAGAS、ARES 和 TruLens 雇用大语言模型来判定质量分数。这些工具和基准共同构成了用于系统评估 RAG 模型的强大框架，如表所示：