首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >【RAG重大革新】中科院&腾讯提出INFO-RAG:大模型秒变信息精炼器,不完美数据也能生成完美答案

【RAG重大革新】中科院&腾讯提出INFO-RAG:大模型秒变信息精炼器,不完美数据也能生成完美答案

作者头像
AI研思录
发布2025-02-28 13:16:41
发布2025-02-28 13:16:41
2930
举报
文章被收录于专栏:AI研思录AI研思录

RAG被应用于大语言模型(LLMs),以补充知识并缓解幻觉等问题。但是互联网中充斥的虚假新闻、谣言及碎片化噪声信息,并非所有检索文本均有益,仍对检索模型可靠识别屏蔽此类内容的能力构成挑战。同时,预训练任务未明确教会LLMs如何利用质量参差的检索文本进行生成。

RAG框架中,模型的核心任务是:根据问题检索到的相关文本,生成正确的答案。因此,理想的训练目标应专注于优化“问题+答案”的生成质量,即: 最小化“问题+答案”的负对数似然,使模型学会如何从检索文本中提取有用信息来生成答案

大模型的预训练方法是前缀语言建模输入格式:将检索文本、问题、答案拼接成一个完整序列,训练目标:模型根据前缀(即上文)预测下一个词,目标是最小化整个序列的负对数似然,包括检索文本、问题和答案。

由于LLMs在预训练时被强制学习“将整个输入序列视为连续文本”(包括检索文本),模型会形成以下认知:检索文本只是生成答案的上下文背景,而非需要主动参考的外部知识。模型更关注如何流畅地延续文本(例如:让检索文本和答案在语法上连贯),而非如何从检索文本中提取信息。

假设问题是:“谁发现了青霉素?” 检索文本(可能包含噪声):“亚历山大·弗莱明在1928年偶然发现青霉素。青霉素是一种抗生素,由青霉菌产生。牛顿提出了万有引力定律。” 理想情况:模型应提取“亚历山大·弗莱明”作为答案,忽略无关的“牛顿”部分。 实际表现:传统LLMs可能因“牛顿”出现在上下文中,错误生成“牛顿发现了青霉素”,或机械拼接检索文本中的句子,导致答案冗余。

针对这种情况,中科院和腾讯联合提出了 INFO-RAG:将大模型定义为知识检索增强系统中的“信息精炼器”,即无论检索文本的正确性、完整性或实用性如何,LLMs均能通过正向信息增益,整合检索文本与模型参数内的知识,生成比检索文本更简洁、准确和完整的文本。

系统将检索文本分为三类场景,并针对每类设计无监督训练任务:

  • 检索文本包含完整答案:要求LLMs从复杂文本中精准提取知识并生成简洁文本;
  • 检索文本不完整/错误:要求LLMs结合模型知识验证、修正并补全检索文本;
  • 检索文本相关但无答案:要求LLMs基于相关上下文调用模型知识生成正确答案。

混合上述任务进行无监督训练,确保大规模数据获取并维持LLMs的零样本泛化能力。

训练数据基于英文维基百科文档,对每篇文档随机截取连续句子集 ,随机选择句子 ,将其分为前缀 (前1/3至2/3词元)和目标 (剩余词元)。

对于 复杂文本中提取知识 的场景,训练方式为: 将 整体作为检索文档,输入为拼接的检索文本 与前缀 ,目标为预测 。强制大模型从筛选出与前缀 相关的信息,生成简洁的 。

对于 验证与修正知识 的场景,对于句子集中的每一条句子,通过词分布稳定性筛选关键词元,对前50%的关键词元,30%概率替换,从而得到噪声集合。

  • 50%概率替换为 [MASK](模拟知识缺失);
  • 40%概率替换为随机词元(模拟知识错误);
  • 10%概率保留原词(模拟正确知识)。

训练方式为输入为噪声文本与前缀,生成原始目标 。强制大模型结合内部知识对噪声文本进行修正、补全,生成正确的目标。

对于 基于上下文激活知识 的场景,训练目标为LLMs利用语义相关但无答案的上下文,激活内部知识生成答案。训练方式为: 输入为去除目标句的检索文本与前缀,强制大模型基于内部知识生成 。

基于构建的三种类型的数据集,将其混合进行进行多任务联合微调训练。

  • 参数高效微调:使用LoRA(低秩适应)对预训练LLMs进行微调,仅训练低秩矩阵参数,保持原始模型参数冻结。
  • 任务混合与批次分配:复杂文本中提取知识(场景1):占训练批次的20%(因任务简单,LLMs较易学习); 验证与修正知识(场景2)与 验证与修正知识(场景3):各占40%(需更多训练资源以提升修正与上下文激活能力)。三种任务按比例交替训练,确保模型均衡学习不同场景下的信息精炼能力。

在这几个任务中,重点是训练模型以更灵活、准确地使用检索到的信息,无论这些信息的质量如何。通过这种训练,模型能够在实际应用中更好地处理来自外部来源的信息,提高检索增强生成任务的性能。

将大语言模型(LLMs)在检索增强生成(RAG)中的角色重新定义为“信息精炼器”。这意味着无论检索文本的正确性、完整性或实用性如何,LLMs均能持续整合模型参数内的知识与检索文本,生成更简洁、准确且完整的文本。提出了一种无监督信息精炼训练方法INFO-RAG,该方法具有低成本和跨任务通用性。

代码地址:https://github.com/xsc1234/INFO-RAG 论文地址:https://aclanthology.org/2024.acl-long.9.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研思录 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档