前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >构建更精准的检索系统:RAGFlow对GraphRAG与标签库的强化支持

构建更精准的检索系统:RAGFlow对GraphRAG与标签库的强化支持

作者头像
汀丶人工智能
发布于 2025-04-23 00:23:35
发布于 2025-04-23 00:23:35
2790
举报
文章被收录于专栏:NLP/KGNLP/KG

1.GraphRAG 增强与重构

RAGFlow 在 2024 年 8 月的 0.9 版本引入了 GraphRAG,之后的 GraphRAG 模块一直没有再更新。而从那时起至今,GraphRAG 本身的技术也在不断演进,主要围绕轻量化等方面进行了诸多工作,例如香港科大的 LightRAG,MiniRAG,Circlemind的 fast-graphrag 等等。在 0.16.0 版本中,RAGFlow 对 GraphRAG 模块进行了重构,并进行了功能增强,具体如下: 数据写入:

  • 过去的 GraphRAG 为每个文档构建一个 Knowledge Graph,而 0.16.0 版本则为每一个知识库构建一个 Knowlege Graph,单个文档可选择是否进行 Graph 实体抽取,抽取的 Graph 实体会动态更新到知识图谱当中,删除亦然。
  • 实体抽取可以有两种模式的选择,Light/Gerneral。Light 采用了 LightRAG 的实体抽取 prompt,General 则采用了微软 GraphRAG 的 prompt,后者更长,耗费的 token 更多。抽取效果跟大模型和用户的数据相关,用户可以选择性对比。
  • 实体去重 ([Entity Resolution]变成可选项。在 0.9 版本引入的 GraphRAG 中,实体去重是内置的,在某些情况下,它确实提高了知识图谱的质量,但也增加了 token 消耗。在 GraphRAG 中,自动构造的知识图谱,通常无法达到数据可视化的要求,因此一般是作为辅助召回存在,所以把实体去重作为可选项,可以让用户来在知识图谱的质量和成本之间作出选择。
  • 社区摘要变成可选项。在微软的标准 GraphRAG 中, 社区摘要是一个必选项,它提升了辅助召回的问答质量,但也是 token 消耗的重要来源之一,因此变成可选项,可以让用户在效果和成本中作出选择。

GraphRAG 查询: 对查询进行优化,查询时可以勾选是否需要提取知识图谱相关信息。

如果勾选了该选项,在查询时的处理步骤如下:

  1. 利用大模型对问题进行分析,提取相关的实体 1 和实体类型。
  2. 用相关的实体类型在知识图谱中做 PageRank 计算(随机游走),得到 PageRank 值前 N 的实体及其描述。
  3. 通过实体 1 的向量相似度召回相似实体及其描述,以及 N-hop 的实体关系。
  4. 通过原问题用向量相似度召回实体关系及其描述。
  5. 对实体和实体关系进行排序。排序理论支撑贝叶斯,P(E|Q) => P(E) * P(Q|E),实体或关系本身的 PageRank 值乘以实体或关系和 Query/Question 的相似度。
  6. 用相关的实体召回 Top 1 社区摘要。
  7. 将实体和关系描述以及社区摘要报告作为 prompt 扔给大模型。

0.16 版本重构和增强后的 GraphRAG,给予了用户更多的选项,在效果和成本之间作出 Trade off,同时在查询时引入更多信息,利用知识图谱增强查询来做到确保更高的召回。

2.支持标签库

众所周知,RAG 的核心门槛就是各种检索和召回的质量。从 0.15.0 版本起 RAGFlow 提供了系列工具用来帮助改进检索质量,例如分级知识库、Contextual Retrieval(利用 LLM 对文档打标签) 等。在 0.16.0 版本中,引入的一个重要功能就是标签库,它同样是用来改进检索质量的有效工具。举例如下: 场景 1:2000 个手机附件(贴膜、耳机、手机壳)的文档 chunk,20 个关于手机的 chunk。搜华为手机的信息,用现在的手段,手机信息大概率无法被搜到。 场景 2:政府某机构内部文献,从省到市县镇乡都有关于某一政策的不同版本的文件。各种子级别的文件远远多于省市级别单位的文档,当查询省市级别的文档时,如:“浙江省关于 xx 的管理办法具体有哪些?” 用现在的手段大概率难以将省市的文档内容排在其他的占多数的文档内容的前面(所有浙江省的其他子集机构文档都带有浙江省的字样)。 采用标签库可以解决以上问题: 首先上传标签库文件:

标签库文件是用户对业务数据的定义,可以看作是领域知识,标签库在 RAGFlow 中也作为知识库存在,解析的时候选择 “Tag” 作为 Chunk 手段。标签库文件的格式样例如下所示,其中 Description/Question 代表用户的业务知识数据,Category 代表用户对该数据定义的标签,用逗号分隔。标签库文件实际上是引入人工定义的垂直场景知识来对大模型自动提取文档关键词的补充。

标签库文件上传完成后,可以管理标签: 下图是标签可视化:

下图是标签信息,可以允许用户进一步修改:

标签库建立好之后,业务使用方就可以利用它对其他知识库进行自动标签操作:其他知识库的文档,每个 Chunk 都可以根据标签库内容,来自动计算是否该 Chunk 可以包含若干用户自定义标签。具体算法是利用 Chunk 和标签库文件的 Description/Question 字段文本的相似度,如果该相似度达到阈值,那么该 Chunk 就被打上 Tag 字段的各标签:

在查询时,Query 也会被打上不同权重的标签,计算方法跟上述类似,这样在排序阶段,包含相关标签的 Chunk 就会得到加权。

标签库是解决查询和答案语义鸿沟的重要措施。对于 RAG 来说,语义鸿沟总是搜索阶段面临重大挑战之一。可以利用大模型来弥补语义鸿沟,在 RAGFlow 中,相应的措施包含:RAPTOR,GraphRAG,Contextual Retrieval 等;同时,也不应忽略来自人工的领域知识,这些知识并不能被及时为大模型所学习到,因此通过 RAGFlow 的配套措施(目前包含分级知识库,以及本次发布的标签库功能),可以让它们也可以被有效体现到原始数据中,从而改进检索质量。 需要说明的是,标签库的功能,目前采用 [Infinity 版本]的 RAGFlow 暂时还无法运行,这是因为标签库功能会用到 Elasticsearch 的一些独有高级特性,这些特性将在 Infinity 的下个 Release 中包含,因此希望采用 Infinity 作为 RAGFlow 后端的朋友可以等 RAGFlow 发布到 0.17.0 的时候再来体验。 RAGFlow 0.16.0 版本的其他更新还包含:

3.支持自定义 Chunk 的元数据

这是社区用户提出的 Feature Request,用户添加的 Chunk 元信息会随着 Chunk 一起被加到 prompt 中从而可以回答相关问题,例如:

4.Agent / 工作流支持循环

Agent / 工作流的功能支持,基本跟上了同类其他项目的节奏。也欢迎广大用户提出这方面的 Feature Request。同时,v0.16 还给 Agent 增加了 Research 报告生成器的模板。

5.DeepDoc支持用 GPU 加速

开源版本的 DeepDoc 是很小的模型,采用 Onnx 提供推理服务。由于模型较小,因此过去的 DeepDoc 在 GPU 上加速不明显,且由于 OnnxRuntime 的一些 GPU 显存问题,过去 DeepDoc 只运行在 CPU 模式。 随着 0.15.0 对 DeepDoc 做了升级,内置的文档布局模型尺寸相比过去有了较大尺寸的增长,在整个文档解析过程中所占的比例也大幅提升。因此 0.16.0 版本开启了利用 GPU 对 DeepDoc 的加速,采用 GPU 后文档布局识别的速度大大提升。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-04-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
LightRAG:用图结构和双层检索打造更智能的RAG系统
今天分享的是北京邮电大学和香港大学联合发表的一篇文章:图结构数据进行增强的RAG系统——LightRAG
AI研思录
2025/02/20
4690
LightRAG:用图结构和双层检索打造更智能的RAG系统
深度解析仿人脑记忆搜索的HippoRAG2,全面对比GraphRAG、KAG、LightRAG和PIKE-RAG,成本缩减12倍
持续获取、组织和利用知识的能力是人类智能的关键特征,而 AI 系统若想充分发挥潜力,也必须具备这一能力。近期,一些 RAG 方法通过引入知识图谱等结构来增强对信息的理解和联想能力,部分弥补了这些不足。然而,这些增强方法在基础事实记忆任务上的表现通常远逊于标准 RAG。HippoRAG 2[1] 基于 HippoRAG 采用的 个性化 PageRank(Personalized PageRank, PPR)算法,并进一步优化了信息整合方式,同时增强了 LLM 在在线检索中的作用。
AgenticAI
2025/03/18
2990
深度解析仿人脑记忆搜索的HippoRAG2,全面对比GraphRAG、KAG、LightRAG和PIKE-RAG,成本缩减12倍
LightRAG开源了!轻巧、强大,GraphRAG的进化版
我们以前介绍了HybridRAG、GraphRAG这些,今天我们将介绍一个崭新的RAG项目:LightRAG。
AI进修生
2024/12/02
1.3K0
LightRAG开源了!轻巧、强大,GraphRAG的进化版
HybridRAG:混合 RAG 引擎 - 知识图谱 + 向量检索!比 GraphRAG 更好!
我们都听说过检索增强生成(RAG),许多人使用 RAG 因为它能够增强语言模型的功能,通过结合检索和生成处理来提高准确性,减少幻觉,并且更加经济高效。
AI进修生
2024/12/02
1.2K0
HybridRAG:混合 RAG 引擎 - 知识图谱 + 向量检索!比 GraphRAG 更好!
蚂蚁 KAG 框架核心功能研读
作者介绍:薛明,拥有近 10 年在医疗和零售领域应用机器学习和人工智能的经验。曾就职于通用电气、复星医药等企业。长期专注于医学图像、自然语言处理以及数据科学的研发工作,如训练/推理框架、数据挖掘与分析等领域。于 2024 年 7 月创立 AI 公司 Percena,负责基于大模型的应用产品开发,如 RAG & Agent 等。
可信AI进展
2024/11/18
4160
技术前沿综述:RAG领域的重要进展与创新亮点
在已经过去的 2024 年,RAG 的发展可以称得上是风起云涌,我们回顾全年,从多个角度对全年的发展进行总结。 首先用下图镇楼:
汀丶人工智能
2025/04/23
2650
技术前沿综述:RAG领域的重要进展与创新亮点
从知识图谱到 GraphRAG:探索属性图的构建和复杂的数据检索实践
在上一篇《为什么说知识图谱 + RAG > 传统 RAG?》 的文章中,我们已经对GraphRAG 的数据结构有了基本的了解。这篇文章,让我们深入研究如何在实践中实现这些概念。
可信AI进展
2024/08/02
9890
干货!带你了解7种检索增强生成 (RAG) 技术
在简单RAG中,大型语言模型(LLM)接收用户查询,在向量存储库中进行相似性搜索或在知识图谱中进行关系搜索,然后基于检索到的信息生成答案。
致Great
2025/01/06
5.3K0
干货!带你了解7种检索增强生成 (RAG) 技术
GraphRAG框架总结:开启智能知识的全新时代
GraphRAG通过将传统的RAG(Retrieval-Augmented Generation)框架与图结构结合,利用知识图谱(KG)中的实体关系、社区结构及知识的关联性,提升了信息检索和生成的效果。微软的GraphRAG发布后,也涌现了很多轻量化的版本,这篇文档对GraphRAG的框架做一个总结,也会陆续不断更新。
AI研思录
2025/02/20
2590
GraphRAG框架总结:开启智能知识的全新时代
RAG七十二式:2024年度RAG清单
回顾2024,大模型日新月异,智能体百家争鸣。作为AI应用的重要组成部分,RAG也是“群雄逐鹿,诸侯并起”。年初ModularRAG持续升温、GraphRAG大放异彩,年中开源工具如火如荼、知识图谱再创新机,年末图表理解、多模态RAG又启新征程,简直“你方唱罢我登场”,奇技叠出,不胜枚举!
AI研思录
2025/02/20
2090
RAG七十二式:2024年度RAG清单
GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
今天看到这样一篇文章,文章的标题是【关于AI技术的思考,是 提高 or 降低 | 开发者的职业天花板】,文章的链接:https://cloud.tencent.com/developer/article/2466467 文章很有作者个人的思考,有些见解比较独到,让我深有所思。
zhouzhou的奇妙编程
2024/12/09
1.9K3
解密prompt系列41. GraphRAG真的是Silver Bullet?
这一章我们介绍GraphRAG范式,算着时间也是该到图谱了,NLP每一轮新模型出来后,往往都是先研究微调,然后各种预训练方案,接着琢磨数据,各种主动学习半监督,弱监督,无监督,再之后就到图谱和对抗学习~
风雨中的小七
2024/10/24
4040
解密prompt系列41. GraphRAG真的是Silver Bullet?
深度解锁AI私有知识库:用 DeepSeek 和 RAGFlow 打造企业级智能平台
时间过的真快呀,又是一周结束了,最近AI和机器人的热度越来越高,能看到相关话题的文章越来越多。我在想,作为一个普通打工仔,我们能做什么,除了不断问AI生成答案,然后问完解决完就扔在脑后?想必不是长久之计,所以将知识沉淀,搭建一个私人知识库,来辅助自己建立脑中的知识库才是最重要的,今天就来给大家介绍如何利用开源项目打造一款私有AI知识库!
希里安
2025/03/31
2560
深度解锁AI私有知识库:用 DeepSeek 和 RAGFlow 打造企业级智能平台
万字详解:腾讯如何自研大规模知识图谱 Topbase
作者:郑孙聪,腾讯 TEG 应用研究员 Topbase 是由 TEG-AI 平台部构建并维护的一个专注于通用领域知识图谱,其涉及 226 种概念类型,共计 1 亿多实体,三元组数量达 22 亿。在技术上,Topbase 支持图谱的自动构建和数据的及时更新入库。此外,Topbase 还连续两次获得过知识图谱领域顶级赛事 KBP 的大奖。目前,Topbase 主要应用在微信搜一搜,信息流推荐以及智能问答产品。本文主要梳理 Topbase 构建过程中的技术经验,从 0 到 1 的介绍了构建过程中的重难点问
腾讯技术工程官方号
2020/06/02
2.1K0
将微软GraphRAG输出到Neo4J并使用Langchain或LlamaIndex实现本地和全局检索
微软的 GraphRAG 实现最近获得了极大的关注。在上一篇博文中,我讨论了如何构建图形,并探讨了研究论文中强调的一些创新方面。从高层次来看,GraphRAG 库的输入是包含各种信息的源文件。这些文档使用大语言模型(LLM)进行处理,以提取文档中出现的实体及其关系的结构化信息。提取的结构化信息随后被用于构建知识图谱。
AgenticAI
2025/03/18
2870
将微软GraphRAG输出到Neo4J并使用Langchain或LlamaIndex实现本地和全局检索
蚂蚁开源新RAG框架KAG,可达91%准确率
上文评测蚂蚁开源的《蚂蚁 DB-GPT 也开源了 GraphRAG,能用吗?好用么?看这篇就够了》,本文探一探蚂蚁开源的另外一套知识增强生成框架 KAG(Knowledge Augmented Generation),专门用于构建垂直领域知识库的逻辑推理问答框架,论文中提到在电子政务达到了 91.6 的准确率,电子医疗各个问答也有不俗的准确率。
AgenticAI
2025/03/18
2510
蚂蚁开源新RAG框架KAG,可达91%准确率
2024技术总结:LLM之RAG技术全栈进化解析、Agent应用案例精选、LLM大模型部署实战指南
嘿,大家好!作为一名技术宅,我在2024年与AI的大型语言模型(LLM)技术有了不少“亲密接触”,感觉就像是和一位日益聪明的老友并肩前行。
汀丶人工智能
2025/01/25
5860
2024技术总结:LLM之RAG技术全栈进化解析、Agent应用案例精选、LLM大模型部署实战指南
使用GraphRAG+LangChain+Ollama:LLaMa 3.1跑通知识图谱与向量数据库集成(Neo4j)
我将向你展示如何使用 LLama 3.1(一个本地运行的模型)来执行GraphRAG操作,总共就50号代码。。。
AI进修生
2024/12/02
1.1K0
使用GraphRAG+LangChain+Ollama:LLaMa 3.1跑通知识图谱与向量数据库集成(Neo4j)
GraphRAG + GPT-4o mini 低成本构建 AI 图谱知识库
简单来说,RAG(Retrieval-Augmented Generation,检索增强生成) 的工作原理是将大型文档分割成多个小段落或片段。主要原因是,大语言模型的上下文窗口长度有限,无法一次处理超过上下文窗口长度的信息。
王树义
2024/07/30
5310
GraphRAG + GPT-4o mini 低成本构建 AI 图谱知识库
使用Neo4j和LangChain实现“Local to Global”的GraphRAG
GraphRAG是一种基于知识图谱的检索增强技术。它使用多来源数据构建图模型的知识表达,将实体和关系之间的联系以图的形式展示,然后利用大语言模型进行检索增强。这种方法能更高效准确地检索相关信息,并为LLM生成响应提供更好的上下文。微软和领英的技术人员已经科学的验证了这种技术相较于基线 RAG 的优势,并发表了相关论文。
马超的博客
2024/07/15
3.3K0
使用Neo4j和LangChain实现“Local to Global”的GraphRAG
推荐阅读
相关推荐
LightRAG:用图结构和双层检索打造更智能的RAG系统
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档