前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >OpsPilot 知识库升级:RAG 预处理强化,文档提取 + 分块策略全场景适配指南

OpsPilot 知识库升级:RAG 预处理强化,文档提取 + 分块策略全场景适配指南

原创
作者头像
嘉为蓝鲸
发布于 2025-04-14 10:23:05
发布于 2025-04-14 10:23:05
1030
举报
文章被收录于专栏:WeOpsWeOps

直达原文:OpsPilot功能上新:知识库 RAG 预处理强化,细化文档提取和分块策略(内附体验环境)

在大语言模型技术快速发展的当下,检索增强生成(RAG)技术凭借强大的潜力,在众多应用场景中得到广泛运用。嘉为蓝鲸 OpsPilot 作为智能运维支撑平台,深度融合 LLM 大模型能力,基于 RAG 技术构建高效知识库体系。

在 RAG 技术栈中,提取分块如同 “知识手术刀”,将原始文档精准切割为适合大模型处理的 “知识细胞”,既避免长文本的 “信息肥胖症”,又防止短文本的 “营养碎片化”,它们直接影响着后续文本向量化的质量,以及检索效率与大模型输出的准确性。

01.知识处理

将用户上传的各类知识(如各类型文档、自定义文本、网络链接)进行提取-分块-增强,以便后续知识向量化和混合检索。针对不同类型的知识,OpsPilot提供“5+4”类提取、分块策略,提供给用户多元搭配选择,如:用户上传一个长文本技术文档,可先通过章节提取抓取目录结构内容,再结合语义分块,基于算法按主题拆分,为后续检索筑牢基础。

1)文档提取

能将各类格式文档转化为可供系统处理的文本,从大量原始数据中提取出可被系统处理的文本信息,确保信息的完整性与准确性。它的进行关乎到最终能拿到什么数据信息,比如:无法编辑的PDF文件,质量不好的提取,可能拿到的就是乱码。OpsPilot 通过五种方式实现高效提取:

(1)五大文档提取方式

  1. 全文提取:适用PDF、MarkDown、TXT等,直接提取全部文本内容,并对扫描版PDF启用OCR识别图像文字。
  2. 章节提取:适用Word等,利用文档的目录结构(如标题)提取内容,适合技术文档、论文等长文本。
  3. 页面提取:适用PPT等,按页分割,每页作为一个独立单元提取。
  4. 对表格——适用Excel(.xlsx/.csv)等
  • 工作表提取:将每个工作表(Sheet)作为独立单元整体提取,保留表格的完整结构和数据。
  • 行级提取:提取表头和逐行数据,生成表头字段和行记录。

2)文档分块

将长文本拆分为较小的、语义聚焦的短单元,解决长文本向量化中的语义稀释、计算资源消耗和检索效率低问题。分块为文本建立“检索索引”,提升检索定位精准度与速度;同时,轻量化文本既能避免大模型输入超限,又能增强生成逻辑连贯性。OpsPilot 通过四种分块方式达成以上效果:

  • 定长分块:‌适用TXT、PPT、PDF、Excel等。按预设的固定长度分割内容,适合快速批量处理数据。
  • 循环分块:‌适用长文本(PDF、TXT等),在定长分块基础上,设置块间内容重叠减少语义断裂,适合需要连续上下文的。
  • 语义分块:适用结构化文档(Word、Markdown等)、技术文档(PDF 带目录等),基于内容逻辑分割,保留完整语义单元(如章节、段落模块),适合需逻辑关联的长文本处理。
  • 不分块:适用短文本(邮件、摘要)、小型文件(单页 PPT、简单表格、短文TXT),保留全部原文内容,适合需要整体理解的场景。

02.功能介绍

1)上传:多类知识汇聚上传

知识库支持三种知识上传方式,包括:本地文件上传——私域知识沉淀、网页知识——动态知识补充、自定义文本——碎片知识整合,覆盖用户全方面知识上传需求。

2)提取:多元格式适配,精准识别内容

为精准识别不同格式文档内容,OpsPilot 以多元提取方式适配需求。包含全文提取(处理 PDF 等,扫描件启用 OCR)、章节提取(按 Word 目录结构解析长文本)、页面提取(拆分 PPT 单页),以及表格的工作表整体提取、行级数据提取,实现文档结构与内容的深度解析。

3)分块:破解长文本难题,优化检索效果

提取出可编辑的文本数据后,分块对其进一步处理,通过精细切割让知识 “化整为零”,为高效检索与智能生成铺就基石。分块功能依据文本特性与应用场景,提供多元策略:定长分块、循环分块、语义分块、不分块。分块通过优化知识颗粒度,让机器理解与检索的效率,真正匹配人类的知识逻辑。

03.嘉为蓝鲸OpsPilot——更懂运维的AI平台

嘉为蓝鲸OpsPilot是一款集知识库管理、技能配置、机器人管理和工具管理为一体的智能运维支撑平台,通过结合LLM大模型强大语义理解、知识增强与多模态处理能力,从而实现运维相关的问答和操作。此外,OpsPilot更加聚焦于运维领域,超出单个LLM大模型的能力范畴,成为更懂运维的智能AI平台。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
TextIn文档树引擎,助力RAG知识库问答检索召回能力提升
TextIn团队的文档解析测评工具Markdown Tester在Github发布后,我们陆续与大家探讨了目前业内对PDF解析工作的评判标准与我们各项测评指标的设计原理,包括段落、表格、公式、阅读顺序等维度。
合合技术团队
2024/08/13
2420
TextIn文档树引擎,助力RAG知识库问答检索召回能力提升
七种RAG架构cheat sheet!
RAG 即检索增强生成(Retrieval - Augmented Generation ),是一种结合检索技术和生成模型的人工智能方法。
codetrend
2025/01/24
2920
七种RAG架构cheat sheet!
OpsPilot技术赋能:语义空间构建与多模态检索的运维新范式
直达原文:OpsPilot功能上新:Embedding重构语义空间,混合检索驱动知识发现(内附体验环境)
嘉为蓝鲸
2025/04/21
490
OpsPilot技术赋能:语义空间构建与多模态检索的运维新范式
RAG技术:是将知识库的文档和问题共同输入到LLM中
RAG技术是先从知识库中检索出与问题相关的文档片段,然后将这些检索到的**文档片段与问题**一起输入到LLM中进行回答。具体过程如下:
zhangjiqun
2025/01/12
3550
大模型RAG:文档分块方案与RAG全流程
在上一篇文章《大模型RAG:基于PgSql的向量检索》中,简单介绍了RAG概念和简要实现。在实际的应用中,技术方案远不会这样简单。
程序员架构进阶
2025/02/28
3480
6 大 RAG 知识库PDF文档处理神器对比,谁才是你的最佳选择?
今天,我们精挑细选 6 款最具代表性的 RAG 知识库文档处理工具,从技术架构、功能特性、适用场景、优劣势等多个维度对比,帮你找到最适合的解决方案!💡🔥
致Great
2025/03/02
1K0
6 大 RAG 知识库PDF文档处理神器对比,谁才是你的最佳选择?
【RAG】001-RAG概述
检索增强生成(Retrieval-Augmented Generation,RAG)技术能够有效解决上述问题:
訾博ZiBo
2025/03/25
1450
【RAG】001-RAG概述
RAG篇「数据集构建」保姆级教程来了!
检索增强生成(Retrieval Augmented Generation),简称 RAG。在构建RAG(Retrieval-Augmented Generation)的向量知识库时,数据的处理方式直接影响系统的性能和可靠性。不能随意塞入未经处理的数据,否则可能导致检索效果差、生成结果不准确甚至安全隐患。
Datawhale
2025/03/31
3790
RAG篇「数据集构建」保姆级教程来了!
一分钟搭建RAG应用:DeepSeek模型助力企业知识管理新突破
企业中常常存在数据分散的情况,不同部门和系统各自为政,导致信息孤立。这种现象使得员工在需要信息时,往往需要在多个系统中进行搜索,增加了时间成本和难度。
Lion Long
2025/02/16
2.1K1
一分钟搭建RAG应用:DeepSeek模型助力企业知识管理新突破
2024年RAG:回顾与展望
根据RAG技术结构可以分成三类,代表了不同的技术复杂度,越复杂也代表实现难度越大。但是可能会收到更好的效果,适应更多的场景,这三类类型是:
致Great
2025/01/01
8212
LLMOps+DeepSeek:大模型升级一体化运维
蛇年伊始,DeepSeek凭借其卓越表现火爆出圈,让AI大模型瞬间成为街头巷尾热议的焦点,也让大众重新燃起对AGI(通用人工智能)“平民化”的信心,DeepSeek通过先进的模型架构,带来的高效率与低成本优势,加快了应用场景的百花齐放。
嘉为蓝鲸
2025/02/21
6670
LLMOps+DeepSeek:大模型升级一体化运维
检索增强(RAG)与窗口数据的互补性 (图文版)
RAG(检索增强生成)与扩展的上下文窗口(context window)虽然同为短期记忆机制,但在应用场景、成本效率和数据管理方面存在显著差异,以下为详细分析:
立委
2025/03/20
1220
使用DeepSeek+RAG实现私人知识库
我使用包括 ChatGPT 在内的 AIGC 工具,回答 SAP 相关领域问题时,经常遇到大模型「一本正经的胡说八道」。这种现象的正式术语是大模型的幻觉现象。
编程小妖女
2025/02/07
25K17
使用DeepSeek+RAG实现私人知识库
嘉为蓝鲸运维大模型开发平台V1.2:以智能引擎驱动运维全场景效率革命
直达原文:【春季发布】嘉为蓝鲸运维大模型开发平台V1.2:支持60+大模型,运维全生命周期赋能,完成智能化跃迁
嘉为蓝鲸
2025/04/21
440
嘉为蓝鲸运维大模型开发平台V1.2:以智能引擎驱动运维全场景效率革命
详解几种常见本地大模型个人知识库工具部署、微调及对比选型(1)
这几年,各种新技术、新产品层出不穷,其中,大模型(Large Language Models)作为AI领域的颠覆性创新,凭借其在语言生成、理解及多任务适应上的卓越表现,迅速点燃了科技界的热情。从阿尔法狗的胜利到GPT系列的横空出世,大模型不仅展现了人工智能前所未有的创造力与洞察力,也预示着智能化转型的新纪元。然而,大模型的潜力要真正转化为生产力,实现从实验室到现实世界的平稳着陆,还需跨越理论到实践的鸿沟。
zhouzhou的奇妙编程
2024/06/11
18.7K0
【RAG】001.1-RAG相关核心概念
RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索与生成模型的混合架构,旨在提升生成的准确性和可信度。其核心概念可归纳为以下六个方面:
訾博ZiBo
2025/03/26
2230
Prompt提示工程上手指南:基础原理及实践(四)-检索增强生成(RAG)策略下的Prompt
此篇文章已经是本系列的第四篇文章,意味着我们已经进入了Prompt工程的深水区,掌握的知识和技术都在不断提高,对于Prompt的技巧策略也不能只局限于局部运用而要适应LLM大模型的整体框架去进行改进休整。较为主流的LLM模型框架设计可以基于链式思考(CoT)、思维树 (ToT)和检索增强生成 (RAG)。其中RAG框架可以算得上是AI平台研发的老生常谈之一了,因为无论是个人还是企业,都想要培养出一个属于自己领域专业的AI。但伴随而来的问题,不限于产生幻觉、缺乏对生成文本的可解释性、专业领域知识理解差,以及对最新知识的了解有限。
fanstuck
2024/02/28
2.1K3
Prompt提示工程上手指南:基础原理及实践(四)-检索增强生成(RAG)策略下的Prompt
RAG文档分块新思路:LGMGC如何提升文档分块的语义连贯性?
在**开放域问答(Open-Domain Question Answering, ODQA)**任务中,**文档分块(chunking)**过程中存在的不足。特别是在基于检索增强生成(Retrieval-Augmented Generation, RAG)模型的管道中,文档被分割成独立的块,然后通过检索过程来识别与给定查询相关的块,这些相关块与查询一起被传递给语言模型(LLM)以生成期望的响应。
致Great
2025/01/24
1920
RAG文档分块新思路:LGMGC如何提升文档分块的语义连贯性?
从封闭到开放!嘉为蓝鲸OpsPilot V3.2 联网检索功能上线,运维效率飙升!
直达原文:【春季发布】OpsPilot V3.2 重磅发布:从私域到开放,新增联网检索能力
嘉为蓝鲸
2025/03/18
890
从封闭到开放!嘉为蓝鲸OpsPilot V3.2 联网检索功能上线,运维效率飙升!
LLM RAG 技术剖析与演进
RAG(Retrieval-Augmented Generation,检索增强生成) 是一种将大语言模型(LLM)与模型外知识库检索相结合的技术架构。
windealli
2025/03/12
2830
LLM RAG 技术剖析与演进
推荐阅读
相关推荐
TextIn文档树引擎,助力RAG知识库问答检索召回能力提升
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档