直达原文:OpsPilot功能上新:知识库 RAG 预处理强化,细化文档提取和分块策略(内附体验环境)
在大语言模型技术快速发展的当下,检索增强生成(RAG)技术凭借强大的潜力,在众多应用场景中得到广泛运用。嘉为蓝鲸 OpsPilot 作为智能运维支撑平台,深度融合 LLM 大模型能力,基于 RAG 技术构建高效知识库体系。
在 RAG 技术栈中,提取与分块如同 “知识手术刀”,将原始文档精准切割为适合大模型处理的 “知识细胞”,既避免长文本的 “信息肥胖症”,又防止短文本的 “营养碎片化”,它们直接影响着后续文本向量化的质量,以及检索效率与大模型输出的准确性。
将用户上传的各类知识(如各类型文档、自定义文本、网络链接)进行提取-分块-增强,以便后续知识向量化和混合检索。针对不同类型的知识,OpsPilot提供“5+4”类提取、分块策略,提供给用户多元搭配选择,如:用户上传一个长文本技术文档,可先通过章节提取抓取目录结构内容,再结合语义分块,基于算法按主题拆分,为后续检索筑牢基础。
能将各类格式文档转化为可供系统处理的文本,从大量原始数据中提取出可被系统处理的文本信息,确保信息的完整性与准确性。它的进行关乎到最终能拿到什么数据信息,比如:无法编辑的PDF文件,质量不好的提取,可能拿到的就是乱码。OpsPilot 通过五种方式实现高效提取:
将长文本拆分为较小的、语义聚焦的短单元,解决长文本向量化中的语义稀释、计算资源消耗和检索效率低问题。分块为文本建立“检索索引”,提升检索定位精准度与速度;同时,轻量化文本既能避免大模型输入超限,又能增强生成逻辑连贯性。OpsPilot 通过四种分块方式达成以上效果:
知识库支持三种知识上传方式,包括:本地文件上传——私域知识沉淀、网页知识——动态知识补充、自定义文本——碎片知识整合,覆盖用户全方面知识上传需求。
为精准识别不同格式文档内容,OpsPilot 以多元提取方式适配需求。包含全文提取(处理 PDF 等,扫描件启用 OCR)、章节提取(按 Word 目录结构解析长文本)、页面提取(拆分 PPT 单页),以及表格的工作表整体提取、行级数据提取,实现文档结构与内容的深度解析。
提取出可编辑的文本数据后,分块对其进一步处理,通过精细切割让知识 “化整为零”,为高效检索与智能生成铺就基石。分块功能依据文本特性与应用场景,提供多元策略:定长分块、循环分块、语义分块、不分块。分块通过优化知识颗粒度,让机器理解与检索的效率,真正匹配人类的知识逻辑。
嘉为蓝鲸OpsPilot是一款集知识库管理、技能配置、机器人管理和工具管理为一体的智能运维支撑平台,通过结合LLM大模型强大语义理解、知识增强与多模态处理能力,从而实现运维相关的问答和操作。此外,OpsPilot更加聚焦于运维领域,超出单个LLM大模型的能力范畴,成为更懂运维的智能AI平台。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有