本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!
第三方工具去对文件解析拆分,提取文件内容,并将文档内容拆分成一个小chunk。
PDF、word、markdown、JSON、HTML等都有很好的模块执行提取。
但有时效果很差,内容跟原文件差别大。
复杂多变的文档格式,提高解析效果困难。
文档内容质量很大程度影响最终效果,文档处理涉及问题:
对文档的内容提取时,可能发现提取出的文档内容会被截断。跨页形式,提取出来它的上下页,两部分内容就会被截断,导致文档内部分内容丢失,去解析图片或双栏复杂的这种格式,它会有一部分内容丢失。
同一页PDF文件可能存在文本、表格、图片等混合。
PDF解析过程中,同一页它不同段落其实会也会有不同标准的一些格式。按通用格式去提取解析就遇到同页不同段落格式不标准情况。
像常见PDF md文件,需要去支持把这些各类型的文档格式的文件都给提取。
代码块还有单元格这些,都是我们去解析一个复杂文档格式中会遇到的一些问题。
信息压缩失真。
表达缺失上下文;匹配分数容易变高。
内容关系脱节。
单个Chunk信息表达不完整,或含义相反
如空白、HTML、XML等格式,同等长度下减少有效信息、增加干扰信息
缺失了主题和知识点之间的关系
Vector DB AI套件: