背景:最近在做RAG的时候需要处理一批制衣工艺说明书的入库,文档整体处理起来挺简单,但是在细节上处理起来遇到很多问题,比如工艺示意图的识别准确性、可读性、语义连贯性及专业性上都有很大问题,其中前两个问题是OCR识别导致的,后两个问题是文档切分、embedding召回和reranker重排三重原因导致的,本文将结合制衣行业说明书的特点,用腾讯云的结构化OCR高级版体验识别的难点。


开源的https://github.com/VikParuchuri/marker maker基于管道式的深度学习模型,具有自动查找布局及阅读顺序的类库,可以根据局部识别结果将原文图片与识别结果进行对照展示,可以很好的将表格转成markdown格式,非常利于下游的LLM去处理和展示
pip install marker-pdf
识别效果较好,但是在针对印刷体效果一般,准确度不够高。

1、使用上图《工艺示意图》在腾讯云OCR的高级版中验证效果,整体识别程度较为规整,结构化效果好,但是在工艺图片之后识别中断。

2、使用较为简单的图也会出现识别中断末尾几段无法识别的情况。

3、纯文本的情况也会出现末尾几段无法识别的情况

4、较为复杂的图会存在无法识别的情况。
1、开源方案印刷体识别错误率高
2、腾讯云方案在某些行业结构化数据识别上优势明显,未来仍需拓展更多领域的识别能力。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。