首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >玩转腾讯云OCR之制衣行业工艺手册识别体验

玩转腾讯云OCR之制衣行业工艺手册识别体验

原创
作者头像
西门呀在吹雪
发布2024-12-18 15:54:02
发布2024-12-18 15:54:02
3962
举报
文章被收录于专栏:架构之巅架构之巅

背景:最近在做RAG的时候需要处理一批制衣工艺说明书的入库,文档整体处理起来挺简单,但是在细节上处理起来遇到很多问题,比如工艺示意图的识别准确性、可读性、语义连贯性及专业性上都有很大问题,其中前两个问题是OCR识别导致的,后两个问题是文档切分、embedding召回和reranker重排三重原因导致的,本文将结合制衣行业说明书的特点,用腾讯云的结构化OCR高级版体验识别的难点。

制衣行业手册的特点

  1. 整体结构以表格的形式展示,正常解析顺序应至左向右,至上到下的顺序。
  2. 工艺图片的形式大多是不规则的,且图片中会有尺寸及工艺说明。
  3. 工艺图片会有大小以及细节之分,用户需要从流程的角度理解工艺图片。
工艺示意图
工艺示意图
细节拆解
细节拆解

开源产品经验

开源的https://github.com/VikParuchuri/marker maker基于管道式的深度学习模型,具有自动查找布局及阅读顺序的类库,可以根据局部识别结果将原文图片与识别结果进行对照展示,可以很好的将表格转成markdown格式,非常利于下游的LLM去处理和展示

代码语言:txt
复制
pip install marker-pdf

识别对照结果
识别对照结果

识别效果较好,但是在针对印刷体效果一般,准确度不够高。

腾讯云OCR体验

验证效果
验证效果

1、使用上图《工艺示意图》在腾讯云OCR的高级版中验证效果,整体识别程度较为规整,结构化效果好,但是在工艺图片之后识别中断。

2、使用较为简单的图也会出现识别中断末尾几段无法识别的情况。

3、纯文本的情况也会出现末尾几段无法识别的情况

无法识别情况
无法识别情况

4、较为复杂的图会存在无法识别的情况。

总结及对比

1、开源方案印刷体识别错误率高

2、腾讯云方案在某些行业结构化数据识别上优势明显,未来仍需拓展更多领域的识别能力。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 制衣行业手册的特点
  • 开源产品经验
  • 腾讯云OCR体验
  • 总结及对比
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档