Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >开启智能时代:深度解析智能文档分析技术的前沿与应用

开启智能时代:深度解析智能文档分析技术的前沿与应用

作者头像
汀丶人工智能
发布于 2023-10-11 10:39:33
发布于 2023-10-11 10:39:33
1.7K0
举报
文章被收录于专栏:NLP/KGNLP/KG

开启智能时代:深度解析智能文档分析技术的前沿与应用

本章主要介绍文档分析技术的理论知识,包括背景介绍、算法分类和对应思路。通过本文学习,你可以掌握:1. 版面分析的分类和典型思想 2. 表格识别的分类和典型思想 3. 信息提取的分类和典型思想。

作为信息承载工具,文档的不同布局代表了各种不同的信息,如清单和身份证。文档分析是一个从文档中阅读、解释和提取信息的自动化过程。文档分析常包含以下几个研究方向:

  1. 版面分析模块: 将每个文档页面划分为不同的内容区域。该模块不仅可用于划定相关区域和不相关区域,还可用于对其识别的内容类型进行分类。
  2. 光学字符识别 (OCR) 模块: 定位并识别文档中存在的所有文本。
  3. 表格识别模块: 将文档里的表格信息进行识别和转换到excel文件中。
  4. 信息提取模块: 借助OCR结果和图像信息来理解和识别文档中表达的特定信息或信息之间的关系。

由于OCR模块在前面的章节中进行了详细的介绍,接下来将针对上面版面分析、表格识别和信息提取三个模块做单独的介绍。对于每一个模块,会介绍该模块的经典或常用方法以及数据集。

1. 版面分析

1.1 背景介绍

版面分析主要用于文档检索,关键信息提取,内容分类等,其任务主要是对文档图像进行内容分类,内容的类别一般可分为纯文本、标题、表格、图片和列表等。但是文档布局、格式的多样性和复杂性,文档图像质量差,大规模的带标注的数据集的缺少等问题使得版面分析仍然是一个很有挑战性的任务。 版面分析任务的可视化如下图所示:

图 1:版面分析效果图

现有的解决办法一般是基于目标检测或语义分割的方法,这类方法基将文档中不同的板式当做不同的目标进行检测或分割。

一些代表性论文被划分为上述两个类别中,具体如下表所示:

类别

主要论文

基于目标检测的方法

Visual Detection with Context,Object Detection,VSR

基于语义分割的方法

Semantic Segmentation

1.2 基于目标检测的方法

Soto Carlos[1]在目标检测算法Faster R-CNN的基础上,结合上下文信息并利用文档内容的固有位置信息来提高区域检测性能。Li Kai [2]等人也提出了一种基于目标检测的文档分析方法,通过引入了特征金字塔对齐模块,区域对齐模块,渲染层对齐模块来解决跨域的问题,这三个模块相互补充,并从一般的图像角度和特定的文档图像角度调整域,从而解决了大型标记训练数据集与目标域不同的问题。下图是一个基于目标检测Faster R-CNN算法进行版面分析的流程图。

图 2:基于Faster R-CNN的版面分析流程图

1.3 基于语义分割的方法

Sarkar Mausoom[3]等人提出了一种基于先验的分割机制,在非常高的分辨率的图像上训练文档分割模型,解决了过度缩小原始图像导致的密集区域不同结构无法区分进而合并的问题。Zhang Peng[4]等人结合文档中的视觉、语义和关系提出了一个统一的框架VSR(Vision, Semantics and Relations)用于文档布局分析,该框架使用一个双流网络来提取特定模态的视觉和语义特征,并通过自适应聚合模块自适应地融合这些特征,解决了现有基于CV的方法不同模态融合效率低下和布局组件之间缺乏关系建模的局限性。

1.4 数据集

虽然现有的方法可以在一定程度上解决版面分析任务,但是该类方法依赖于大量有标记的训练数据。最近也有很多数据集被提出用于文档分析任务。

  1. PubLayNet[5]: 该数据集包含50万张文档图像,其中40万用于训练,5万用于验证,5万用于测试,共标记了表格,文本,图像,标题和列表五种形式
  2. HJDataset[6]: 数据集包含2271张文档图像, 除了内容区域的边界框和掩码之外,它还包括布局元素的层次结构和阅读顺序。

PubLayNet数据集样例如下图所示:

图 3:PubLayNet样例

参考文献:

[1]:Soto C, Yoo S. Visual detection with context for document layout analysis[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). 2019: 3464-3470.

[2]:Li K, Wigington C, Tensmeyer C, et al. Cross-domain document object detection: Benchmark suite and method[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 12915-12924.

[3]:Sarkar M, Aggarwal M, Jain A, et al. Document Structure Extraction using Prior based High Resolution Hierarchical Semantic Segmentation[C]//European Conference on Computer Vision. Springer, Cham, 2020: 649-666.

[4]:Zhang P, Li C, Qiao L, et al. VSR: A Unified Framework for Document Layout Analysis combining Vision, Semantics and Relations[J]. arXiv preprint arXiv:2105.06220, 2021.

[5]:Zhong X, Tang J, Yepes A J. Publaynet: largest dataset ever for document layout analysis[C]//2019 International Conference on Document Analysis and Recognition (ICDAR). IEEE, 2019: 1015-1022.

[6]:Li M, Xu Y, Cui L, et al. DocBank: A benchmark dataset for document layout analysis[J]. arXiv preprint arXiv:2006.01038, 2020.

[7]:Shen Z, Zhang K, Dell M. A large dataset of historical japanese documents with complex layouts[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. 2020: 548-549.

2. 表格识别

2.1 背景介绍

表格是各类文档中常见的页面元素,随着各类文档的爆炸性增长,如何高效地从文档中找到表格并获取内容与结构信息即表格识别,成为了一个亟需解决的问题。表格识别的难点总结如下:

  1. 表格种类和样式复杂多样,例如不同的行列合并,不同的内容文本类型等。
  2. 文档的样式本身的样式多样。
  3. 拍摄时的光照环境等

表格识别的任务就是将文档里的表格信息转换到excel文件中,任务可视化如下:

图 4:表格识别示例图,其中左边为原图,右边为表格识别后的结果图,以Excel形式呈现

现有的表格识别算法根据表格结构重建的原理可以分为下面四大类:

  1. 基于启发式规则的方法
  2. 基于CNN的方法
  3. 基于GCN的方法
  4. 基于End to End的方法

一些代表性论文被划分为上述四个类别中,具体如下表所示:

类别

思路

主要论文

基于启发式规则的方法

人工设计规则,连通域检测分析处理

T-Rect,pdf2table

基于CNN的方法

目标检测,语义分割

CascadeTabNet, Multi-Type-TD-TSR, LGPMA, tabstruct-net, CDeC-Net, TableNet, TableSense, Deepdesrt, Deeptabstr, GTE, Cycle-CenterNet, FCN

基于GCN的方法

基于图神经网络,将表格识别看作图重建问题

GNN, TGRNet, GraphTSR

基于End to End的方法

利用attention机制

Table-Master

2.2 基于启发式规则的传统算法

早期的表格识别研究主要是基于启发式规则的方法。例如由Kieninger[1]等人提出的T-Rect系统使用自底向上的方法对文档图像进行连通域分析,然后按照定义的规则进行合并,得到逻辑文本块。而之后由Yildiz[2]等人提出的pdf2table则是第一个在PDF文档上进行表格识别的方法,它利用了PDF文件的一些特有信息(例如文字、绘制路径等图像文档中难以获取的信息)来协助表格识别。而在最近的工作中,Koci[3]等人将页面中的布局区域表示为图(Graph)的形式,然后使用了Remove and Conquer(RAC)算法从中将表格作为一个子图识别出来。

图 5:启发式算法示意图

2.3 基于深度学习CNN的方法

随着深度学习技术在计算机视觉自然语言处理、语音处理等领域的飞速发展,研究者将深度学习技术应用到表格识别领域并取得了不错的效果。

Siddiqui Shoaib Ahmed[12]等人在DeepTabStR算法中,将表格结构识别问题表述为对象检测问题,并利用可变形卷积来进更好的进行表格单元格的检测。Raja Sachin[6]等人提出TabStruct-Net将单元格检测和结构识别在视觉上结合起来进行表格结构识别,解决了现有方法由于表格布局发生较大变化而识别错误的问题,但是该方法无法处理行列出现较多空单元格的问题。

图 6:基于深度学习CNN的算法示意图

图 7:基于深度学习CNN的算法错误示例

之前的表格结构识别方法一般是从不同粒度(行/列、文本区域)的元素开始处理问题,容易忽略空单元格合并的问题。Qiao Liang[10]等人提出了一个新框架LGPMA,通过掩码重评分策略充分利用来自局部和全局特征的信息,进而可以获得更可靠的对齐单元格区域,最后引入了包括单元格匹配、空单元格搜索和空单元格合并的表格结构复原pipeline来处理表格结构识别问题。

除了以上单独做表格识别的算法外,也有部分方法将表格检测和表格识别在一个模型里完成,Schreiber Sebastian[11]等人提出了DeepDeSRT,通过Faster RCNN进行表格检测,通过FCN语义分割模型用于表格结构行列检测,但是该方法是用两个独立的模型来解决这两个问题。Prasad Devashish[4]等人提出了一种基于端到端深度学习的方法CascadeTabNet,使用Cascade Mask R-CNN HRNet模型同时进行表格检测和结构识别,解决了以往方法使用独立的两个方法处理表格识别问题的不足。Paliwal Shubham[8]等人提出一种新颖的端到端深度多任务架构TableNet,用于表格检测和结构识别,同时在训练期间向TableNet添加额外的空间语义特征,进一步提高了模型性能。Zheng Xinyi[13]等人提出了表格识别的系统框架GTE,利用单元格检测网络来指导表格检测网络的训练,同时提出了一种层次网络和一种新的基于聚类的单元格结构识别算法,该框架可以接入到任何目标检测模型的后面,方便训练不同的表格识别算法。之前的研究主要集中在从扫描的PDF文档中解析具有简单布局的,对齐良好的表格图像,但是现实场景中的表格一般很复杂,可能存在严重变形,弯曲或者遮挡等问题,因此Long Rujiao[14]等人同时构造了一个现实复杂场景下的表格识别数据集WTW,并提出了一种Cycle-CenterNet方法,它利用循环配对模块优化和提出的新配对损失,将离散单元精确地分组到结构化表中,提高了表格识别的性能。

图 8:端到端算法示意图

基于CNN的方法对跨行列的表格无法很好的处理,因此在后续的方法中,分为了两个研究方法来解决表格中跨行列的问题。

2.4 基于深度学习GCN的方法

近些年来,随着图卷积神经网络(Graph Convolutional Network)的兴起,也有一些研究者尝试将图神经网络应用到表格结构识别问题上。Qasim Shah Rukh[20]等人将表格结构识别问题转换为与图神经网络兼容的图问题,并设计了一种新颖的可微架构,该架构既可以利用卷积神经网络提取特征的优点,也可以利用图神经网络顶点之间有效交互的优点,但是该方法只使用了单元格的位置特征,没有利用语义特征。Chi Zewen[19]等人提出了一种新颖的图神经网络GraphTSR,用于PDF文件中的表格结构识别,它以表格中的单元格为输入,然后通过利用图的边和节点相连的特性来预测单元格之间的关系来识别表格结构,一定程度上解决了跨行或者跨列的单元格识别问题。Xue Wenyuan[21]等人将表格结构识别的问题重新表述为表图重建,并提出了一种用于表格结构识别的端到端方法TGRNet,该方法包含单元格检测分支和单元格逻辑位置分支,这两个分支共同预测不同单元格的空间位置和逻辑位置,解决了之前方法没有关注单元格逻辑位置的问题。

GraphTSR表格识别算法示意图:

图 9:GraphTSR表格识别算法示意图

2.5 基于端到端的方法

和其他使用后处理完成表格结构的重建不同,基于端到端的方法直接使用网络完成表格结构的HTML表示输出

)

图 10:端到端方法的输入输出

图 11:Image Caption示例

端到端的方法大多采用Image Caption(看图说话)的Seq2Seq方法来完成表格结构的预测,如一些基于Attention或Transformer的方法。

图 12:Seq2Seq示意图

Ye Jiaquan[22]在TableMaster中通过改进基于Transformer的Master文字算法来得到表格结构输出模型。此外,还添加了一个分支进行框的坐标回归,作者并没有在最后一层将模型拆分为两个分支,而是在第一个 Transformer 解码层之后就将序列预测和框回归解耦为两个分支。其网络结构和原始Master网络的对比如下图所示:

图 13:左:master网络图,右:TableMaster网络图

2.6 数据集

由于深度学习方法是数据驱动的方法,需要大量的标注数据对模型进行训练,而现有的数据集规模偏小也是一个重要的制约因素,因此也有一些数据集被提出。

  1. PubTabNet[16]: 包含568k表格图像和相应的结构化HTML表示。
  2. PubMed Tables(PubTables-1M)[17]:表格结构识别数据集,包含高度详细的结构注释,460,589张pdf图像用于表格检测任务, 947,642张表格图像用于表格识别任务。
  3. TableBank[18]: 表格检测和识别数据集,使用互联网上Word和Latex文档构建了包含417K高质量标注的表格数据。
  4. SciTSR[19]: 表格结构识别数据集,图像大部分从论文中转换而来,其中包含来自PDF文件的15,000个表格及其相应的结构标签。
  5. TabStructDB[12]: 包括1081个表格区域,这些区域用行和列信息密集标记。
  6. WTW[14]: 大规模数据集场景表格检测识别数据集,该数据集包含各种变形,弯曲和遮挡等情况下的表格数据,共包含14,581 张图像。

数据集示例

图 14:PubTables-1M数据集样例图

图 15:WTW数据集样例图

3. Document VQA

3.1 背景介绍

在VQA(Visual Question Answering)任务中,主要针对图像内容进行提问和回答,但是对于文本图像来说,关注的内容是图像中的文字信息,因此这类方法可以分为自然场景的Text-VQA和扫描文档场景的DocVQA,三者的关系如下图所示。

图 16: VQA层级

VQA,Text-VQA和DocVQA的示例图如下图所示。

任务类型

VQA

Text-VQA

DocVQA

任务描述

针对图片内容提出问题

针对图片上的文字内容提出问题

针对文档图像的文字内容提出问题

示例图片

DocVQA由于其更加贴近实际应用场景,涌现出了大批学术界和工业界的工作。在常用的场景中,DocVQA里提问的问题都是固定的,比如身份证场景下的问题一般为

  1. 公民身份号码是什么?
  2. 姓名是什么?
  3. 名族是什么?

图 17: 身份证示例

基于这样的先验知识,DocVQA的 研究开始偏向Key Information Extraction(KIE)任务,本次我们也主要讨论KIE相关的研究,KIE任务主要从图像中提取所需要的关键信息,如从身份证中提取出姓名和公民身份号码信息。

KIE通常分为两个子任务进行研究

  1. SER: 语义实体识别 (Semantic Entity Recognition),对每一个检测到的文本进行分类,如将其分为姓名,身份证。如下图中的黑色框和红色框。
  2. RE: 关系抽取 (Relation Extraction),对每一个检测到的文本进行分类,如将其分为问题和的答案。然后对每一个问题找到对应的答案。如下图中的红色框和黑色框分别代表问题和答案,黄色线代表问题和答案之间的对应关系。

图 18: SER,RE任务示例

一般的KIE方法基于命名实体识别(Named Entity Recognition,NER)[4]来研究,但是这类方法只利用了图像中的文本信息,缺少对视觉和结构信息的使用,因此精度不高。在此基础上,近几年的方法都开始将视觉和结构信息与文本信息融合到一起,按照对多模态信息进行融合时所采用的的原理可以将这些方法分为下面三种:

  1. 基于Grid的方法
  2. 基于Token的方法
  3. 基于GCN的方法
  4. 基于End to End 的方法

一些代表性论文被划分为上述三个类别中,具体如下表所示:

类别

思路

主要论文

基于Grid的方法

在图像上多模态信息的融合(文本,布局,图像)

Chargrid

基于Token的方法

利用Bert这类方法进行多模态信息的融合

LayoutLM, LayoutLMv2, StrucText,

基于GCN的方法

利用图网络结构进行多模态信息的融合

GCN, PICK, SDMG-R,SERA

基于End to End的方法

将OCR和关键信息提取统一到一个网络

Trie

3.2 基于Grid的方法

基于Grid的方法在图像层面进行多模态信息的融合。Chargrid[5]首先对图像进行字符级的文字检测和识别,然后通过将类别的one-hot编码填充到对应的字符区域(下图中右图的非黑色部分)内来完成对网络输入的构建,输入最后通过encoder-decoder结构的CNN网络来进行关键信息的坐标检测和类别分类。

图 19: Chargrid数据示例

图 20: Chargrid网络

相比于传统的仅基于文本的方法,该方法能够同时利用文本信息和结构信息,因此能够取得一定的精度提升,但是该方法对文本和结构信息的融合只是做了简单的嵌入,并没有很好的将二者进行融合

3.3 基于Token的方法

LayoutLM[6]将2D位置信息和文本信息一起编码到BERT模型中,并且借鉴NLP中Bert的预训练思想,在大规模的数据集上进行预训练,在下游任务中,LayoutLM还加入了图像信息来进一步提升模型性能。LayoutLM虽然将文本,位置和图像信息做了融合,但是图像信息是在下游任务的训练中进行融合,这样对三种信息的多模态融合并不充分。LayoutLMv2[7]在LayoutLM的基础上,通过transformers在预训练阶段将图像信息和文本,layout信息进行融合,还在Transformer中加入空间感知自注意力机制辅助模型更好地融合视觉和文本特征。LayoutLMv2虽然在预训练阶段对文本,位置和图像信息做了融合,但是由于预训练任务的限制,模型学到的视觉特征不够精细。StrucTexT[8]在以往多模态方法的基础上,在预训练任务提出Sentence Length Prediction (SLP) 和Paired Boxes Direction (PBD)两个新任务来帮助网络学习精细的视觉特征,其中SLP任务让模型学习文本段的长度,PDB任务让模型学习Box方向之间的匹配关系。通过这两个新的预训练任务,能够加速文本、视觉和布局信息之间的深度跨模态融合。

)

图 21:transformer算法流程图

图 22:LayoutLMv2算法流程图

3.4 基于GCN的方法

现有的基于GCN的方法[10]虽然利用了文字和结构信息,但是没有对图像信息进行很好的利用。PICK[11]在GCN网络中加入了图像信息并且提出graph learning module来自动学习edge的类型。SDMG-R [12]将图像编码为双模态图,图的节点为文字区域的视觉和文本信息,边表示相邻文本直接的空间关系,通过迭代地沿边传播信息和推理图节点类别,SDMG-R解决了现有的方法对没见过的模板无能为力的问题。

PICK流程图如下图所示:

图 23:PICK算法流程图

SERA[10]将依存句法分析里的biaffine parser引入到文档关系抽取中,并且使用GCN来融合文本和视觉信息。

图 24:SERA算法流程图

3.5 基于End to End 的方法

现有的方法将KIE分为两个独立的任务:文本读取和信息提取,然而他们主要关注于改进信息提取任务,而忽略了文本读取和信息提取是相互关联的,因此,Trie[9]提出了一个统一的端到端网络,可以同时学习这两个任务,并且在学习过程中相互加强。

图 25: Trie算法流程图

3.6 数据集

用于KIE的数据集主要有下面两个:

  1. SROIE: SROIE数据集[2]的任务3旨在从扫描收据中提取四个预定义的信息:公司、日期、地址或总数。数据集中有626个样本用于训练,347个样本用于测试。
  2. FUNSD: FUNSD数据集[3]是一个用于从扫描文档中提取表单信息的数据集。它包含199个标注好的真实扫描表单。199个样本中149个用于训练,50个用于测试。FUNSD数据集为每个单词分配一个语义实体标签:问题、答案、标题或其他。
  3. XFUN: XFUN数据集是微软提出的一个多语言数据集,包含7种语言,每种语言包含149张训练集,50张测试集。

)

图 26: sroie示例图

图 27: xfun示例图

参考链接

https://aistudio.baidu.com/education/group/info/25207

https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.7

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-10-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
走进AI时代的文档识别技术 之文档重建
导读:作者系腾讯QQ研发中心——CV应用研究组的totoralin。本文主要介绍基于深度学习的文档重建框架,通过文档校正、版面分析、字体识别和阅读排序将纸质文档智能转成可编辑的电子文档。相比较传统的OCR技术,更加完整地恢复出文档关键图表等内容,提高用户文档处理的效率。 1、相关背景 随着知识爆炸,借助纸质媒体、网络媒体等途径每天我们都在接触大量的信息。但是当我们发现某些信息是有启发性、有价值的,又苦于如何将这些信息沉淀下来。由于这些信息载体丰富多样,有的是纸质书有的是网页报道有的是PDF电子书,没有
腾讯技术工程官方号
2019/06/20
6.6K0
走进AI时代的文档识别技术 之文档重建
怎样完成票据证件的关键信息抽取任务
文档版面分析是对图片或页面扫描图像上感兴趣的区域进行定位和分类的过程,版面分析的目的是让机器“看懂”文档结构,即将文档图像分割成不同类型内容的区域,并分析区域之间的关系,这是内容识别之前的关键步骤。从广义上讲,大多数方法可以提炼为页面分割和逻辑结构分析。
机器学习AI算法工程
2024/03/05
5950
怎样完成票据证件的关键信息抽取任务
CCIG 2024:合合信息文档解析技术突破与应用前景
2024年5月24日-26日于西安召开中国图象图形大会(CCIG 2024),此次大会由中国图象图形学学会主办,空军军医大学、西安交通大学和西北工业大学承办,南京理工大学、陕西省图象图形学学会、陕西省生物医学工程学会协办,陕西省科学技术协会支持。包括于起峰院士、郑海荣院士、焦李成教授、王大轶研究员和虞晶怡教授在内的多位知名学者将作主旨报告,带来前沿的学术分享。大会期间将举办25场学术论坛、7场特色论坛和2场企业论坛,汇聚2000余名专家学者,构建开放创新、交叉融合的交流平台。
海拥
2024/05/31
2600
AIGC席卷智慧办公,金山办公如何架构文档智能识别与理解的通用引擎?
如今,智慧办公是企业办公领域数字化转型的题中之义。作为国内最早开发的软件办公系统之一,金山办公如何应用深度学习实现复杂场景文档图像识别和技术理解?本文将从复杂场景文档的识别与转化、非文本元素检测与文字识别、文本识别中的技术难点等多个方面进行深度解析。 作者 | 金山办公CV技术团队 出品 | 新程序员 在办公场景中,文档类型图像被广泛使用,比如证件、发票、合同、保险单、扫描书籍、拍摄的表格等,这类图像包含了大量的纯文本信息,还包含有表格、图片、印章、手写、公式等复杂的版面布局和结构信息。早前这些信息均采用
AI科技大本营
2023/04/10
2.5K0
AIGC席卷智慧办公,金山办公如何架构文档智能识别与理解的通用引擎?
达观高翔:智能文档处理IDP关键技术与实践
什么是智能文档处理?针对文本数据处理尤其是纯文本,大家通常会想到使用自然语言处理(Natural language processing,NLP)技术来解决语义理解及分析处理工作。关于自然语言处理技术的研究有很长历史,针对不同层面文本处理和分析有很多技术点,常见技术例如分词与词性标注、命名实体识别、句法结构分析、文本分类、文本摘要等功能。
用户10103085
2022/11/03
2.1K0
达观高翔:智能文档处理IDP关键技术与实践
炸裂!PDF 转 Word 彻底告别收费时代,这款 OCR 开源神器要逆天!
随着企业数字化进程不断加速,PDF 转 Word 的功能、纸质文本的电子化存储、文件复原与二次编辑、信息检索等应用都有着强烈的企业需求。目前市面上已有一些软件,但普遍需要繁琐的安装注册操作,大多还存在额度限制。此外,最终转换效果也依赖于版面形态,无法做到针对性适配。针对社区开发者迫切的需求,飞桨社区开发者吴泓晋(GitHubID:whjdark)基于最新发布的PP-StructureV2智能文档分析系统,开发了一款PDF转Word软件,导入PDF文件可一键转换为可编辑Word,支持文字、表格、标题、图片的完整恢复,实现PDF编辑自由!
GitHubDaily
2022/11/01
6.1K1
炸裂!PDF 转 Word 彻底告别收费时代,这款 OCR 开源神器要逆天!
常用的表格检测识别方法——表格结构识别方法(上)
表格结构识别是表格区域检测之后的任务,其目标是识别出表格的布局结构、层次结构等,将表格视觉信息转换成可重建表格的结构描述信息。这些表格结构描述信息包括:单元格的具体位置、单元格之间的关系、单元格的行列位置等。
合合技术团队
2023/05/24
1.7K0
常用的表格检测识别方法——表格结构识别方法(上)
大模型时代下智能文档处理核心技术大揭秘
随着人工智能技术的发展,智能图像处理成为了一种风靡全球的热门技术。智能图像处理可以帮助我们从大量的图像数据中提取最有价值的信息,为医疗、军事、安防等领域带来了重大的贡献。然而,图像处理的难点也随之而来,下面我们来简单介绍一下图像处理的难点以及解决方式的比对。
机器学习AI算法工程
2023/11/22
6690
大模型时代下智能文档处理核心技术大揭秘
从视觉到语义逻辑:版面分析技术浅析
想象一下,在一家电商巨头的仓库里,每天都有海量的物流单据需要处理。过去,员工们需要手动录入信息,费时费力,而且很难避免疏漏错误。在文档版面分析技术投入应用后,机器能自动识别单据上的文字和布局,快速提取关键信息。这背后,是DLA技术从实验室走向现实的典型场景。
合合技术团队
2025/02/26
1542
从视觉到语义逻辑:版面分析技术浅析
PaddleOCR新发版v2.2:开源版面分析与轻量化表格识别
时隔数月之后PaddleOCR发版v2.2,又带着新功能和大家见面了。本次更新,为大家带来最新的版面分析与表格识别技术:PP-Structure。核心功能点如下:
用户1386409
2021/08/05
3.2K0
PaddleOCR新发版v2.2:开源版面分析与轻量化表格识别
字节、华师、华科联合提出TextSquare,8B参数量的文字多模态大模型指标逼近GPT4V
近期多模态大模型(MLLM)在文本中心的VQA领域取得了显著进展,尤其是多个闭源的例如GPT4V和Gemini,甚至在某些方面展现了超越人类的能力。但是开源模型的性能还远远落后于闭源模型,最近许多开创性的研究例如MonKey、LLaVAR、TG-Doc、ShareGPT4V等已开始关注指令微调数据不足的问题,尽管这些努力取得了显著的效果,但仍存在一些问题,图像描述数据和VQA数据属于不同的领域,图像内容呈现的粒度和范围存在不一致性。此外,合成数据的规模相对较小,使得MLLM无法充分发挥潜力。
CV君
2024/04/25
2960
字节、华师、华科联合提出TextSquare,8B参数量的文字多模态大模型指标逼近GPT4V
ICDAR 2019表格识别论文与竞赛综述(上)
表格作为一种有效的数据组织与展现方法被广泛应用,也成为各类文档中常见的页面对象。随着文档数目的爆炸性增长,如何高效地从文档中找到表格并获取内容与结构信息即表格识别,成为了一个亟待解决的问题。ICDAR是一个专注于文档分析与识别问题的国际学术会议,已经连续多届设置了表格识别专题。在今年的ICDAR 2019会议上,有不少研究者在表格检测与结构识别等领域做出了新的贡献,使其有了新的进展。本课题组梳理了该会议中有关表格识别的16篇论文,总结该领域当前的研究进展与挑战。同时,值得注意的是,该会议也举办了关于表格检测与结构识别的比赛,我们对参赛队伍使用的方法与结果进行了一些讨论。
AI算法与图像处理
2019/11/29
6.8K0
常用的表格检测识别方法-表格区域检测方法(上)
表格检测识别一般分为三个子任务:表格区域检测、表格结构识别和表格内容识别。本章将围绕这三个表格识别子任务,从传统方法、深度学习方法等方面,综述该领域国内国外的发展历史和最新进展,并提供几个先进的模型方法。
合合技术团队
2023/05/18
1.9K0
常用的表格检测识别方法-表格区域检测方法(上)
常用的表格检测识别方法——表格结构识别方法 (下)
表格结构识别是表格区域检测之后的任务,其目标是识别出表格的布局结构、层次结构等,将表格视觉信息转换成可重建表格的结构描述信息。这些表格结构描述信息包括:单元格的具体位置、单元格之间的关系、单元格的行列位置等。在当前的研究中,表格结构信息主要包括以下两类描述形式:1)单元格的列表(包含每个单元格的位置、单元格 的行列信息、单元格的内容);2)HTML代码或Latex代码(包含单元格的位置信息,有些也会包含单元格的内容)。
合合技术团队
2023/06/01
3.6K0
常用的表格检测识别方法——表格结构识别方法 (下)
万字深度好文!视觉-语言(VL)智能:任务、表征学习和大型模型
编译丨Jocelyn 编辑丨陈彩娴 本文对视觉-语言(VL)智能按时间顺序进行了全面调研,并将这一领域的发展总结为三个阶段: 第一个阶段是2014-2018年,其间,专门的模型被设计用于不同的任务。第二个时代是2019-2021年,在此期间,通过使用有着高质量标签的VL数据集进行预训练,神经网络模型能够学习视觉和语言的联合表征。最后,随着2021年CLIP的出现,第三个时代开始了,此时研究人员寻求在更大的弱标签数据集上预训练VL模型,并通过VL预训练获得性能强大的基于零样本或少样本的视觉模型。 我们相信这
AI科技评论
2022/03/31
7160
万字深度好文!视觉-语言(VL)智能:任务、表征学习和大型模型
炸裂!PDF转Word彻底告别收费时代,这个OCR开源项目要逆天!
随着企业数字化进程不断加速,PDF转Word的功能、纸质文本的电子化存储、文件复原与二次编辑、信息检索等应用都有着强烈的企业需求。目前市面上已有一些软件,但普遍需要繁琐的安装注册操作,大多还存在额度限制。此外,最终转换效果也依赖于版面形态,无法做到针对性适配。
黄博的机器学习圈子
2022/11/07
6.6K1
炸裂!PDF转Word彻底告别收费时代,这个OCR开源项目要逆天!
通用表格识别技术:刻改变处理表格数据的方式
在数字化浪潮中,表格作为信息载体的核心形式,广泛存在于金融报表、医疗档案、科研论文等场景中。据统计,全球企业每年需处理超过 200 亿份包含表格的文档,但传统人工录入效率低下(日均处理约 500 份)且错误率高达 8%。随着电子政务、智慧医疗等领域的快速发展,表格数据的自动化处理需求呈爆发式增长。然而,表格形态的多样性(如无线表、合并单元格、嵌套结构)和输入介质的复杂性(扫描件、拍照文档、PDF)成为数字化转型的主要瓶颈。在此背景下,通用表格识别技术(Universal Table Recognition, UTR)应运而生,其核心目标是突破格式壁垒,实现从图像到结构化数据的精准转换,正成为打开这座数据牢笼的智能钥匙。
智能图文识别OCR
2025/07/23
110
通用表格识别技术:刻改变处理表格数据的方式
达观纪传俊:多模态文档LayoutLM版面智能理解技术演进
办公文档是各行各业最基础也是最重要的信息载体,不管是金融、政务、制造业、零售行业等等,各种类型的文档都是业务流转过程中必不可少的数字资料。以银行信贷为例,一笔信贷业务在贷前贷中到贷后全流程中,需要涉及财报、银行流水、贸易合同、发票、尽职调查报告、审批意见书、会议纪要等等材料,材料的格式和内容均差异很大,但都是针对同一笔信贷业务、从不同角色视角、不同业务角度的情况描述。每一种材料都承载了重要的业务数据,对这些材料进行全面而准确的价值提取,并汇集所有材料实现全流程数据穿透,是前述信贷业务目前急需解决的问题。如何提取海量历史文档中的关键要素和数据,构建数据资产,也是当前各个行业做数字化智能化转型的重要课题。
用户10103085
2022/12/07
1.1K0
达观纪传俊:多模态文档LayoutLM版面智能理解技术演进
OG-HFYOLO:面向变形表格单元格的方向梯度引导与异构特征融合
表格结构识别是文档分析中的一项关键任务。然而,变形表格中的几何变形削弱了内容与结构信息之间的关联性,进而阻碍了下游任务准确提取内容的能力。为应对这一挑战,我们提出了用于细粒度单元格坐标定位的OG-HFYOLO模型。该模型整合了梯度方向感知提取器(Gradient-Orientation-Aware Extractor)以增强边缘检测,并引入异构核交叉融合(Heterogeneous Kernel Cross Fusion)模块来促进多尺度特征学习,从而提高特征表达的准确性。结合用于在训练过程中更好地适应尺度特征的尺度感知损失函数(Scale-aware Loss function),以及用掩模驱动的非极大值抑制(mask-driven non-maximal suppression)取代传统的边界框抑制后处理,该模型实现了精细的特征表示和卓越的定位性能。为解决细粒度变形表格单元格定位的数据集限制问题,我们进一步提出了一个数据生成器,并构建了大规模的变形有线表格(Deformation Wired Table,DWTAL)数据集。实验表明,在DWTAL数据集上,OG-HFYOLO相较于所有主流实例分割模型,实现了更优的分割精度。该数据集和源代码已开源:https://github.com/justliulong/OGHFYOLO。
AI浩
2025/06/13
1700
OG-HFYOLO:面向变形表格单元格的方向梯度引导与异构特征融合
从图像中检测和识别表格,北航&微软提出新型数据集TableBank
TableBank 开源地址:https://github.com/doc-analysis/TableBank
机器之心
2019/04/29
2.9K0
从图像中检测和识别表格,北航&微软提出新型数据集TableBank
推荐阅读
相关推荐
走进AI时代的文档识别技术 之文档重建
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档