首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

自然场景文本检测识别技术综述

SIGAI特邀作者:海翎(视觉算法研究员) 青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。...这是因为,场景文字识别技术可以被看成是传统OCR技术的自然演进与升级换代。 图像文字检测和识别技术有着广泛的应用场景。...它们从特征提取、区域建议网络(RPN)、多目标协同训练、Loss改进、非极大值抑制(NMS)、半监督学习等角度对常规物体检测方法进行改造,极大提升了自然场景图像中文本检测的准确率。...由于字符级自然场景图文标注成本很高、相关公开数据集稀少,导致现在多数图文检测模型只能在文本行、单词级标注数据上做训练。...该合成算法,不需要人工标注就可知道文字的label信息和位置信息,可得到大量自然场景文本标注数据。

3.6K20

自然场景文本检测识别技术综述

0629封面.jpg 番外 青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。...它们从特征提取、区域建议网络(RPN)、多目标协同训练、Loss改进、非极大值抑制(NMS)、半监督学习等角度对常规物体检测方法进行改造,极大提升了自然场景图像中文本检测的准确率。...由于字符级自然场景图文标注成本很高、相关公开数据集稀少,导致现在多数图文检测模型只能在文本行、单词级标注数据上做训练。...该合成算法,不需要人工标注就可知道文字的label信息和位置信息,可得到大量自然场景文本标注数据。...[27] 场景文本检测——CTPN算法介绍 SIGAI 2018.6.22 [28] 卷积神经网络的压缩和加速 SIGAI 2018.6.25 [29]k近邻算法SIGAI 2018.6.27

7.7K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    FOTS:自然场景文本检测与识别

    检测到图像后,我们也必须识别它。 FOTS的完整形式是快速定向文本点亮。可以在任何自然场景检测和识别任何文本。 ?...在上面的图像中,FOTS给出了结果,它检测到“间隙”文本区域和图像(场景)中的所有文本区域,并识别出它是“间隙”、“50”和“GAP”等。这就是我们在这篇文章中要做的。...现在这个任务可以用两个不同的部分检测和识别来完成。在检测部分检测场景中的文本区域,在识别部分识别文本,什么是文本?...在本文“FOTS”中,他们同时进行了检测和识别,这是端到端系统,意思是如果我们给出一个有文本场景,那么它将返回检测到的文本区域,并对文本进行识别。...所以我们的检测部分是受East 论文的启发,https://arxiv.org/abs/1704.03155。本文介绍了一种从不同背景的场景检测文本的方法。

    1.4K20

    EAST 自然场景文本检测实践(EAST: An Efficient and Accurate Scene Text Detector)

    自然场景文字是图像高层语义的一种重要载体,近些年自然场景图像中的文本检测与识别技术越来越引起人们的重视。特别是近年来ICDAR的历界比赛,更是逐渐将这一领域的score不断提升。...自然场景文本检测是图像处理的核心模块,也是一直想要接触的一个方面。...不过CTPN只支持水平方向,而EAST在论文中指出是可以支持多方向文本的定位的。 ? 论文采用的架构如下: ?...(2) 文中采用了两种几何对象,rotated box (RBOX) and quadrangle (QUAD),通过这两种,可以实现对多方向场景文本检测。...可见,场景文本识别检测还有很长的一段路要走。不过最后一张图实在过于复杂,包括CTPN的效果也都是非常一般。利用百度识别SDK也测试了下,结果也是差不多。 ?

    2.6K70

    10分钟上手,OpenCV自然场景文本检测(Python代码+实现)

    本文便使用OpenCV和EAST文本检测器在自然场景下对文本进行了检测,包括图像中的文本检测,以及视频中的文本检测,并对其原理与实现过程做了详尽的描述。...在本教程中,您将学习如何使用EAST文本检测器在自然场景检测文本。 本教程的主要目的是教读者利用OpenCV和EAST文本检测器来检测文本。...为何在自然场景下进行文本检测的挑战性是如此之高 由于光照条件、图片质量以及目标非线性排列等因素的限制,自然场景下的文本检测任务难度较大 受约束的受控环境中的文本检测任务通常可以使用基于启发式的方法来完成...Celine Mancas-Thillou和Bernard Gosselin在其2017年发表的优秀论文《自然场景文本理解》中描述了的自然场景文本检测面对的主要挑战: 图像/传感器噪音:手持式相机的传感器噪音通常要高于传统扫描仪...而自然场景中的文字可能是反光的,比如徽标,标志等。 非平面目标:想象文字印在瓶子上的情况,瓶子表面上的文本会扭曲和变形。虽然我们自己仍可以轻松地“检测”并阅读文本,但算法做起来就会很困难。

    1.8K20

    自然场景人脸检测技术实践

    一篇是机器学习平台的建设实践,一篇是自然场景中的人脸检测,希望对大家有所启发。...在自然场景中,人脸检测技术挑战极大,美团AI平台视觉智能中心从底层算法模型和系统架构两个方面进行了改进,开发了高精度人脸检测模型VICFace。...因拍摄的场景不同,自然场景环境复杂多变,光照因素也不可控,人脸本身多姿态以及群体间的相互遮挡给检测任务带来了很大的挑战(如图1所示)。在过去20年里,该任务一直是学术界和产业界共同关注的热点。...自然场景人脸检测在美团业务中也有着广泛的应用需求,为了应对自然场景应用本身的技术挑战,同时满足业务的性能需求,美团视觉智能中心(Vision Intelligence Center,VIC)从底层算法模型和系统架构两个方面进行了改进...图1 自然场景人脸检测样本示例 二、技术发展现状 跟深度学习不同,传统方法解决自然场景人脸检测会从特征表示和分类器学习两个方面进行设计。

    1K20

    10分钟上手,OpenCV自然场景文本检测(Python代码+实现)

    本文便使用OpenCV和EAST文本检测器在自然场景下对文本进行了检测,包括图像中的文本检测,以及视频中的文本检测,并对其原理与实现过程做了详尽的描述。...在本教程中,您将学习如何使用EAST文本检测器在自然场景检测文本。 本教程的主要目的是教读者利用OpenCV和EAST文本检测器来检测文本。...为何在自然场景下进行文本检测的挑战性是如此之高 ?...Celine Mancas-Thillou和Bernard Gosselin在其2017年发表的优秀论文《自然场景文本理解》中描述了的自然场景文本检测面对的主要挑战: 图像/传感器噪音:手持式相机的传感器噪音通常要高于传统扫描仪...而自然场景中的文字可能是反光的,比如徽标,标志等。 非平面目标:想象文字印在瓶子上的情况,瓶子表面上的文本会扭曲和变形。虽然我们自己仍可以轻松地“检测”并阅读文本,但算法做起来就会很困难。

    1.6K30

    文本检测算法EAST介绍

    EAST由旷世科技于2017年发表在CVPR的关于自然场景文本检测的一篇文章。EAST是用来解决多方向文本检测的问题的一种思路。其核心思想体现在了以下几点。...采用了FCN这样一种多尺度融合的方法来进行特征的抽取,用于后续的像素级的文本区域的预测。 EAST能够直接打到倾斜文本检测的目的,能够完成自然场景文本检测的任务。...在得到最终的检测Boundiing box之后,作者同样对最终的NMS算法提出了优化,提出了局部感知的NMS策略。对于局部感知NMS,作者采用了以下一些策略来针对标准的NMS来进行改进。...EAST网络性能对比 对比EAST算法同其他的文本检测算法,我们可以看到在ICDAR 2015和MSRA-TD500这样两个数据集上,EAST算法同样能够达到较好的效果。...EAST模型效果图 针对于自然场景下的文本图片,EAST能够检测出不同方向,不同角度,不同背景,不同环境,不同字体等等各种条件下的文本区域。

    2K20

    CRAFTS:端对端的场景文本检测

    CRAFTS场景文本检测器由文本检测和识别模块组成。许多研究已经将这些模块统一为一个端到端可训练的模型,以获得更好的性能。...CRAFTS算法原理:CRAFTS可以分成3个阶段:检测阶段、共享阶段和识别阶段,详细的网络结构如图所示。检测阶段获取一个输入图像,并定位面向方向的文本框。...典型的TPS模块输入一张单词图片,但在这里提供字符区域映射和链接映射,因为它们包含了文本区域的几何信息,使用二十个控制点来紧紧覆盖弯曲的文本区域,将这些控制点作为检测结果,转换为原始输入图像坐标。...通用性能是有意义的,因为在实际场景中没有提供词汇集。请注意,CRAFTS在IC15数据集上的检测分数略低,在强语境化结果中也观察到低性能。检测性能相对较低的主要原因是粒度差异,稍后将进一步讨论。...自然场景文本检测与识别的深度学习方法.

    70640

    基于分割思想的文本检测算法

    本文使用 Zhihu On VSCode 创作并发布 在文本检测任务中,较少出现字符重合的情况(重合的字符人也认不出来啊),所以基于分割思想的文本检测算法也能得到很好的效果。 1....使用人工特征 文本检测领域常见的人工特征算法有两种:SWT和MSER,这些方法的效率比滑窗法更高,精度也更好。 SWT算法思路:图片中的文本都具有一致宽度的线条。...除这两种算法以外,还可以尝试使用一些通用的局部特征算子,我曾经用过harris角点,在文档和证件场景下的效果还是不错的。 2. 深度学习文本检测 深度学习算法在误检方便表现比传统方法要好。...下面四个算法采用了四种不同的方式实现了文本实例的分隔。 EAST 网络结构如下: ?...因为score map上每个达到阈值的点都会对应一个检测框,会产生很多高度重合的检测框。所以EAST算法中在NMS之前添加了检测框融合的操作,称之为LocalNMS。

    1.8K20

    文本检测与识别-白皮书-3.1】第二节:基于分割的场景文本检测方法

    3.1.2 基于分割的场景文本检测方法基于分割的自然场景文本检测方法主要是借鉴传统的文本检测方法的思想,先通过卷积神经网络检测出基本的文本组件,然后通过一些后处理的方式将文本组件聚集成一个完整的文本实例...Zhang 等人(2016)的工作首次将文本像素分类预测用于自然场景文本检测任务当中,该方法首先通过一个FCN 预测得到文本区域的分割显著图。然后利用MSER 检测算子在文本区域内提取候选字符。...文本片段级别定义为字符或者文本的一部分,这类文本检测方法通常是利用目标检测算法从图像中检测出这样的文本片段。然后根据特征相似性,通过一些后处理算法检测出的文本片段拼接成完整的文本实例。...Shi 等人(2017b)借鉴了CTPN 的思想,提出了可以实现任意方向自然场景文本检测的SegLink 算法,如图7 所示,它基于单阶段目标检测器SSD 对文本片段进行了检测,同时还预测了各片段之间的连接关系...由于单字符标注比较少而且标注成本也比较高,该方法第一次提出通过弱监督的方式得到自然场景文本单字符检测结果的算法WordSup。

    96710

    IJCAI 2018 | 阿里提出IncepText:全新多向场景文本检测模块

    场景文本检测是众多计算机视觉应用中最具挑战性的任务之一,它会应用在多语言翻译、图像检索、自动驾驶等场景中。其中,首当其冲的挑战是场景文本会包含各种图像,如街景、海报、菜单、室内场景等。...此外,场景文本在前景文本和背景对象中都有很大的变化,并且还具有不同的光照、模糊和方向条件。 在过去几年里,场景文本检测方向涌现了很多杰出的算法。...在这篇论文中,我们会首先简要介绍场景文本检测,主要关注多方向场景文本检测。然后详细讲解新提出的方法,并在三个公共基准数据集上给出实验结果。最后进行总结,并讨论未来的工作。...这两个融合的特征图后面接着用于场景文本检测的 Inception-Text 模块。...与常见的物体检测任务不同,场景文本的长宽比,尺度和方向常常会发生巨大变化。 为了解决这一问题,我们从实例分割的角度提出了一种创新性的端到端场景文本检测器 IncepText。

    68940

    深度学习的端到端文本OCR:使用EAST从自然场景图片中提取文本

    或者怎样才能阅读数字文档中的文本,如发票、法律文书等。 ? 但它到底是如何工作的呢? 这篇文章是关于在自然场景图像中进行文本识别的光学字符识别(OCR)。...我们通常可以把这些任务分为两类: 结构化文本——类型化文档中的文本。在一个标准的背景,适当的行,标准的字体和大多数密集的文本。 ? 非结构化文本——自然场景中任意位置的文本。...但是这些技术不适用于自然场景,因为自然场景是稀疏的,并且具有与结构化数据不同的属性。 在本文中,我们将更多地关注非结构化文本,这是一个需要解决的更复杂的问题。...首先,网络提出可能有测试的区域,然后对有文本的区域进行分类。 EAST(高效精准场景文本检测) 是一种基于本文的非常鲁棒的文本检测深度学习方法。值得一提的是,它只是一种文本检测方法。...EAST可以检测图像和视频中的文本。该算法在720p图像上以13FPS的速度实时运行,具有较高的文本检测精度。这种技术的另一个好处是,它的实现可以在OpenCV 3.4.2和OpenCV 4中使用。

    2.5K21

    海量短文本场景下的去重算法

    这里的去重标准在文本领域来说,就是如何度量两个文本的相似性,通常包含编辑距离,Jaccard距离,cosine距离,欧氏距离,语义距离等等,在不同领域和场景下选用不同的相似性度量方法,这里不是本文的重点...核心思想 降低时间复杂度的关键: > 尽力将潜在的相似文本聚合到一块,从而大大缩小需要比较的范围 simHash算法 海量文本去重算法里面,最为知名的就是simHash算法,是谷歌提出来的一套算法,并被应用到实际的网页去重中...通常来说,用于相似文本检测中的汉明距离判断标准就是3,也就是说,当两个文本对应的simHash之间的汉明距离小于或等于3,则认为这两个文本为相似,如果是要去重的话,就只能留下其中一个。...但是在短文本场景下,这种度量方法的效果将会变得很差,通常情况下,用来度量长文本相似的汉明距离阈值为3,但是短文本中,相似文本之间的汉明距离通常是大于3的,并且该算法中,基于汉明距离的相似性阈值选取的越高...,召回太低,很多相似文本并不满足汉明距离小于3的条件 总结 这里提出的基于文本局部信息的去重算法,是在短文本场景下simHash等去重算法无法满足去重目的而提出的,实际上,同样也可以应用于长文本下的去重要求

    19K41

    CVPR 2019 | 文本检测算法PSENet解读与开源实现

    作者:刘恒 编辑:CV君 PSENet文本检测算法来自论文《Shape Robust Text Detection with Progressive Scale Expansion Network》,2018...该文章的网络框架是从FPN中受到启发采用了U形的网络框架,先通过将网络提取出的特征进行融合然后利用分割的方式将提取出的特征进行像素的分类,最后利用像素的分类结果通过一些后处理得到文本检测结果。...最后将n个输出结果通过一定的后处理得到最终的文字检测结果。...二、后处理算法 (Progressive Scale Expansion Algorithm-PSE) 看这个名字就很容易理解为什么这篇文章被称为PSENet了。...为了获得下图(c)中的其他图,文章采用Vatti clipping算法将原多边形 缩小 个像素得到 。最终得到的n个groundtruth用 表示。

    2.8K10

    PSENet PANNet DBNet 三个文本检测算法异同

    PSENet 近年来,自然场景文本检测场景理解、产品识别、自动驾驶和目标定位等众多应用中得到了广泛的关注。...然而,由于前景文本和背景对象的巨大差异,以及各种形状、颜色、字体、方向和尺度的文本变化以及极端的照明和遮挡,自然场景中的文本检测仍然面临着相当大的挑战。...不幸的是,这些框架无法检测任意形状的文本实例(例如曲线文本),这些文本实例也经常出现在自然场景中。自然,基于语义分割的方法可以显式地处理曲线文本检测问题。...首先,psenet作为一种基于分割的方法,能够对任意形状的文本进行定位.其次,我们提出了一种渐进的尺度扩展算法,该算法可以成功地识别相邻文本实例。 ?...每个内核与原始的整个文本实例共享相似的形状,并且它们都位于相同的中心点但在比例上不同。为了得到最终的检测结果,我们采用了渐进的尺度扩展算法

    2.6K30

    自然语言处理之文本卷积

    *注:本文仅适用于已了解图像卷积过程的童鞋们 自然语言处理之文本卷积 1.文本的向量表示 2.文本的1维卷积 3.池化 1.文本的向量表示 在文本处理时,首先要将文本用向量表示出来。...来表示每个单词 •每个向量的长度减少,并且是稠密向量 •将每个单词的向量相加来得到文本的向量表示 2.文本的1维卷积 3.卷积核 卷积核的宽度和词向量的长度相同,行数代表n-grams中的n,即有n...(与前面直接将每个词向量相加得到得到文本向量不同)。...•用3,4,5-gram的卷积核各100个来处理文本,经过卷积池化最终得到一个长度为300的向量 •这个向量可以用于机器学习模型中(MLP、朴素贝叶斯等) •这样解决了处理文本信号时输入长度不一的问题。...最终表示文本的向量的长度只取决于卷积核的个数,而与输入的长度无关。

    1.4K160

    商汤ICCV论文解读:自然场景下文字检测的几何归一化网络(GNNets)

    该文章通过对待处理图像的特征图进行几何变换,从而将待处理图像中几何分布差异较大的文本框归一化到一定的几何分布范围内,提高了自然场景文本检测的效果。...对图像中的文本进行检测和识别,有助于计算机理解视觉内容。由于卷积神经网络(CNN)方法的通用性,自然场景文本检测受益于常规物体检测而快速发展。...但由于自然场景中的文本在实际应用场景中具有较大的几何变化(例如宽高比或文字方向),所以其自身仍存在巨大的挑战。...每个自然场景图片中的文本实例可以通过GNM归一化到一定的几何分布范围内。这样所有训练样本均被归一化为有限的分布,因此可以有效地训练一个共享的文本检测头。...综上所述,文本检测是OCR任务的首要前提,但自然场景下文字的字体变化、悬殊的宽高比、任意角度给检测任务带来巨大的挑战,本文为我们提出了目前研究方向上忽略的点,并提供了一个新颖的解决方法,但是相较于常规物体检测

    74310
    领券