前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【光学字符识别】OCR 浅述

【光学字符识别】OCR 浅述

原创
作者头像
青橙.
修改于 2023-08-25 09:21:29
修改于 2023-08-25 09:21:29
8730
举报
文章被收录于专栏:橙、橙、

0. 序

文字是信息的重要载体之一。通过书写、印刷、电子设备等方式,文字可以被记录下来并传递给他人。文字也是语言的重要组成部分,人们可以通过文字来表达自己的思想、感情和意图。在信息化时代,文字仍然是最基本、最重要的信息传递方式之一,也有着其不可替代的优势,如:简短明了、方便快捷、易于编辑、可归纳整理等。

光学字符识别(OCR)是一种通过将打字、手写或印刷文本的图像转换为数字化文本的技术,这种数字化的文本可以通过扫描文档、文档照片、场景照片,或者来自图像上叠加的字幕文本来获得。

OCR 广泛应用于数字化印刷纸质数据记录,如护照文件、发票、银行对账单、电子收据、名片、邮件、印刷数据等。这种数字化方法可以提高数据的处理效率和准确性,同时也可以实现电子编辑、搜索、存储、在线显示以及机器处理,如认知计算、机器翻译、(提取的)文本转语音、关键数据和文本挖掘。

早期的OCR系统需要通过训练每个字符的图像来识别每个字符,而且只能处理一种字体。然而,现在已经有了更高级、更准确的OCR系统,它们可以处理多种字体,并支持各种图像文件格式的输入。此外,一些先进的OCR系统能够生成与原始页面非常接近的格式化输出,包括图像、栏目和其他非文本组件。

1. 光学字符识别的发展

最早的 OCR 应用在了帮助视障人群方面,1914 年,Emanuel Goldberg 开发了可以读取字符并将其转换为电报代码机器;几乎同时,Edmund Fournier d'Albe 开发了手持式扫描仪 Optophone ,会输出与特定字母或单次相对应的音调;1929 年德国的 Tausheck 取得光学字符识别的专利。

在1996年《中文OCR的发展现状及其最新技术》一文中,提到了中文OCR识别的困难:

汉字识别的最终目标是趋近人类识字的能力。由于人类识字的机理及过程并不清楚,汉字识别的研究还只能停留在一般模式识别问题的研究上,汉字识别的特别困难在于汉字的类别数量极为巨大,以及汉字字形的剧烈变化,这是其它模式识别问题很少遇到的,而且汉字识别的对象来自实际的文本图像,随机的噪声和干扰更是无所不在、无处不有,处理这些问题利用一般的人工智能符号处理技术也是难以解决的。

同时为早年 OCR 的发展进行了归纳总结,并提出了发展阶段:

  • 1966 年 IBM 公司 Casey 和 Nagy 首次提出了一个识别1000汉字的识别方案。而中国大陆的汉字识别研究工作始于70年代末。
  • 从 70 年代末到 80 年代末期。汉字识别的算法和方案探索,研究人员用如特征点方法、汉字周边特征、脱壳透视分类法、汉字微结构特征、汉字的结构元和外形形态特征等方法为基础研究成功一批汉字识别系统;
  • 从 90 年代初期开始到 90 年代中期,研究成果推向市场,有了实质性的产品;
  • 第三阶段从 90 年代中期开始,致力于中文技术和中文系统性能的提高。

传统 OCR 流程主要分为如下步骤:

  • 预处理。 主要包括对图片的降噪、灰度化、二值化、倾斜校正。
  • 文本区域定位。 将图片中的文本区域定位出来以便后续进行识别。
  • 文字识别。 对单字符提取特征,基于特征利用分类器分类,并基于一定策略进行后优化处理。

在 2005 年《低质量文本图像 OCR 技术的研究》中,提到,传统 OCR 面临一系列问题,包括:

  • 如二值化、灰度化等预处理损失了大量信息;
  • 定位和分割错误,难以处理连笔、断笔的字;
  • 相似字符识别率低;

2. 人工智能环境下的 OCR

随着近年深度学习的不断发展,基于卷积神经网络的 OCR 技术打破了传统 OCR 技术的框架,在识别效率以及准确率上都有了质的飞跃。

通过文字区域检测,字符切割,识别,三个问题结合深度学习进行优化,可以有效提高在部分场景下的识别、拆分正确率。

随着技术的发展,除了逐个字词识别的 OCR,还有了 ICR 和 IWR:

ICR(Ink Character Recognition,墨水字符识别)是一种能够在墨水文字上进行字符识别的技术。相对于OCR,ICR更加注重识别字符的笔画和笔画之间的空间关系,以及字符的书写风格等因素。ICR在实际应用中有着广泛的应用场景,例如手写体文件的识别、数字签名的识别等。

IWR(Image Writer Recognition,图像作者识别)是一种能够对图像作者进行识别的技术。通过分析图像的笔迹特征,IWR可以准确地识别出图像的作者。IWR在一些文件归档、版权保护等方面有着重要的应用价值。

随着 2012 年 Imagenet 竞赛采用深度学习技术的AlexNet夺得冠军,深度学习算法开始应用于图像视频领域。

通过应用卷积神经网络(CNN)、循环神经网络(RNN)和长短期记忆网络(LSTM)等深度学习技术,我们可以实现高效准确的 OCR 定位与识别。这项技术可以自动识别灰度图像中的文字区域,并在整行文字中进行高效准确的识别。与传统的 OCR 技术不同的是,我们的方法可以通过上下文信息来判断形似字,避免了单字识别无法解决的问题。这种新颖的 OCR 技术不仅提高了准确率,而且还能大幅度减少人工干预的需求,使得 OCR 操作更加便捷高效,有以 基于 CRNN 的整行识别技术(CNN+LSTM+

CTC)和联合CTC和Attention机制的整行识别等识别方案让识别准确性、可信程度获得进一步提升。

同时,以往自然环境下的光学字符识别相比于传统的光学字符识别, 自然场景文字图像的前景文字和背景物体的变化很大, 光照情况也相当复杂,检测自然场景图像中的文字更具挑战,随着机器学习算法的引入,这一部分内容变得可信,在《基于深度学习的场景文字检测与识别》中提出的卷积循环神经网络就较好的完成了就吐想到文字序列识别。

3. 特定场景下的字符识别

智能OCR技术不仅可以用于文档识别,还可以应用于广告推荐、UCG图片和视频筛选、医学影像识别和街景路牌识别等场景。OCR技术是一种多分类问题,处理中文时字符集达到20,000类,而英文只有62类。影响OCR效果的因素很多,比如背景复杂度、字体种类、分辨率、语言混合、字体排列和变形等。

以腾讯云提供的文字识别类服务来看,特定场景下的字符识别需求大致有:

通用文字识别 (General OCR)

这种技术使用深度学习,能够识别各种形式的文字,包括通用印刷体、手写体、英文以及表格等。它可以将图片上的文字内容智能转换为可编辑的文本,适用于多种情景,如随手拍摄扫描、将纸质文档电子化、电商广告审核等。

卡证文字识别 (Card OCR)

这项技术专门用于卡证类文档,例如身份证、银行卡、驾驶证等。它同样基于深度学习,可以智能地将卡证上的文字内容转化为结构化文本,适用于用户注册、银行开户、交通出行、政务办事等多种场景。

票据单据识别 (Invoice OCR)

这一技术主要应用于票据,包括增值税发票、火车票、出租车票等。它也能智能地将票据上的文字内容转化为结构化文本,适用于企业票据报销、金融票据识别、快递单据录入等多种情境。

特定场景识别 (Specific Scenario OCR)

这种技术专注于特定场景,如车牌识别、车辆 VIN 码识别和印章识别。它同样可以将图像中的文字内容智能转化为结构化文本,适用于汽车保险理赔、车辆租赁和企业方案管理等行业场景。


除了以上这些场景的 OCR 之外,还延伸出了 OCR 的其他一些应用,如:

智能结构化 (SmartStructure OCR)

这项技术采用深度学习和图像检测技术,可用于提取任何具有固定版式的卡证票据上的结构化文字。它可以预学习智能建立键值对应关系,或由客户自主设置键值对关系定制模板,从而提高信息数据的提取和录入效率。它可用于政府事务办理、特殊票据核销、行业表单定制等多种场景。

智能扫码 (Intelligent Scan,IS)

这项技术包括二维码和条形码识别 API,以及智能扫码 SDK,提供全方位的扫码服务。智能扫码 SDK 还针对不同扫码场景进行了优化,如一图多码和大图小码等。

文本图像增强 (Text Image Enhancement)

这种技术基于计算机视觉技术,用于处理文件类图片,提供切边增强、弯曲矫正、阴影去除、摩尔纹去除、图像提亮等功能。它的目标是帮助客户获取更清晰、更可读的文档图片,从而更好地支持后续的业务流程。

4. OCR 离我们很近

从几十年前的邮编自动识别,到专用 OCR 软件,再到 OCR 集成到了日常使用的设备当中,OCR 离我们越来越近。使用 OCR 相关技术也变得越来越简单。

微信,QQ 等软件已经可以在打开图片的过程中直接选择图片中的文字,苹果设备在拍摄过程中可以实现动态文字识别、翻译等多项工作,在需要输入证卡信息过程中,从以往反复小心地多次核对,到如今的打开摄像头快速识别填入,OCR 已经走进了千家万户,很多时候,使用 OCR,已经成为习以为常的举动,虽然其对世界的影响,不如大语言模型一般带来巨大的震撼,但很多核心是相近的,也终将带来信息化程度更高的社会。

5. 附

参考文献

1郭繁夏,丁晓青.中文OCR的发展现状及其最新技术J.微电脑世界,1996(03):28-30.

2王栋.人工智能OCR技术的应用研究J.电子技术与软件工程,2022(01):122-125.

3.中文OCR综述J.科技与出版,1997(01):23.DOI:10.16510/j.cnki.kjycb.1997.01.016.

4王珂,杨芳,姜杉.光学字符识别综述J.计算机应用研究,2020,37(S2):22-24.

5孙羽菲. 低质量文本图像OCR技术的研究D.中国科学院研究生院(计算技术研究所),2007.

6 Optical character recognitionZ/OL//Wikipedia. (2023-08-24)2023-08-25. https://en.wikipedia.org/w/index.php?title=Optical_character_recognition&oldid=1172052573.

7白翔,杨明锟,石葆光等.基于深度学习的场景文字检测与识别J.中国科学:信息科学,2018,48(05):531-544.

8黄攀. 基于深度学习的自然场景文字识别D.浙江大学,2016.

9王日花.基于深度学习的智能OCR识别关键技术及应用研究J.邮电设计技术,2021(08):20-24.

10 文字识别简介文字识别购买指南文字识别操作指南-腾讯云EB/OL. 2023-08-25. https://cloud.tencent.com/document/product/866.

11 Recognizing Text in ImagesEB/OL//Apple Developer Documentation. 2023-08-25. https://developer.apple.com/documentation/vision/recognizing_text_in_images.

注: 本文部分内容由 AI 辅助整理完成。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
🔍 腾讯云OCR为何物?又是如何助力各行业实现“结构化”升级?
在这个数字化和信息化高速发展的时代,各行各业都在寻求更高效的方式来管理数据。尤其是在文件处理领域,传统的人工方式已经无法满足快速、精确的需求。你有没有想过,电子票据、复杂的发票单据、跨境物流单证,甚至是各种行业的繁琐纸质材料,能不能像数字文本一样,精准读取、提取、分析?答案是:可以!这正是腾讯云智能结构化OCR技术的魅力所在。
bug菌
2024/12/17
3620
🔍 腾讯云OCR为何物?又是如何助力各行业实现“结构化”升级?
【独家】一文读懂文字识别(OCR)
前言 文字识别是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分 本文将以上图为主要线索,简要阐述在文字识别领域中的各个组成部分。 一 ,文字识别简介 计算机文字识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。OCR技术是实现文字高速录入的一项关键技术。 在OCR技术中,印刷体文字识别是开展最早,技术
数据派THU
2018/01/29
24.2K1
深入浅出了解OCR识别票据原理
光学字符识别技术(OCR)目前被广泛利用在手写识别、打印识别及文本图像识别等相关领域。小到文档识别、银行卡身份证识别,大到广告、海报。因为OCR技术的发明,极大简化了我们处理数据的方式。
机器学习AI算法工程
2020/03/26
1.5K0
OCR技术综述
最近入坑研究OCR,看了比较多关于OCR的资料,对OCR的前世今生也有了一个比较清晰的了解。所以想写一篇关于OCR技术的综述,对OCR相关的知识点都好好总结一遍,以加深个人理解。 什么是OCR? OCR英文全称是Optical Character Recognition,中文叫做光学字符识别。它是利用光学技术和计算机技术把印在或写在纸上的文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。文字识别是计算机视觉研究领域的分支之一,而且这个课题已经是比较成熟了,并且在商业中已经有很多落地项目了。比如汉
朱晓霞
2018/04/18
14.6K0
OCR技术综述
【文本检测与识别-白皮书】第二章:文本检测与识别技术发展历程
俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印刷体或手写体文本进行读取识别,转化成计算机和人都能够识读的格式。此间OCR技术是关键一环。OCR技术中,印刷体的文本识别是最成熟的一个,因其开展最早。早在1929年就被欧美国家利用来处理大量的报刊杂志、文件和单据报表等。经过40多年的发展和完善,文本识别技术更加成熟,逐步实现了信息处理的“电子化”。
合合技术团队
2022/09/27
1.5K0
【AI in 美团】深度学习在OCR中的应用
AI(人工智能)技术已经广泛应用于美团的众多业务,从美团App到大众点评App,从外卖到打车出行,从旅游到婚庆亲子,美团数百名最优秀的算法工程师正致力于将AI技术应用于搜索、推荐、广告、风控、智能调度、语音识别、机器人、无人配送等多个领域,帮助美团3.2亿消费者和400多万商户改善服务和体验,帮大家吃得更好,生活更好。
美团技术团队
2018/08/01
2K0
【AI in 美团】深度学习在OCR中的应用
美团的OCR方案介绍
近年来,移动互联、大数据等新技术飞速发展,倒逼传统行业向智能化、移动化的方向转型。随着运营集约化、数字化的逐渐铺开,尤其是以OCR识别、数据挖掘等为代表的人工智能技术逐渐深入业务场景,为用户带来持续的经济效益和品牌效应。图书情报领域作为提升公共服务的一个窗口,面临着新技术带来的冲击,必须加强管理创新,积极打造智能化的图书情报服务平台,满足读者的个性化需求。无论是高校图书馆还是公共图书馆,都需加强人工智能基础能力的建设,并与图书馆内部的信息化系统打通,优化图书馆传统的服务模式,提升读者的借阅体验。
机器学习AI算法工程
2021/10/14
1.8K0
美团的OCR方案介绍
文字识别界的“拍立得”?抛开低效办公,彻底提高你的工作效率
朋友小君是一家创业公司老板,最近这段时间总是抱怨自己公司每天要处理的文件又多又杂,员工工作效率因此被拖慢了不少。
云巴巴
2021/10/09
4K0
文字识别界的“拍立得”?抛开低效办公,彻底提高你的工作效率
【深度学习】OCR文本识别
OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
天天Lotay
2023/04/26
7.7K0
【深度学习】OCR文本识别
深入浅出了解OCR识别票据原理
本文介绍了如何通过光学字符识别(OCR)技术来识别收据中的文本内容,并探讨了在识别过程中可能遇到的文本噪声问题,以及如何解决这些问题。同时,文章还介绍了如何使用CNN和LSTM等深度学习技术来提高文本识别的准确率。
Techeek
2017/12/20
12.6K4
如何让机器读懂图片上的文字?飞桨助您快速了解OCR
OCR(Optical Character Recognition),译为光学字符识别,是指通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
用户1386409
2019/09/09
3K0
如何让机器读懂图片上的文字?飞桨助您快速了解OCR
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
OCR(Optical Character Recognition,光学字符识别)是指对图像进行分析识别处理,获取文字和版面信息的过程,是典型的计算机视觉任务,通常由文本检测和文本识别两个子任务构成。
汀丶人工智能
2023/06/11
3.4K0
深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景
腾讯云文字识别OCR:一种强大的技术
随着科技的不断发展,文字识别技术已经成为了人们生活中不可或缺的一部分。而在众多的文字识别技术中,腾讯云OCR无疑是其中最为出色的之一。OCR技术, 即Optical Character Recognition(光学字符识别),用于识别图像中的文字,常见的有卡证识别、票据识别和通用识别等。OCR具有非常广泛的应用场景。如目前火热的教育场景中拍照搜题和智能作业批改、金融场景中票据识别、办公场景的文档电子化、交通场景中的停车管理等,都用到了OCR的识别能力。
李洋博客
2023/08/17
1K0
腾讯云文字识别OCR:一种强大的技术
玩转OCR | 腾讯云智能结构化OCR推动跨行业高效精准的文档处理与数据提取新时代
在交通、物流、金融、零售等行业,相关票据、表单、文档、合同等各种文件存在版式结构复杂、中英文混排、票据混贴、印刷手写体混合、样式差异化大、英文字段解析难度大等普遍痛点,通用文字识别能力难以满足企业业务对高精度识别要求。
空白诗
2024/12/24
2670
玩转OCR | 腾讯云智能结构化OCR推动跨行业高效精准的文档处理与数据提取新时代
【OCR技术系列一】光学字符识别技术介绍
注:此篇内容主要是综合整理了光学字符识别 和OCR技术系列之一】字符识别技术总览,详情见文末参考文献
闪电gogogo
2018/08/10
6.1K0
OCR技术浅析
本文介绍了OCR(光学字符识别)技术的基本概念、发展历程、主要应用领域,以及基于深度学习的OCR识别框架。与传统OCR相比,基于深度学习的OCR识别框架减少了三个步骤,降低了因误差累积对最终识别结果的影响。
企鹅号小编
2017/12/28
9.6K0
OCR技术浅析
好家伙!仅需1行Python,腾讯云智能OCR让手写发票识别效率飙升!
大家好,这里是程序员晚枫,今天给大家带来一个腾讯云的新功能:智能结构化识别(Pro版)。
程序员晚枫
2024/12/19
5010
好家伙!仅需1行Python,腾讯云智能OCR让手写发票识别效率飙升!
OCR—探寻文字真实的容颜
文字,一种信息记录的图像符号,千年来承载了太多的人类文明印记。OCR,一种自动解读这种图像符号的技术,一直以来都备受关注。尤其在信息时代的今天,数字图像纷繁复杂,如何便捷高效的获取其中的文字信息,更有着重要的时代意义。作为模式识别领域最为经典的研究热点之一,OCR经历了长时间的发展变化,各种新技术、新方法、新应用层出不穷。 OCR技术的过去和现在: OCR(光学字符识别技术),是通过扫描仪或相机等光学输入设备获取纸张上的文字、图片信息,利用各种模式识别算法对文字的形态结构进行分析,形成相应的字符特征描述
腾讯大数据
2018/01/26
8.3K2
01. OCR 文字识别学习路径
由于最近在接触一些OCR的工作,所以本期《晓说AI》和大家分享一下我的一些总结,先从基本的概念讲起。如有错误,还请指正,谢你3千遍。如有疑问,欢迎留言,我会第一时间答复。
Aalto
2019/10/12
13.1K0
01. OCR 文字识别学习路径
Text Scanner 「OCR文字识别工具」帮你识别图片上的文字!
图片中的文字无法识别怎么版?Text Scanner Mac版是一款强大好用的OCR文字识别工具,基于AI领先的深度学习算法,利用光学字符识别技术,将图片上的文字内容,直接转换为可编辑文本!
啾咪啾咪
2022/09/23
30.8K0
推荐阅读
相关推荐
🔍 腾讯云OCR为何物?又是如何助力各行业实现“结构化”升级?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档