Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >怎样用Python提取图片中的文字

怎样用Python提取图片中的文字

作者头像
TalkPython
发布于 2019-05-24 08:41:18
发布于 2019-05-24 08:41:18
16.2K00
代码可运行
举报
文章被收录于专栏:TalkPythonTalkPython
运行总次数:0
代码可运行

点击蓝字关注△ 回复“1024”领取福利大礼包

有时候在爬取数据的时候,需要读取网页中图片中的信息。在读取和处理图像、图像相关的机器学习以及创建图像等任务中,Python一直都是非常出色的语言。有两个库非常流行的库:Pillow和Tesseract。

Pillow 算不上是图像处理功能最全的库,但是它拥有你需要使用的全部功能,除非你 要用 Python 重写一个 Photoshop 或进行更加复杂的研究。它也是一个文档健全且十分易用 的库。

Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术 闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR系统。 除了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何 Unicode 字符。

Tesseract是一个 Python 的命令行工具,不是通过 import语句导入的库。安装之后,要用要用tesseract命令在Python的外面运行

今天使用Tesseract来实现一个提取图片中信息的程序。下面这张图片,就是我们需要读取的对象:

安装过程略过,直接看代码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import subprocess

p = subprocess.Popen(["tesseract", "page.png", "page"], stdout=subprocess.PIPE,stderr=subprocess.PIPE)
p.wait()
f = open("page.txt","r")
print(f.read())
f.close()

运行这个程序,应该会输出图片中的文字信息。但是,当文字出现在彩色封面上时,结果就不那么完美了。你可以用 Pillow 库挑选图片进行清理,但是如果想把文字加工成普通人可以看懂的效果,还需要花很多时间去处理。这是只是一个简单的实例。

如果觉得内容还不错,分享给更多朋友,一起提升编程技能。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-04-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 TalkPython 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
四行Python代码,你也能从图片上识别文字!
图像识别、文字识别,这些都是现在比较火的东西,现在大部分的AI都有在做这些东西,那我们就过来了解一下吧!
我被狗咬了
2019/09/23
2.3K0
四行Python代码,你也能从图片上识别文字!
Python:处理一些格式规范的文字
你要处理的大多数文字都是比较干净、格式规范的。格式规范的文字通常可以满足一些需求,不过究竟什么是“格式混乱”,什么算“格式规范”,确实因人而异。 通常,格式规范的文字具有以下特点:
Lansonli
2021/10/09
7830
Python中的文字识别利器:pytesseract库
在数据处理和计算机视觉领域,光学字符识别(OCR)是一项非常有用的技术。它可以将图片中的文字提取出来,让我们更方便地进行信息处理。
南山竹
2024/11/07
1.6K0
Python中的文字识别利器:pytesseract库
python下调用pytesseract识别某网站验证码
pytesseract最新版本0.1.6,网址:https://pypi.python.org/pypi/pytesseract
黯然销魂掌
2018/09/27
1.7K0
Python:机器视觉与Tesseract介绍
从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广 泛且具有深远的影响和雄伟的愿景的领域。
Lansonli
2021/10/09
1.1K0
python图片文本识别的简单实现
http://blog.sina.com.cn/s/blog_628cc2b70101cjvp.html
py3study
2020/01/09
2.9K0
OCR提取图片中的文字
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
生信交流平台
2020/08/06
17.8K0
OCR提取图片中的文字
Python 中文图片OCR
有个需求,需要从一张图片中识别出中文,通过python来实现,这种这么高大上的黑科技我们普通人自然搞不了,去github找了一个似乎能满足需求的开源库-tesseract-ocr: Tesseract的OCR引擎目前已作为开源项目发布在Google Project,其项目主页在这里查看https://github.com/tesseract-ocr, 它支持中文OCR,并提供了一个命令行工具。python中对应的包是pytesseract. 通过这个工具我们可以识别图片上的文字。 笔者的开发环境如下: ma
巫山老妖
2018/07/20
11.5K1
Python_识别弱图片验证码
图片验证码采用加干扰线、字符粘连、字符扭曲方式来增强识别难度,对于以上类型的验证码均不支持。 支持的弱验证码如下:
Java架构师必看
2021/03/22
7970
Python_识别弱图片验证码
提取图片内容的 Python 程序
要编写一个提取图片内容的 Python 程序,可以使用 OCR(光学字符识别)技术。常用的库是 pytesseract,它结合了 Tesseract OCR 引擎。本次需求是使用python程序读取指定文件夹中的图片,提取图片中的文字内容,并且将提取的内容生成txt档案,txt档案与识别的图片单独放在一个文件夹中。由于图片中的内容是中文,还需要下载安装chi_sim.traineddata文件
易辰君
2024/11/07
3700
Python Subprocess库详解
Subprocess库是Python中用于创建和管理子进程的标准库。它提供了一个强大而灵活的接口,使得你可以在Python中启动新的进程、连接它们的输入和输出,并与它们进行交互。本教程将介绍Subprocess库的基本概念、用法和一些常见的应用场景。
Michel_Rolle
2024/02/04
2.8K0
Python实现PD文字识别、提取并写入CSV文件脚本分享
扫描件一直受大众青睐,任何纸质资料在扫描之后进行存档,想使用时手机就能打开,省心省力。但是扫描件的优点也恰恰造成了它的一个缺点,因为是通过电子设备扫描,所以出来的是图像,如果想要处理文件上的内容,直接操作是无法实现的。
老表
2022/04/07
3.4K0
Python实现PD文字识别、提取并写入CSV文件脚本分享
自动提取图片中文字内容,这个开源免费软件送给你 | PA实战资源
前面的文章《3分钟读取、汇总300个pdf文件内容!多简单!多快!| PA实战应用》里,讲了使用Power Automate Destkop直接提取PDF文件内容的操作方式,但有朋友问,是否可以提取图片转成的PDF内容:
大海Power
2021/11/08
5.8K0
【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码
在日常办公或者学习中,往往存在这样一个工作场景,比如,“老王,我这里有一张图片,你把里面的文字信息给我整理出来”,都2021年了,你真的还在手敲图片文字信息么?那么还不赶紧收藏这篇秘籍,这里本渣渣总结了三种方法,教你如何将图片上的文字信息提取出来,图片转成文字信息的方法。
二爷
2021/01/25
5.7K0
【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码
Python学习之进程和并发
从Python2.4 以后,subprocess模块负责衍生出新的进程,和标准输入,标准输出,标准错误输出交互,并监听返回值。Subprocess模块是用来取代一些老的模块,例如os.system, os.spawn, os.popen和popen2
py3study
2020/01/08
8170
Python使用OCR技术识别图片中的文字(入门篇)
首先下载并安装tesseract-ocr软件,然后使用pip install pytesseract和pip install pillow安装扩展库。 接下来准备一个图片,里面写点文字,例如: 测试代
Python小屋屋主
2018/04/16
6.5K0
Python使用OCR技术识别图片中的文字(入门篇)
python 技术篇-3行代码搞定图像文字识别,pytesseract库实现
我们需要 pillow 和 pytesseract 这两个库,pip install 安装就好。 还需要安装 Tesseract-OCR.exe 然后配置下就好了。 具体的环境配置方法请看 python 技术篇-使用pytesseract库进行图像识别之环境配置
小蓝枣
2020/09/23
1.7K0
使出Python的六脉神剑,让Python拥有无限扩展性
为了让更多的人看到本文,请各位读者动动小手,点击右上角【...】,将本文分享到朋友圈,thanks!
蒙娜丽宁
2020/11/05
6840
如何绕过Captcha并使用OCR技术抓取数据
在现代的网页数据抓取中,Captcha(全自动区分计算机和人类的图灵测试)作为一种防止爬虫和恶意访问的有效措施,广泛应用于各种网站。Captcha的主要目的是区分用户是人类还是程序,因此对于爬虫技术来说,它是一种极具挑战性的障碍。为了绕过Captcha,我们可以借助OCR(Optical Character Recognition,光学字符识别)技术,从图片中识别出字符,并结合代理IP技术提高爬虫的隐蔽性,减少被封禁的风险。本文将介绍如何使用OCR技术绕过Captcha,并通过示例展示如何实现这一过程。
jackcode
2024/11/13
2130
如何绕过Captcha并使用OCR技术抓取数据
神器!使用Python 轻松识别验证码
在我们进行自动化测试的过程中,免不了要在登录时遇到验证码,很多时候我们都是只能找开发要万能验证码或者暂时关闭验证码这个功能,但是有时候我们必须要验证码是否能够正常生成,所以在这个时候,我们需要做的就是输入验证码,但是验证码这个东西是随机生成的,不是每一次都一样,所以我们还是需要识别然后输入,脚本是没有眼睛的,只能通过代码来进行识别,所以本文就来给大家介绍一下如何使用Python来轻松识别数字验证码。
霍格沃兹测试开发Muller老师
2024/05/12
5290
相关推荐
四行Python代码,你也能从图片上识别文字!
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验