python 中文ocr - 腾讯云开发者社区

文章/答案/技术大牛

发布

Python 中文图片OCR

有个需求，需要从一张图片中识别出中文，通过python来实现，这种这么高大上的黑科技我们普通人自然搞不了，去github找了一个似乎能满足需求的开源库-tesseract-ocr： Tesseract的...OCR引擎目前已作为开源项目发布在Google Project，其项目主页在这里查看https://github.com/tesseract-ocr，它支持中文OCR，并提供了一个命令行工具。...笔者的开发环境如下： macosx python 3.6 brew 安装tesseract brew install tesseract 安装python对应的包：pytesseract pip install...如果要识别中文需要下载对应的训练集：https://github.com/tesseract-ocr/tessdata ，下载”chi_sim.traineddata”，然后copy到训练数据集的存放路径...速度比较慢，大家可以拿一张包含中文的图片试验一下。

12.1K3 1

OpenCV Python + Tesseract-OCR轻松实现中文识别

转自|opencv学堂 01 软件版本 - Python3.6.5 - OpenCV-Python 4.x - Tesseract-OCR 5.0.0-alpha.20201127 - Win10 64...安装opencv-python开发包 pip install opencv-python 安装Tesseract-OCR Python SDK支持 pip install pytesseract 下载Tesseract-OCR...然后在环境变量中添加 C:\Program Files\Tesseract-OCR 03 验证与测试安装与配置好OpenCV-Python与Tesseract-OCR之后，需要进一步通过代码验证正确性...中文识别默认情况下Tesseract-OCR不支持中文识别，需要下载中文识别的模型文件，然后放置到安装路径的tessdata目录下： C:\Program Files\Tesseract-OCR\tessdata...其中chi_sim表示中文简体支持，eng表示英文支持！以下图为例： ?

11.3K2 0

您找到你想要的搜索结果了吗？

是的

没有找到

GitHub 项目推荐 | 轻量级中文 OCR

OCR 已经广泛地应用于身份认证、财税报销、文档电子化等场景。项目地址在文末！今天和大家介绍一个超轻量级的中文 OCR 项目，目前这个项目已在 GitHub 上标星 6.7k。...本项目基于 chineseocr 与 psenet 实现中文自然场景文字检测及识别，支持竖排文字识别，支持 ncnn、mnn、tnn 推理 ( dbnet(1.8M) + crnn(2.5M) + anglenet...环境 python3.6 linux/macos/windows web服务启动 cd chineseocr_lite python backend/main.py 如此轻量级的模型，识别效果如何呢，话不多说...，上图：从识别效果上看很不错，项目还提供了 python 代码翻译为各种语言的 Demo 以及基于本项目的一些第三方 Demo。...第三方 Demo 根据本项目，基于 TNN 实现的轻量级中文字符 ocr demo，支持 iOS 和 Android 系统，凭借 TNN 优化的 CPU(ARMv7、ARMv8) 和 GPU(OpenCL

3.6K1 0

cnocr:用来做中文OCR的Python3包，装上就能用！

cnocr是用来做中文OCR的Python 3包。cnocr自带了训练好的识别模型，安装后即可直接使用。 cnocr主要针对的是排版简单的印刷体文字图片，如截图图片，扫描件等。...安装真的很简单 pip install cnocr 请使用Python3 (3.4, 3.5, 3.6以及之后版本应该都行可直接使用的模型 cnocr的ocr模型可以分为两阶段：第一阶段是获得ocr图片的局部编码向量...对于中文识别且识别困难（如文字比较模糊）的场景，建议尝试模型 conv-lite-lstm。...对于简单的中文识别场景，可以使用模型 densenet-lite-lstm 或 densenet-lite-fc ，或者利用自己的训练数据对它们进行精调。...（三）评估模型评估模型的代码依赖一些额外的python包，使用下面命令安装这些额外的包： ?

3.9K3 0

cnocr:用来做中文OCR的Python3包，装上就能用！

3.1K1 0

Python 图片识别 OCR

Python 图片识别 OCR #1 需求识别图片中的信息,如二维码 #2 环境 macOS / Linux Python3.7.6 #3 安装 #3.1 macOS 安装 tesseract //只安装...下载语言包地址 : https://github.com/tesseract-ocr/tessdata 我这里安装的是中文语言包中文语言包 : https://github.com/tesseract-ocr...安装 tesseract-ocr wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip unzip 3.04.zip cd tesseract.../configure make && make install sudo ldconfig 我这里安装的是中文语言包中文语言包 : https://github.com/tesseract-ocr/...python安装pytesseract库 pip install pytesseract pip install Pillow #4.2 Python代码 from PIL import Image

20.5K2 0

OCR-python中使用

imread(imgpath, cv2.IMREAD_ANYCOLOR) # 参数说明 # -l chi_sim -l l是language的缩写 -l 指定识别的语言类型后面跟到chi_sim为中文简体训练数据.../tessdata/chi_sim.traineddata 根据需求写 #--oem 使用LSTM作为OCR引擎枚举值有0，1，2，3 # 0 Legacy engine only

1291 0

Tesseract-OCR识别中文与训练字库实例

关于中文的识别，效果比较好而且开源的应该就是Tesseract-OCR了，所以自己亲身试用一下，分享到博客让有同样兴趣的人少走弯路。文中所用到的身份证图片资源是百度找的，如有侵权可联系我删除。...一、准备工作 1、下载Tesseract-OCR引擎，注意要3.0以上才支持中文哦，按照提示安装就行。 2、下载chi_sim.traindata字库。要有这个才能识别中文。...下好后，放到Tesseract-OCR项目的tessdata文件夹里面。 3、下载jTessBoxEditor，这个是用来训练字库的。以上的几个在百度都能找到下载，就不详细讲了。...四、测试 1、把 normal.traineddata 复制到Tesseract-OCR 安装目录下的tessdata文件夹中 2、识别命令： 1 tesseract mjorcen.normal.exp0

5.9K2 0

GitHub 热榜：文字识别神器，超轻量级中文 OCR！

整理 | AI 科技大本营光学字符识别（OCR）技术已经得到了广泛应用。比如发票上用来识别关键字样，搜题 App 用来识别书本上的试题。...近期，这个叫做 chineseocr_lite 的 OCR 项目开源了，这是一个超轻量级中文 ocr，支持竖排文字识别，支持 ncnn 推理，psenet (8.5M) + crnn (6.3M) +...这个项目基于 chineseocr 与 psenet 实现中文自然场景文字检测及识别，环境是 linux/macos。...和 ocr-lstm 是搬运 chineseocr 的）支持竖排文本识别 ncnn 实现 psenet（未实现核扩展） ncnn 实现 crnn_dense (改变了全连接为 conv1x1)...ncnn 实现 shuuflenev2 角度分类网络 ncnn 实现 ocr 整个流程最近，项目作者对更新了可实现的功能。

3.3K1 0

Python3导入Asprise Ocr

Asprise是一个优秀的OCR软件，下面是Asprise_Python的官网网页 http://asprise.com/ocr/docs/html/asprise-ocr-package-dev-python.html...不过使用以下命令安装asprise之后，发现导入asprise的库会报错，提示找不到OCR模块 pip install asprise_ocr_sdk_python_api 再在命令行中输入asprise_ocr...，依然提示找不到OCR模块。...按照报错信息查找，修改\Lib\site-packages\asprise_ocr_api\__init__.py 文件中的代码为： from .ocr import * from .ocr_app import...好像在ocr_app模块中也有一处导入语句要修改。最终输入asprise_ocr后启动一个demo程序，自动下载了Asprise 的Python动态链接库。

1.1K1 0

【OCR技术】大批量构造中文文字训练集

放假了，终于可以继续可以静下心写一写OCR方面的东西。上次谈到文字的切割，今天打算总结一下我们怎么得到用于训练的文字数据集。...python gen_printed_char.py --out_dir ./dataset --font_dir ....额外的图像增强第三步生成的汉字图像是最基本的数据集，它所做的图像处理仅有旋转这么一项，如果我们想在数据增强上再做多点东西，想必我们最终训练出来的OCR模型的性能会更加优秀。...)<0.25: im = self.add_erode(im) aug_list.append(im) return aug_list 输入指令 python

6.7K6 1

GitHub 热榜：文字识别神器，超轻量级中文 OCR！

3.3K2 0

window10 python 3.6.8 本地 OCR 模块 muggle_ocr 安装实践

模块介绍地址：https://pypi.org/project/muggle-ocr/1.0/#description 其实最主要还是 muggle-ocr-1.0.tar.gz （6.37M）和 tensorflow...tensorflow/stream_executor/cuda/cuda_diagnostics.cc:176] hostname: DESKTOP-9K42C1Q MuggleOCR Session [ocr

2.2K2 0

JAVA使用Tess4J进行ocr识别，并切换中文

long startTime = System.currentTimeMillis(); String imgPath = "/Users/wangjing/Desktop/ocr...ITesseract instance = new Tesseract(); String tessData = "/Users/wangjing/Desktop/ocr...instance.setDatapath(courseFile + "//tessdata"); instance.setLanguage("eng");//chi_sim ：简体中文...原图片 6.2、识别效果七、汉化 7.1、发现左上角仅有的几个汉字没有识别成功；接下来我们要下载汉化包： https://raw.githubusercontent.com/tesseract-ocr.../tessdata/master/chi_sim.traineddata 7.2、然后放到我们 Tess4j/tessdata 目录下；然后程序中语言改为中文：instance.setLanguage(

4.2K2 0

Python开发---试用OCR文字识别API

Python代码如下： # -*- coding:utf-8 -*- import urllib, urllib2, sys import ssl import json import base64...getIdcard' if(access_token==0): return None url = 'https://aip.baidubce.com/rest/2.0/ocr

9.5K3 0

【Python】利用Python调用微信OCR实现图片识别

先上代码 import os import json import time from wechat_ocr.ocr_manager import OcrManager, OCR_MAX_TASK_ID... ocr_manager.SetUsrLibDir(wechat_dir) # 设置ocr识别结果的回调函数 ocr_manager.SetOcrResultCallback(ocr_result_callback...) # 启动ocr服务 ocr_manager.StartWeChatOCR() # 开始识别图片 ocr_manager.DoOCRTask(img_path) ...通过Python对其官方调用逻辑进行完整翻译和封装，使开发者可以用简单的API调用其强大的OCR功能。依赖环境 Windows系统，已安装最新版微信。 Python环境，推荐使用最新版本。...使用方法安装python库 pip install wechat-ocr 设置路径找到wechat.exe的上级目录文件夹。

8311 0

Python下Tesseract Ocr引擎及安装介绍

1、Tesseract介绍 tesseract 是一个google支持的开源ocr项目，其项目地址：https://github.com/tesseract-ocr/tesseract，目前最新的源码可以在这里下载...实际使用tesseract ocr也有两种方式：1- 动态库方式 libtesseract 2 - 执行程序方式 tesseract.exe 由于本人也是python菜鸟一个，所以方式1暂时不会，只好采取方式...（如何灰度处理，在python里可以使用PIL库，先挖个坑，下次写。） 1 D:\python\lnypcg\test>dir 2 驱动器 D 中的卷没有标签。...16 D:\python\lnypcg\test>type output.txt 17 7572 18 19 20 D:\python\lnypcg\test> 总结，tesseract是一个挺不错的...OCR引擎，目前的问题是最新的中文资料相对较少，过时、不准确的信息偏多，把这几天的琢磨的结果分享给大家，希望对大家有所帮助。

3.8K3 0

【Python案例】OCR提取图片中的文字

今天我们使用Python开发一个OCR软件，如下图所示。图片1 安装环境本文基于PaddleOCR搭建本地开发图片提取文字软件，因此需要安装PaddlePaddle环境。...运行以下命令安装:python -m pip install paddlepaddle-gpu -i https://mirror.baidu.com/pypi/simple如果您的机器只有CPU环境，...请运行以下命令安装python -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple1.2 安装PaddleOCR whl...txt in txts: self.text.insertPlainText(txt + "\n") self.loading.hide()4 获取源码关注公众号：Python...也欢迎关注我的公众号：Python学习实战，第一时间获取最新文章。图片

13.8K3 0

实测超轻量中文OCR开源项目，总模型仅17M

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权想要试试中文 OCR？这个项目可以考虑，轻量模型，不需要 GPU 也能跑得动。 ?...如果要说到中文 OCR，像身份证识别、火车票识别都是常规操作，它也可以实现更炫酷的功能，例如翻译笔在书本上滑动一行，自动获取完整的图像，并识别与翻译中文。...目前比较常用的中文 OCR 开源项目是 chineseocr，它基于 YOLO V3 与 CRNN 实现中文自然场景文字检测及识别，目前该项目已经有 2.5K 的 Star 量。...而本文介绍的是另一个新开源的中文 OCR 项目，它基于 chineseocr 做出改进，是一个超轻量级的中文字符识别项目。...依赖环境装好了，python3 app.py 8080 走起！出现以下输出表示网页服务已成功启动。 ?

2.2K4 0

Python 中文编码

现象描述我们用 Python 输出 “Hello, World!”，英文没有问题，但是如果你输出中文字符”你好，世界”就有可能会碰到中文编码问题。...Python 文件中如果未指定编码，在执行过程会出现报错： #!...for details Python中默认的编码格式是 ASCII 格式，在没修改编码格式时无法正确打印汉字，所以在读取中文时会报错。...实例(Python 2.0+) #!/usr/bin/python # -*- coding: UTF-8 -*- print "你好，世界"; 输出结果为：你好，世界 ? 所以如果使用2....+的版本代码中包含中文，就需要在头部指定编码。

2.1K2 0

点击加载更多

Python 中文图片OCR

OpenCV Python + Tesseract-OCR轻松实现中文识别

GitHub 项目推荐 | 轻量级中文 OCR

cnocr:用来做中文OCR的Python3包，装上就能用！

cnocr:用来做中文OCR的Python3包，装上就能用！

Python 图片识别 OCR

OCR-python中使用

Tesseract-OCR识别中文与训练字库实例

GitHub 热榜：文字识别神器，超轻量级中文 OCR！

Python3导入Asprise Ocr

【OCR技术】大批量构造中文文字训练集

GitHub 热榜：文字识别神器，超轻量级中文 OCR！

window10 python 3.6.8 本地 OCR 模块 muggle_ocr 安装实践

JAVA使用Tess4J进行ocr识别，并切换中文

Python开发---试用OCR文字识别API

【Python】利用Python调用微信OCR实现图片识别

Python下Tesseract Ocr引擎及安装介绍

【Python案例】OCR提取图片中的文字

实测超轻量中文OCR开源项目，总模型仅17M

Python 中文编码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐