前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >[MachineLearning]tesseract使用

[MachineLearning]tesseract使用

作者头像
wOw
发布2018-09-18 14:56:13
发布2018-09-18 14:56:13
1.6K00
代码可运行
举报
文章被收录于专栏:wOw的Android小站wOw的Android小站
运行总次数:0
代码可运行

tesseract 项目

google的一个开源OCR项目,详情读项目README吧。

https://github.com/tesseract-ocr/tesseract

安装方法

https://github.com/tesseract-ocr/tesseract/wiki/Compiling-%E2%80%93-GitInstallation

首先安装相关库

代码语言:javascript
代码运行次数:0
运行
复制
apt-get install autoconf-archive automake g++ libtool libleptonica-dev make pkg-config

然后运行

代码语言:javascript
代码运行次数:0
运行
复制
cd tesseract-ocr
./autogen.sh
./configure
make
sudo make install
sudo ldconfig

在configure过程会报错:

configure: error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package.

查看本地安装的Leptonica发现是1.73版本。查资料发现如下解释,1.74需要下载源码编译。

Tesseract versions and the minimum version of Leptonica required: Tesseract Leptonica Ubuntu 4.00 1.74.2 Must build from source 3.05 1.74.0 Must build from source 3.04 1.71 Ubuntu 16.04 <http://packages.ubuntu.com/xenial/libtesseract3> 3.03 1.70 Ubuntu 14.04 <http://packages.ubuntu.com/trusty/libtesseract3> 3.02 1.69 Ubuntu 12.04 <http://packages.ubuntu.com/precise/libtesseract3> 3.01 1.67

安装leptonica 1.74

代码语言:javascript
代码运行次数:0
运行
复制
wget http://www.leptonica.com/source/leptonica-1.74.4.tar.gz

tar xvf leptonica-1.74.tar.gz
cd leptonica-1.74

./configure
make
sudo make install

成功后继续执行tesseract的安装。

运行tesseract

代码语言:javascript
代码运行次数:0
运行
复制
tesseract digits1.png result -l chi_sim

命令参数:

  • digits1.png 要识别的图片文件
  • result 保存识别结果的文件
  • -l chi_sim 选择识别的文字类别,chi是中文

报错:

代码语言:javascript
代码运行次数:0
运行
复制
Error opening data file /usr/local/share//tessdata/chi_sim.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'chi_sim'
Tesseract couldn't load any languages!
Could not initialize tesseract.

需要设置data路径

代码语言:javascript
代码运行次数:0
运行
复制
export TESSDATA_PREFIX=/usr/local/share/tessdata/

然后从git@github.com:tesseract-ocr/tessdata.git 下载需要语言的data,中文就下载chi开头的文件。把data拷贝到TESSDATA_PREFIX路径下,再执行检测命令即可。

运行结果

代码语言:javascript
代码运行次数:0
运行
复制
0
电 话 18663778972
代码语言:javascript
代码运行次数:0
运行
复制
全 国 朝 号 2012127
代码语言:javascript
代码运行次数:0
运行
复制
&) H: 02 04 12 13 16 26

标 | 标标 _
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018-05-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • tesseract 项目
  • 安装方法
  • 安装leptonica 1.74
  • 运行tesseract
  • 运行结果
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档