我正在开发一个android应用程序,它有一个OCR模块,在花了一些时间找到API来做这件事后,我从互联网上找到了某个API。我已经下载了他们的jar文件并将其导入(com.asprise.ocr.Ocr)到我的项目中。我的目的是使用这个库从我的SD中的图像中提取信息,并将它们显示在我的android应用程序上,但当我运行该项目时,我得到了以下错误:
Error:(137, 35) error: cannot access RenderedImage
class file for java.awt.image.RenderedImage not found
从日志中,它向我提供了错误来自我的代
下面是我的python脚本,用于读取图像上的文本。但它不能正常工作,因为后来的t被理解为+或f.I想知道如何处理这个问题吗?我还附上了我正在尝试读取的文件。
import tesserocr
from PIL import Image
print tesserocr.tesseract_version() # print tesseract-ocr version
print tesserocr.get_languages() # prints tessdata path and list of available languages
image = Image.open('t
我有一个使用正则表达式从文本(format =mm)中提取日期的代码。
备注:文本是在票据图像上使用OCR获取的。因此,预期的日期格式是,但是它可以是任何随机文本,因为它是使用OCR获得的。
import re
date_reg_exp = re.compile('\d{2}[-/.]\d{2}[-/.]\d{4}') #works for mm-dd-yyyy
matches_list=date_reg_exp.findall(test_str)
for match in matches_list2:
print match
如果我有一个字符串'This is a