我是个新手,我正在做一个类项目,在这个项目中我需要扫描数字矩阵。我在从图像文件中读取数字方面取得了成功,但我还没有找到如何识别数字之间的间距。例如,目前我得到的是14610的14610英镑。
图片:
我目前使用的代码:
Bitmap myBmp = new Bitmap(file);
var image = myBmp;
var ocr = new Tesseract();
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); // If digit only
ocr.Init(@
因此,我正在开发一个简单的移动应用程序项目(主要是为了好玩),它使用Android上的OCR库(tesseract)扫描相机图片,对文本进行一些处理,并将其返回给用户。
我想知道的是,是否有人知道以编程(或统计)的方式来判断字符串是实际的单词,还是只是胡说八道。(我现在只针对英语,FYI)
例如,OCR可能会读取图片并返回。
String returned = "The quick brown fox."
或者,它可能会读另一张图片,然后返回。
String returned = "$. _- %/ hj @;+__~"
显然,返回的第一个字符串会产生单词,而第