我在一个历史目录中使用了光学字符识别(OCR),并试图用Microsoft来清理文本。具体来说,我需要一些帮助来编写正则表达式,以便将两行合并在一起。例如,某物
John Smith,87银行
Bldg
实际上应该是
John Smith,87 Bldg
我尝试过几种方法,但都没有成功。有人能帮我吗?
我正在尝试制作一个“测验扫描器”,它使用OCR在线扫描测验,这样我就可以自己从在线来源汇编测验,以便能够离线回答它们。我厌倦了复制和粘贴的事情,只使用OCR代替。 我对光学字符识别部分没有问题,因为我现在遇到的问题是,我需要将问题从选择中分离出来,从正确和错误的选择中分离出来。下面是我尝试分离它们的一个过于简化的代码。 我需要将它们分开,因为我想将其导出到excel中的电子表格中。真的需要你的帮助,一如既往的堆栈溢出社区 import re
scannedmcq = 'Insert Question Here @ A(correct) > B > C > D
我是个新手,我正在做一个类项目,在这个项目中我需要扫描数字矩阵。我在从图像文件中读取数字方面取得了成功,但我还没有找到如何识别数字之间的间距。例如,目前我得到的是14610的14610英镑。
图片:
我目前使用的代码:
Bitmap myBmp = new Bitmap(file);
var image = myBmp;
var ocr = new Tesseract();
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); // If digit only
ocr.Init(@