我有一个关于Azure Form Recognizer的手写文本OCR的问题。 在Azure的示例标签工具中添加标签之前,在手写PDF文件上运行OCR时,OCR通常会错误地检测文本。对于其他表单分析和提取技术,通常提供一个选项来输入应该被检测到的文本,以本质上“校正”OCR。对于在示例标签工具(Docker图像)中训练Azure Form Recognizer,我看不到一种覆盖OCR文本并输入正确文本的方法。 有没有一种方法可以自己输入OCR检测不到或检测不正确的文本?
我正在为一个视频游戏创建一个机器人,一切正常(thanks to some stackoverflow members),但是pytesseract响应时间太长了。 我必须每秒读取一个picture of this kind (在编辑后将其转换为黑白,非常快速的过程,不需要时间)。 我要做的是将图片分成9个部分,每行一个,然后为每一行调用pytesseract.image_to_string(img)。 这个过程大约需要3秒,考虑到文本很短,我认为它可以更快。 我注意到进程黑客的磁盘I/O很高,请看下面的屏幕截图:Disk I/O 最后,我觉得以管理员身份执行python脚本会更好一些,但我