我正在运行的一些文件实际上是图像,而不是OCR。我想跳过它们,但我不知道该做什么检查。在这些文件上,它仍然“找到”字符串,并进入我的代码中我不希望它处理的部分。ConfirmConversions:=False, Format:=wdOpenFormatAuto)
If ratingString.Find.Fou
我使用tesseract OCR从不同的文档中提取一些文本,然后使用Regex处理提取的文本,以查看它是否与特定的模式匹配。不幸的是,OCR提取在有歧义的字符上会出现常见错误,例如: 5: S、1: I、0: O、2: Z、4: A、8: B等。这些错误是如此常见,以至于替换模糊的字符将与模式完美匹配。有没有一种方法可以通过遵循特定的模式来后处理OCR提取和替换歧义字符(预先提供)?filtering on tesseract confidence level, although not ideal
# so, if a function