我正在寻找一种方法来确定最“不同”或“可识别”的N个ASCII字符...例如,如果N= 10,从0x21到0x7E的ASCII集合中最不同的N个字符是什么?显然,字符"X“与"O”(字母)非常不同,但"O“(字母)与"0”(零)非常相似。假设一个受限的OCR字符子集,这样0和字母O将被检测为一个或另一个,并且不必担心它是零还是字母O,那么典型的OCR引擎(例如Tesseract)很容易从质量较差的输入图像中识别出的最不同的N个字符是什么?假设。例如"+“和"t”会被广泛地误认为是另一个。因此,每个输入字符,无论是"+“还是"t”,都只对应其中之一。
谢谢,本
发布于 2009-09-11 19:13:02
不幸的是,我认为这个问题不会有一个唯一的答案。
这将取决于字体:比较0,f,s的不同表示方式,以及风格上的繁荣。
这将取决于字符在被扫描之前受到的伤害类型,一些可能更能抵抗涂抹,另一些则反对剪切,另一些则反对重写。
如果你正在寻找一种最适合打印、扫描和OCRed的表示,那么一维或二维条形码可能会是更好的选择?
发布于 2009-09-11 19:02:20
回答这个问题只有一种方法:测试它。为每个字母创建一组样本,并对每个样本运行OCR。OCR最常正确的字母是最“可辨认的”;OCR最常出错的字母是最“不同”的。
https://stackoverflow.com/questions/1412693
复制相似问题