首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >OCR -大多数“不同的”或“可识别的”ASCII字符?

OCR -大多数“不同的”或“可识别的”ASCII字符?
EN

Stack Overflow用户
提问于 2009-09-11 18:56:06
回答 2查看 1.6K关注 0票数 1

我正在寻找一种方法来确定最“不同”或“可识别”的N个ASCII字符...例如,如果N= 10,从0x21到0x7E的ASCII集合中最不同的N个字符是什么?显然,字符"X“与"O”(字母)非常不同,但"O“(字母)与"0”(零)非常相似。假设一个受限的OCR字符子集,这样0和字母O将被检测为一个或另一个,并且不必担心它是零还是字母O,那么典型的OCR引擎(例如Tesseract)很容易从质量较差的输入图像中识别出的最不同的N个字符是什么?假设。例如"+“和"t”会被广泛地误认为是另一个。因此,每个输入字符,无论是"+“还是"t”,都只对应其中之一。

谢谢,本

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2009-09-11 19:13:02

不幸的是,我认为这个问题不会有一个唯一的答案。

这将取决于字体:比较0,f,s的不同表示方式,以及风格上的繁荣。

这将取决于字符在被扫描之前受到的伤害类型,一些可能更能抵抗涂抹,另一些则反对剪切,另一些则反对重写。

如果你正在寻找一种最适合打印、扫描和OCRed的表示,那么一维或二维条形码可能会是更好的选择?

票数 4
EN

Stack Overflow用户

发布于 2009-09-11 19:02:20

回答这个问题只有一种方法:测试它。为每个字母创建一组样本,并对每个样本运行OCR。OCR最常正确的字母是最“可辨认的”;OCR最常出错的字母是最“不同”的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/1412693

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档