我有来自扫描仪的PDF文档。此PDF包含由员工为一天的工作填写和签名的表单。我想在每个表单类型上放置一个条形码或OCR文本的标准区域,以便批量扫描可以根据表单类型以编程方式分解为单独的PDF文档。
我想在微软.net 2.0中做到这一点
如果没有可用的开源命名空间/dll,我可以购买完成任务所需的require or other namespaces/dll。
我正在寻找Java中的OCR (光学字符识别)的示例代码或API名称,使用它我可以从图像文件中提取所有文本。没有比较它与任何图像,我正在做使用下面的代码。
public class OCRTest {
static String STR = "";
public static void main(String[] args) {
OCR l = new OCR(0.70f);
l.loadFontsDirectory(OCRTest.class, new File("fonts"));
l.lo
我们目前正在研究在提交到OCR之前提高图像质量的方法。我们目前使用的OCR引擎是Nuance的Scansoft API (v15)。我们正在研究,但后来决定把目光投向别处。与Lead Tools相关的许可成本实在太高了。首先,我们正在寻找简单的图像增强功能,如:去偏斜,去斑点,去除线条,去除冲孔,锐化等。我们运行的是.NET和Java软件的混合,但java解决方案将是首选。