提高tesseract-ocr中数字识别的准确率

文章/答案/技术大牛

发布

1回答

node.js、discord.js、tesseract

我最近在夏普(一个node.js图像编辑器)的帮助下开始使用tesseract-ocr。在我的算法中，特定的图片应该被sharp调整大小和裁剪，并获得由tesseract-ocr识别的剩余图片的内容。它应该读取图片中的这两个数字，但它所做的只是读取除了这些数字之外的所有内容。]; }) }) 最初的图像被调整大小和裁剪，以便让tesseract集中在图像中</e

浏览 346提问于2020-09-26得票数 0

1回答

如何使用jTessBoxEditor提高文本识别的准确性？

python、ocr、tesseract、python-tesseract、pdf-extraction

我已经将pdf文件转换为jpeg文件(我在下面附上了图像链接)，裁剪具有不同字体的单词和数字，合并为tiff文件，并使用jTessBoxEditor训练字体生成新的语言，我使用该语言在Tesseract-OCR中提取文件中的数据。tesseract-ocr的文本识别准确率很低。

浏览 21提问于2020-08-31得票数 1

1回答

Tesseract-OCR:需要训练所有类型的样本吗？

ocr、tesseract

我了解到tesseract-ocr可以通过训练提高准确性。如果我希望每种类型的名片都有很高的准确率，我需要训练所有类型的名片吗？有数百种类型的名片具有不同的字体或格式。有没有其他方法可以在tesseract-ocr中达到高精度？

浏览 23提问于2016-01-22得票数 0

1回答

有人知道Tesseract - OCR后处理/拼写检查是如何工作的吗？

ocr、tesseract、python-tesseract

我对西班牙语使用tesseract-ocr (pytesseract)，当您将语言设置为西班牙语时，它可以达到非常高的准确率，当然，文本是西班牙语的。所以，我假设tesseract使用了许多后处理模型来进行拼写检查和提高性能，我想知道是否有人知道tesseract正在应用的这些模型中的一些(即编辑距离，噪声通道建模)。提前感谢！

浏览 6提问于2020-01-20得票数 0

1回答

经过训练的Tesseract仍然不够准确

java、tesseract

我正在训练tesseract，以便能够阅读TFT中的商店。所以我正在做的是用24张看起来像this的图片来训练它。File("image.png");instance.setDatapath("D:\\jTessBoxEditor\\tesseract-ocr我应该做些什么来提高准确率？也许可以提高图像的质量？然而，由于它们是经过裁剪的截图，我不知道如何才能提高它们的质量。谢谢你

浏览 191提问于2021-07-07得票数 1

1回答

我正在尝试用tesseract来识别python中的单位数。import cv2 pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCRc tessedit_char_whitelist=0123456789') 它可以毫不犹豫地说这是一个8但它不会将其识别为4我的图片只是数字这只是一个这样的例子，还有其他一些例

浏览 33提问于2020-03-01得票数 0

1回答

标准化(Minmax)给了我比以前更糟糕的结果，在KNN中，后续行动？

machine-learning、pandas、normalization、k-nn

我有很多用MinMaxScaler规范的数字特性，我也得到了一些似乎不会导致下降的分类特性，而使用这种方法，我的准确率下降了近10%。我应该尝试另一种标准化技术吗？我该试试另一种型号吗？还要别的吗？

浏览 0提问于2019-04-22得票数 0

回答已采纳

1回答

如何在tess4j中关闭词典？

java、ocr、tesseract、tess4j

在我的tess4j OCR应用程序中，字符识别的准确率很低。我听说，关闭tess4j中的字典将提高准确性，让个人字符被识别。但我不知道该怎么做。有人知道如何关掉tess4j中的字典吗？

浏览 12提问于2014-10-20得票数 0

4回答

如何在分类机器学习模型中增加真正的正值？

python、machine-learning、statistics、data-science

我是机器学习的新手，我有一个数据集，它有高度不平衡的类(以负类为主)，包含超过2K个数字特征，目标是0,1。我已经训练了一个逻辑回归，虽然我得到了89%的准确率，但从混淆矩阵中，发现模型的正确率非常低。Precision Score : 0.3333333333333333F1 Score : 0.05427974947807933 怎样才能提高我的正确率我尝试了PCA，并将我的数据表示为2个组件，它将模型准确率提高</em

浏览 8提问于2019-09-24得票数 0

3回答

人工神经网络对油漆图像的识别失败

machine-learning、artificial-intelligence、mnist

当我尝试MNIST dataset.But中包含的测试输入时，我得到了91-92%的准确率(这是很高的)如果我给我的绘画图像作为我训练的人工神经网络的输入，它无法识别数字。即使是最清晰的。然而，如果我从互联网上下载一个数字的图像，它识别的准确率很高。所以，我不明白为什么我的ANN So除了画图之外什么都能识别。(MNIST数据集包含在黑色背景上具有白色数字的图像。)

浏览 2提问于2018-07-09得票数 0

1回答

当使用张开的耳朵进行语音识别时，准确率非常低

ios、speech-recognition、openears

在安静的环境中，准确率约为50%，但在嘈杂的环境中，情况会变得更糟。几乎没有任何东西是正确识别的。我目前使用的是一个大约300个单词的字典文件。我应该寻找哪些方面来提高准确性？

浏览 1提问于2011-09-15得票数 10

回答已采纳

2回答

小批量比批量梯度下降性能差吗？

deep-learning、neural-network

在批处理gd中，我能够获得100%的训练和97%的dev/cv准确率。然而，在128号的小批量中，我在这两种情况下的准确率都只有88%左右。训练损失似乎在1.6%左右，并且不会随着任何进一步的迭代而减少，但当我增加批量大小(从而提高精度).And时，它会慢慢减少。最终，为了获得最大精度，我达到了37000的批量大小。我正在训练mnist数字数据集。可能的原因是什么？请帮帮忙

浏览 31提问于2020-07-11得票数 1

1回答

在纪元训练期间，准确性的突然提高表明了我的模型的哪些方面？

python、neural-network、tensorflow2.0、conv-neural-network

我现在正在学习卷积神经网络，并在kaggle数字识别器(MNIST)数据集上进行练习。在训练数据时，我注意到，尽管最初的准确率逐渐提高，但两者之间有一个巨大的跃升，即从0.8984到0.9814。作为一个初学者，我想调查一下我的模型在这次跳跃中到底展示了什么。这是时代的图像：，我用黄色圈出了跳跃。提前感谢！

浏览 2提问于2020-09-26得票数 0

1回答

如何从带有轻微背景的图像中提取文本？

python、opencv、processing、ocr

我想知道我是否可以采取任何额外的步骤来进一步处理图像，以提高此OCR的准确性。我已经研究了一些不同的方法来处理图像和改善OCR结果。这张图片很小，我可以把它稍微放大一下，但没有效果。图像将始终是水平的，除了数字之外，不会显示其他文本。最大数量将增加到55000个。有问题的图像的一个示例： ? 经过图像处理后，我的图像在X和Y轴上放大4倍。并且消除了一些饱和度，尽管这根本不能提高精度。 image = self.iterations) image = cv2.erode(image, kernel, iterations=iter

浏览 8提问于2019-02-06得票数 4

回答已采纳

3回答

Doc2Vec如何处理作为文本数据一部分的数字数据？

machine-learning、text-mining、feature-extraction、word-embeddings

我有包含数字和原始文本的数据，不同的是：三相发电机需要140千伏安。在创建doc2vec向量时，是否考虑到文本中涉及的数字(此处为15,140,70)？或者是否有任何方法来考虑这些数字，以提高准确性？

浏览 0提问于2019-02-20得票数 5

回答已采纳

1回答

7seg检测中的图像增强技术

python、opencv、image-processing、ocr、tesseract

我正在开发一个从7 7Seg中预测数字的系统，我使用的是tesseract OCR引擎和python pytesseract的包装器。我用相机拍照，然后剪切感兴趣的区域，我发现我必须提高我的图像质量，以提高OCR引擎的准确性。我使用了一些图像处理技术(灰度->高斯模糊->阈值)，我得到了一幅安静的好图像，但tesseract仍然无法检测到图像中的数字。destroyAllWindows() cv2.imwrite('enhanced.jpg', imag

浏览 11提问于2022-08-12得票数 1

回答已采纳

1回答

通过培训来获得更好的识别效果。

ocr、tesseract、training-data

由于我只识别序列号，所以我没有使用任何字典改进，每个字符都是独立识别的。也许有人已经在那种领域有过经验了。关于培训助教:我已经用一些图像训练过。

浏览 2提问于2015-06-30得票数 3

1回答

如何在小图像中使用pytesseract提高手写文本的识别率？

python、image-processing、ocr、tesseract

我想使用pytesseract库进行手写文本识别，以读取平均维数为43 * 45像素的图像中的数字字符。以下示例图像：预期结果：1我想从图像中得到一个数字字符。pytesseract.image_to_string("text.jpg", config='--psm 10 --oem 3 -c tessedit_char_whitelist=0123456789')) 但真正的结果是，我得到的准确率不到50%，甚至更低，有些数字</e

浏览 6提问于2020-06-26得票数 4

1回答

语音识别自学习模型和热词的区别?

语音识别

浏览 246提问于2022-06-15

1回答

如何使用Tesseract训练基于Python的OCR，以使用不同的国民身份证进行训练？

python、tesseract

我正在与python合作，使一个OCR系统，从身份证读取，并给出准确的结果从图像，但它没有给我正确的答案，因为有太多的错误字符，tesseract读取。我如何训练tesseract，使其完美地读取ID卡，并为我们提供正确和准确的详细信息，此外，我如何获得.tiff文件并使tesseract为我的项目工作。

浏览 3提问于2018-12-13得票数 6

回答已采纳

点击加载更多