我是个新手,我正在做一个类项目,在这个项目中我需要扫描数字矩阵。我在从图像文件中读取数字方面取得了成功,但我还没有找到如何识别数字之间的间距。例如,目前我得到的是14610的14610英镑。
图片:
我目前使用的代码:
Bitmap myBmp = new Bitmap(file);
var image = myBmp;
var ocr = new Tesseract();
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); // If digit only
ocr.Init(@
下面是我测试Tesseract性能的非常简单的程序。我得到的结果并不像预期的那样,尽管这张照片质量很高,截图也很清晰(不是一张复杂的彩色图片)。请看我的代码和下面的结果。我不知道我是不是做错了什么事,或者说,魔兽世界的引擎不能处理这个问题?
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.Drawing.Imaging;
using
我已经编写了从图像中读取文本的below.Net代码:
用于编写代码的平台: Windows 10、Visual Studio 2015、tesseract-ocr-setup-4.00.00dev和tessnet2
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using tessnet2;
using System.Drawing;
using System.Drawing.Drawing2D;
我尝试运行以下代码来提取XML文件中的所有文本:
请注意"word_1_14“-- word.text被发现是非类型的,因此没有打印出来.我发现这是因为文本带有强标记,因此使其不可见。你知道如何找到带有强标签的单词并打印出来吗?
这一行有问题--似乎word _1_14的单词是非类型的,object...which使打印文本变得不可能。
In the Python code:
for word in ocr_word:
In the XML file:
<span class='ocrx_word' id='word_1_14' tit
大家好,我有一个关于C#的OCR Tesseract (tessnet2)的问题,它能找到caractère IVI而不是"M“,你能帮我吗?
tessnet2.Tesseract ocr = new tessnet2.Tesseract();
ocr.SetVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZ"); // If digit only
ocr.Init(@"C:\tresnet", "fra", f
我使用以下代码:
Bitmap image = new Bitmap(Application.StartupPath + "\\" + "1111.jpg");
tessnet2.Tesseract ocr = new tessnet2.Tesseract();
// ocr.SetVariable("tessedit_char_whitelist", "0123456789"); // If digit only
ocr.Init(null, "eng", false); // To use correct te
因此,我正在开发一个简单的移动应用程序项目(主要是为了好玩),它使用Android上的OCR库(tesseract)扫描相机图片,对文本进行一些处理,并将其返回给用户。
我想知道的是,是否有人知道以编程(或统计)的方式来判断字符串是实际的单词,还是只是胡说八道。(我现在只针对英语,FYI)
例如,OCR可能会读取图片并返回。
String returned = "The quick brown fox."
或者,它可能会读另一张图片,然后返回。
String returned = "$. _- %/ hj @;+__~"
显然,返回的第一个字符串会产生单词,而第
我使用"tessnet2_64.dll"
这是我的代码,提取文本:
try
{
var image = new Bitmap(@"D:\Tessnet2\C#\test2.jpg");
var ocr = new Tesseract();
// ocr.SetVariable("tessedit_char_whitelist", "0123456789"); // If digit only
我正在编写一个应用程序,我想读取图像并提取文本。为了测试porpuses,我传入了一个有6个字符的图像。这是我的代码。
Bitmap image = new Bitmap("eurotext.tif");
tessnet2.Tesseract ocr = new tessnet2.Tesseract();
ocr.SetVariable("tessedit_char_whitelist", "abcdefghijklmopqrstuvwxyz0123456789"); // If digit only
ocr.Init(null, "en
我试着用Tesseract读取图像的文本内容。我使用了下面的代码。
try
{
//long i;
var image = new Bitmap(@"D:\Projects\Project Docs\Oasis\20180405T105834.618.jpeg");
var ocr = new tessnet2.Tesseract();
//ocr.SetVariable("tessedit_char_whitelist", "0123456789");
ocr.Init(@"D:\Projects
我有最新的代码:
Private Sub Button1_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles Button1.Click
Dim Bitmap As New Bitmap("image.png")
Dim ocr As tessnet2.Tesseract = New tessnet2.Tesseract()
ocr.SetVariable("tessedit_char_whitelit", "0123456789
我想将word文档转换为图像。word文档中的每一页都将转换为图像。我找到了下面的例子,它将ppt文件转换成图像。我发现在php中的文字到图像转换脚本,但它不工作,我没有得到任何输出后,执行页面。我也尝试过用phpword将word文件转换成pdf,然后用imagick获取图片,但是在phpword中我没有得到图片(在word文件中)的数据。我在转换后的pdf文件中只得到了文本。我尝试了这么多方法,但都没有得到任何解决方案。有人能帮我找到任何方法或解决方案吗?
$word = new COM("word.application") or die("ERROR: Unab