我尝试运行以下代码来提取XML文件中的所有文本:
请注意"word_1_14“-- word.text被发现是非类型的,因此没有打印出来.我发现这是因为文本带有强标记,因此使其不可见。你知道如何找到带有强标签的单词并打印出来吗?
这一行有问题--似乎word _1_14的单词是非类型的,object...which使打印文本变得不可能。
In the Python code:
for word in ocr_word:
In the XML file:
<span class='ocrx_word' id='word_1_14' tit
大家好,我有一个关于C#的OCR Tesseract (tessnet2)的问题,它能找到caractère IVI而不是"M“,你能帮我吗?
tessnet2.Tesseract ocr = new tessnet2.Tesseract();
ocr.SetVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZ"); // If digit only
ocr.Init(@"C:\tresnet", "fra", f
我使用以下代码:
Bitmap image = new Bitmap(Application.StartupPath + "\\" + "1111.jpg");
tessnet2.Tesseract ocr = new tessnet2.Tesseract();
// ocr.SetVariable("tessedit_char_whitelist", "0123456789"); // If digit only
ocr.Init(null, "eng", false); // To use correct te
我使用"tessnet2_64.dll"
这是我的代码,提取文本:
try
{
var image = new Bitmap(@"D:\Tessnet2\C#\test2.jpg");
var ocr = new Tesseract();
// ocr.SetVariable("tessedit_char_whitelist", "0123456789"); // If digit only
我正在编写一个应用程序,我想读取图像并提取文本。为了测试porpuses,我传入了一个有6个字符的图像。这是我的代码。
Bitmap image = new Bitmap("eurotext.tif");
tessnet2.Tesseract ocr = new tessnet2.Tesseract();
ocr.SetVariable("tessedit_char_whitelist", "abcdefghijklmopqrstuvwxyz0123456789"); // If digit only
ocr.Init(null, "en
我是个新手,我正在做一个类项目,在这个项目中我需要扫描数字矩阵。我在从图像文件中读取数字方面取得了成功,但我还没有找到如何识别数字之间的间距。例如,目前我得到的是14610的14610英镑。
图片:
我目前使用的代码:
Bitmap myBmp = new Bitmap(file);
var image = myBmp;
var ocr = new Tesseract();
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); // If digit only
ocr.Init(@
我试着用Tesseract读取图像的文本内容。我使用了下面的代码。
try
{
//long i;
var image = new Bitmap(@"D:\Projects\Project Docs\Oasis\20180405T105834.618.jpeg");
var ocr = new tessnet2.Tesseract();
//ocr.SetVariable("tessedit_char_whitelist", "0123456789");
ocr.Init(@"D:\Projects
我有最新的代码:
Private Sub Button1_Click(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles Button1.Click
Dim Bitmap As New Bitmap("image.png")
Dim ocr As tessnet2.Tesseract = New tessnet2.Tesseract()
ocr.SetVariable("tessedit_char_whitelit", "0123456789
我正在使用tessnet2,如中所描述的。
var image = new Bitmap(@"C:\OCRTest\number.jpg");
var ocr = new Tesseract();
ocr.SetVariable("tessedit_char_whitelist", "0123456789"); // If digit only
//@"C:\OCRTest\tessdata" contains the language package, without this the method crash a
由于这个JSON读取脚本(Microsoft模板代码),我有一个Azure OCR输出:
# Extract the word bounding boxes and text.
line_infos = [region["lines"] for region in analysis["regions"]]
word_infos = []
for line in line_infos:
for word_metadata in line:
for word_info in word_metadata["words"]:
我正在使用tessnet2 (tesseract-ocr)在C#中处理以下图像:
这是我的密码:
var image = new Bitmap(@"D:\anuj\a2.jpg");
ocr.Init(@"D:\anuj\OCRTest\tessdata", "eng", false);
var result = ocr.DoOCR(image, Rectangle.Empty);
foreach (Word word in result)
Console.Write("{0} ", word.Text);
我有一大串简短的短语,例如:
sql server data analysis # SQL is not a common word
bodybuilding # common word
export opml # opml is not a common word
best ocr mac # ocr and mac are not common words
我想检测单词是不是一个不常见的词,不应该是进一步的过程。
我试过用NLTK来做这件事,但是它会产生奇怪的结果:
result = word in nltk.corpus.words.words()
sql = false
iso = t
我使用ResultIterator从图像中获取每个单词,但我的在调用iterator.begin()时出现错误。我也不知道原因。
这是我当前的代码,
//Global
ArrayList<String> words = new ArrayList<String>();
@Override
public void onPreviewFrame(final byte[] data, Camera camera) {
final SurfaceView surfaceView = (SurfaceView) getActivity().findVie
好吧,今天我花了最好的时间让ocr正常工作,它不再崩溃,但是当我给它一个包含文本的文件,而不是仅仅是数字,很多奇怪的文本就会被抽出来……
源代码:
using System;
using System.Collections.Generic;
using System.Drawing;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using tessnet2;
namespace OCRTest
{
class Program
{
static void Main(st
我希望OCR几个JPEG(我可以用iview即时转换)。
我得到了:
Method 'OCR' of object 'IImage' failed
我的代码还不够完美,因为我专注于让.ocr方法正常工作。这些图像是照片,只包含几个字符。我可以使用条形码阅读器,但很难找到免费的。
Public Function OCRtest(strTempImg)
pXname = "ocrTest"
On Error GoTo err_hand
Dim miDoc As Object
Dim miWord
我知道Microsoft Word使用的字体文件位于
C:\Windows\字体
我特别关注字体OCR A Std。我想定位OCR A Std regular字体、bold字体、italic字体和bold italic字体的字体文件。下面是示例字体:
常规
粗体
斜体
粗体斜体
现在,我想找到四个对应的字体文件的上述字体。但是,当我查看C:\Windows\Fonts时,只有名为OCRAStd.otf (OCR A Std Regular)和OCRAEXT.TTF (OCR A Extended)的2字体文件被找到。与其他字体(如Times New Roman )不同,可以找到相
我已经编写了从图像中读取文本的below.Net代码:
用于编写代码的平台: Windows 10、Visual Studio 2015、tesseract-ocr-setup-4.00.00dev和tessnet2
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using tessnet2;
using System.Drawing;
using System.Drawing.Drawing2D;
请不要标记为-ve,它是基本的。嗨,在我的视觉studio2012我正在使用tessnet2库的光学字符识别,但无法编译的代码。我已经看到了,并且已经做好了所有的设置。我还将tessdata文件夹放在了我的.exe目录中。我也安装了Microsoft visual c++ 2008可再发行软件包(包括x86和x64)。我的系统是64位的。我也尝试通过删除x86来只使用x64包。我在我的设置中使用.net4.5。我还在我的项目设置中尝试了其他框架。我还在我的项目设置中尝试了x86orx64或两者。我有这个代码
Bitmap image = new Bitmap("C:\\Users\\A