腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
0
回答
.
net
的
tesseract
OCR
能
处理
pdf
文件
吗
?
、
、
、
我想在png和
pdf
文件
上执行光符识别。我能够获得png
文件
的
Tesseract
3.0.2 .
net
包装器工作,但我找不到任何用于
PDf
files.So
的
类,它是否适用于
pdf
files.If不然后请让我知道扫描
pdf
的
任何其他开源库。我
的
需求是扫描特定圆
的
pdf
格式
的
图表,并为这些圆创建超链接。
浏览 8
提问于2016-12-27
得票数 2
回答已采纳
1
回答
将扫描
的
pdf
转换为R中可搜索
的
pdf
、
我有一个
pdf
,大约50页扫描表。我需要最终把它刮到R中,这样我就可以清理数据并将其导出为.csv。我有使用tabulizer抓取可读
的
pdfs
的
经验,但我以前从未真正使用过扫描pdfs,tabulizer无法读取它们。环顾在线,我所能得到
的
最远就是将扫描
的
pdf
作为一个字符对象读取到R中,但这会使格式发生很大
的
变化,因此表中
的
列都错对齐了,并出现了无序。即使它
的
格式仍然很好,我也不知道如何将字符对象转换成最终
的
df
浏览 5
提问于2022-11-16
得票数 0
1
回答
.
NET
库,用于将文档扫描到可搜索
的
PDF
(带有条形码支持)
、
、
要求:生成可搜索
的
PDF
(
OCR
) 从扫描
文件
中扫描条形码。(可选但很好) .
NET
核心/跨平台支持用于扫描文档
的</
浏览 0
提问于2020-02-03
得票数 1
3
回答
为什么
pdf
2image给我一个空白
的
图像
文件
?
、
、
、
、
我试图使用
Tesseract
OCR
在多个大
pdf
文件
上执行
OCR
(~400-600页)。我不一定要从所有页面中提取文本,但我只想要几页(页码已知)。
PDF
文件
似乎已经在上面执行了某种
OCR
,但这不是一个好工作。0].show()这就是输出应该是什么样子: 我确实认为在
PDF
上进行
的
OCR
在这里引起了一些问题。我不知道怎么绕过它,有人
能
帮忙<em
浏览 10
提问于2021-06-06
得票数 2
2
回答
如何将tiff转换为可搜索
的
pdf
,使用alfresco和tesseact?
、
、
、
、
我希望使用alfresco和
tesseract
OCR
将*.
PDF
文件
转换为可搜索
的
*.
PDF
文件
。
tesseract
版本3.03需要编译,我需要使用源code.Is生成安装程序,还有其他解决方案。也有人
能
帮上忙
吗
?
浏览 2
提问于2014-12-31
得票数 1
回答已采纳
1
回答
不安装
Tesseract
的
Apache Tika
OCR
、
、
、
我正在使用将
PDF
文件
解析为文本。一些
PDF
文件
可以包含扫描文档。Apache使用
Tesseract
将文本识别为图像。但是没有带有
Tesseract
的
jar库,用户应该在操作系统中安装
Tesseract
作为独立
的
应用程序。如果不安装
Tesseract
,我如何使用Apache中
的
Tesseract
?我尝试将
tesseract
文件
夹添加到类路径中,并
浏览 5
提问于2017-09-16
得票数 6
3
回答
Tesseract
批
处理
将图像转换为可搜索
的
PDF
和多个相应
的
文本
文件
、
、
、
我使用
tesseract
批量将图像列表转换为可搜索
的
PDF
以及包含OCRd文本
的
TXT
文件
。
tesseract
infile outfile -l eng myconfig 这给我留下了outfile.
pdf<
浏览 1
提问于2019-08-01
得票数 0
回答已采纳
9
回答
什么是最好
的
,最简单
的
OCR
解决方案?
、
、
我想扫描大量
的
文件
,我已经躺在附近,尽量少麻烦。我想通过简单
的
扫描将它们转换成图像,然后使用
OCR
将它们转换为文本。有一个好
的
OCR
应用程序
的
图形用户界面,将给我一个好
的
结果按下一个按钮?
浏览 0
提问于2010-12-05
得票数 97
回答已采纳
7
回答
如何将
pdf
转换成文本可搜索
的
pdf
?
、
、
我有一些扫描
文件
的
pdf
,我想能够搜索他们。我怎么
能
这么做? 本质上,我必须
OCR
的
pdf
,然后混合提取
的
文本回到一个新
的
pdf
。我成功地尝试了许多不同
的
解决方案(包括在将
OCR
信息添加到
PDF
中中找到
的
解决方案)。pdfocr (这给了我这个问题:https://github.com/gkovacs/pd
浏览 0
提问于2014-05-29
得票数 36
回答已采纳
2
回答
用R做
OCR
、
、
、
、
我一直试图在R内做
OCR
(读取
PDF
数据作为扫描图像)。一直在读到这个@ # convert tif to te
浏览 7
提问于2015-08-13
得票数 14
1
回答
将多个
PDF
文件
转换为文本(R语言)
、
、
、
我正在使用R中
的
"
tesseract
“库将"
PDF
文件
转换为文本”,如下所示:library(
tesseract
) text <-
tesseract
::
ocr
(pngfile)上面的代码运行得很好。::
浏览 4
提问于2021-07-31
得票数 0
2
回答
在WinForm中寻找
OCR
库
、
、
是否有任何免费/付费
的
OCR
库能够捕获
PDF
格式
的
发票数据?需要有一个低
的
错误率。我们需要对这些数据进行进一步
的
处理
。
浏览 0
提问于2019-06-10
得票数 1
1
回答
以编程方式搜索多个
PDF
文档以获得一系列关键字
问题keyword-set-1 = "foo" "bar";和一个
PDF
文件
,其中包含以下文本keyword-set-1
浏览 4
提问于2014-02-15
得票数 0
1
回答
Tesseract
无法加载任何语言
、
将TESSDATA_PREFIX环境变量设置为"tessdata"目录
的
父目录。加载语言'eng‘失败
Tesseract
无法加载任何语言!我无法打开下面的路径来将TESSDATA_PREFIX环境变量设置为"tessdata"目录
的
父目录。
浏览 4
提问于2016-10-26
得票数 3
1
回答
使用openjpeg2运行
tesseract
4.1 -无法生成
pdf
输出
、
、
libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libopenjp2 2.3.1我试图运行,根据我
能
找到
的
文档Can't open
PDF
Warning: Invalid resolution 0Estimating resolution as 275 这需要10秒,并产生
浏览 4
提问于2019-12-17
得票数 0
回答已采纳
3
回答
Tess4j -
Pdf
到Tiff to
tesseract
-“警告:无效
的
分辨率0 dpi。使用70代替。”
、
、
、
我是usig tess4j (
net
.Sourceabet.tess4j:tess4j:4.4.0),并在
pdf
文件
上尝试
OCR
。因此,据我所知,我必须首先将
pdf
转换为tiff或png (有任何建议
吗
?)我所做
的
是:并得到以下警告:对我
的
扫描结果有
浏览 18
提问于2019-10-08
得票数 3
回答已采纳
1
回答
如何使用jTessBoxEditor提高文本识别的准确性?
、
、
、
、
我一直在尝试从扫描
的
pdf
文档中提取数据。我已经将
pdf
文件
转换为jpeg
文件
(我在下面附上了图像链接),裁剪具有不同字体
的
单词和数字,合并为tiff
文件
,并使用jTessBoxEditor训练字体生成新
的
语言,我使用该语言在
Tesseract
-
OCR
中提取
文件
中
的
数据。但我无法提取准确
的
数据。
tesseract
-
ocr
浏览 21
提问于2020-08-31
得票数 1
3
回答
用嵌入式字体从
PDF
文件
中提取文本
、
、
、
、
我有一个
PDF
文件
包含一些表格数据。 最后,我正在尝试一个
OCR
解决方案。我正在使用.tif将
pdf
文件
转换为ImageMagick图像,并通过
tesseract
OCR
处理
这些图像。然而,
OCR
解决方案并不十分精确(大约80%
的
单词匹配)
浏览 2
提问于2012-09-07
得票数 4
回答已采纳
2
回答
php exec()和
tesseract
说“无法打开输入
文件
”
、
、
我使用Ghostscript将
PDF
文件
中
的
图像剥离到jpg中,并运行
Tesseract
保存txt内容,如下所示:shell_exec($exec); putenv("PATH=".
ocr
.txt"); 剥离图像(仅
浏览 4
提问于2012-04-17
得票数 1
回答已采纳
3
回答
如何使用任何Java库使现有的
PDF
文本可搜索?用
OCR
、
、
有java库
吗
?如何使用任何java库生成可搜索
的
文本?开源或付费。 如何使用PDFBox将
OCR
应用于
pdf
?如何使
pdf
文本可编程搜索使用pdfbox,我搜索了很多。没有找到任何解决办法。有人
能
粘贴
OCR
PDFBox
的
代码
吗
?
浏览 8
提问于2014-04-04
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PDF——免费的PDF文件处理工具
DotNetZip:.NET中的强大ZIP文件处理库
一个PDF处理利器的.Net开源项目
OCR中,低置信度的文字能直接裁切下来插入PDF吗?
PDF文件的处理 推荐这个软件
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券