腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
带有
图像
的
PDF
文件的
OCR
ocr
、
tesseract
、
apache-tika
我让Tika在
PDF
文件上使用Tesseract,但是如果我给它一个同时具有可搜索文本和
图像
的
PDF
文件,文本是OCRed两次。有什么办法可以避免这种情况吗?即使它要经过两次,一次是笔直的文本,另一次是
图像
。
浏览 4
提问于2020-12-31
得票数 1
回答已采纳
2
回答
如何将
pdf
格式转换为eBook格式
pdf
、
ebooks
是否有方法将
PDF
文档转换为eBook格式,如epub、azw或mobi?我正在寻找一个应用程序,这是快速的转换。我刚试过口径。10分钟后,甚至没有达到2%的转换。所以请不要有口径。CLI是首选。
浏览 0
提问于2013-04-26
得票数 9
回答已采纳
1
回答
如何使用Apache Tika Server从
PDF
中提取内联
图像
并将其保存为文件?
apache-tika
、
tika-server
我在对http://localhost:9998/tika的PUT请求中使用了以下标头"X-Tika-OCRLanguage", "eng""X-Tika-PDFOcrStrategy", "no_
ocr
" 响应
浏览 48
提问于2021-06-02
得票数 0
2
回答
如何向只包含
图像
的
PDF
中添加文本?
pdf
、
ocr
我使用像富士通iX500 ScanSnap扫描仪这样的硬件解决方案进行实时扫描,同时使用Foxit PhantomPDF向
PDF
中的
图像
添加文本。这两种解决方案都带来了不错的
OCR
,但是也有一些缺陷,比如在非文本上出现错误,或者99%的文本在页面上被漏掉,因为页面的角落中有3-4个单词与页面上的所有其他文本一样,它们都是90度旋转的。最先进的
OCR
解决方案是将
图像
转换为可搜索的
PDF
,还是将(隐藏的)文本添加到仅包含
图像
的现有
PDF
中(添加搜索功能)?
浏览 0
提问于2018-05-25
得票数 0
1
回答
如何使用doc取器在
PDF
文件中搜索文本?
pdf
、
search
、
text
我试图在
PDF
文件中找到一些文本,但结果并不准确!举个例子,我有两个
PDF
文件,其中有一个词domiciiado。当我搜索这个单词(domiciliado)时,doc取器只显示一个
PDF
文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个
PDF
文件?
PDF
文件之间有什么区别吗?在一个
PDF
中,我只有文本,而其他
PDF
是文本和
图像
,这是从扫描页面。陷阱是什么? P.S.:这两个
PDF
文件位于同一个目录中。
浏览 0
提问于2016-08-16
得票数 0
回答已采纳
1
回答
将多个
PDF
文件转换为文本(R语言)
r
、
pdf
、
dplyr
、
tesseract
('myfile_1.
pdf
', dpi = 600)cat(text)#import and convert 1st file pngfile_1 <- pdftools::
pdf
_convert('myfile_1.
pdf
', dpi =
浏览 4
提问于2021-07-31
得票数 0
3
回答
将
pdf
的内容读取为字符串
ios
、
swift
、
pdf
如何将
PDF
的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的文本元素。
PDF
来自一个url,我将它加载到一个web视图中并使用NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.
pdf
, encoding: NSUTF8StringEncoding, error: nil) 但是,我认为这是无
浏览 14
提问于2015-08-02
得票数 0
回答已采纳
2
回答
如何在
pdf
文件中复制
图像
中的文本?
pdf
、
images
、
text
我可以使用evince文档查看器使用文本查看
pdf
图像
,但是我不能选择
图像
中的文本来复制和粘贴。如何在
pdf
文件中从
图像
中复制文本?
浏览 0
提问于2014-09-19
得票数 0
1
回答
如何像Chrome浏览器那样使用Python从
PDF
中提取文本?
python
、
pdf
、
text-extraction
我正在尝试从
pdf
文件中提取文本(类似于表单)。目前,我在Chrome上打开文件,选择/复制所有文本,将其粘贴到txt文件中,然后使用Python将其处理为CSV。Chrome让我的数据非常结构化和统一,这样
pdf
的每一页都会产生类似的文本块,让我可以轻松地处理它。我试图直接从
pdf
中提取文本,以将其处理为CSV格式,但由于原始
pdf
的生成方式,我总是得到一些混乱的结果。我尝试过pdfminer和pyPdf2,但当表单在某些字段中缺少值时,结果会变得混乱。
浏览 35
提问于2021-06-16
得票数 0
3
回答
如何使用任何Java库使现有的
PDF
文本可搜索?用
OCR
java
、
ocr
、
pdfbox
如何使用PDFBox将
OCR
应用于
pdf
?如何使
pdf
文本可编程搜索使用pdfbox,我搜索了很多。没有找到任何解决办法。有人能粘贴
OCR
PDFBox的代码吗?
浏览 8
提问于2014-04-04
得票数 0
回答已采纳
1
回答
如何从
PDF
中提取音乐符号?
pdf
、
extract
、
ghostscript
、
music-notation
我试图用另一种内置字体渲染
PDF
格式的音乐符号,但我不知道怎么做。gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=Betlem_
pdf
.txt Betlem.
pdf
iconv.exe -f MAC
浏览 5
提问于2019-07-22
得票数 0
回答已采纳
1
回答
如何区分PHP中的“文本”
PDF
和“
图像
”
PDF
?
php
、
pdf
、
tesseract
、
ghostscript
、
xpdf
我最近建立了一个Linux服务器,可以使用Xpdf的一部分pdftotext命令将基于文本的Xpdf转换为文本,还可以使用gs (Ghostscript)和tesseract命令的组合将基于
图像
的Xpdf当我已经知道
PDF
是基于文本还是基于
图像
时,这两种解决方案都能很好地工作。但是,为了自动化将许多
PDF
转换为文本的过程,我需要能够判断
PDF
是基于文本的还是基于
图像
的,这样我就知道在
PDF
上运行哪一组进程。在PHP中有没有任何方法来分析一个
PDF
并判断
浏览 5
提问于2016-09-23
得票数 1
回答已采纳
2
回答
在WinForm中寻找
OCR
库
c#
、
ocr
、
vb.net
是否有任何免费/付费的
OCR
库能够捕获
PDF
格式的发票数据?需要有一个低的错误率。我们需要对这些数据进行进一步的处理。
浏览 0
提问于2019-06-10
得票数 1
1
回答
使用Python PyPDF2从扫描的
pdf
(
图像
)中提取文本
python
、
python-imaging-library
、
data-extraction
、
pypdf2
我一直在尝试从扫描的
PDF
中提取文本(具有不可选文本的
图像
)。我想要的信息,包含日期,发票编号从
pdf
链接()。from PIL import Imagepage =
pdf
_reader.getPage
浏览 2
提问于2020-05-27
得票数 1
回答已采纳
1
回答
检测景观格式的
图像
,并将其分割成两幅肖像。
bash
、
pdf
、
imagemagick
、
crop
、
imagemagick-convert
我已经扫描了
PDF
格式的文件。这些文件包含一页纵向格式和两页横向格式的页面。 我需要对它们执行
OCR
处理,但我需要使用bash脚本重新格式化它们。我可以用pdfimages从
PDF
中提取
图像
,将它们与img2
pdf
放在一起,用ocrmypdf执行
OCR
处理。但是,我很难用的实用程序来检测它们的方向,如果必要的话,在纵向模式下将它们分割成两幅
图像
。你应该知道,并不是所有的扫描都是相同的大小和肖像和景观
图像
混合在同一个
PDF
中。/
浏览 2
提问于2020-04-20
得票数 1
2
回答
如何以编程方式验证
PDF
文件是否为第一代文件?
pdf
、
verification
要求嵌入的评估
PDF
文件是第一代。我找到了一种产品,可以让人检查
PDF
是否包含文本、
图像
,或者两者都包含:,但出于预算和其他原因,我正在寻找一种自己编程的方法。
浏览 0
提问于2011-07-27
得票数 1
回答已采纳
1
回答
使用python从
PDF
中提取扫描页面
python
、
pdf
我有很多
PDF
文件,基本上是扫描文档,所以每一页都是一个扫描
图像
。我想要执行
OCR
并从这些文件中提取文本。我尝试过pytesseract,但它不直接对
pdf
文件执行
OCR
,因此,作为一项工作,我希望从
PDF
文件中提取images,将它们保存在目录中,然后直接在这些
图像
上使用pytesseract执行
OCR
。在python中有没有从
pdf
文件中提取扫描
图像
的方法?或者有任何方法可以直接对
pdf
文件执行
浏览 1
提问于2018-05-26
得票数 0
回答已采纳
1
回答
pdf
的x,y窗口内的
OCR
pdf
、
ocr
然后我想按顺序打开
pdf
,在文件中查找名字、姓氏和账号,并用由姓氏和文件号组成的文件名保存文件。
浏览 0
提问于2011-01-08
得票数 3
4
回答
一种基于
OCR
的
PDF
文本提取方法
java
、
pdf
、
text-parsing
是否有人尝试过使用
OCR
库和Java从
PDF
中提取文本?你认为什么是最可靠的文本提取库?我见过的大多数方法(tesseract、GOCR)都是C库,需要编写一些JNI代码。
浏览 2
提问于2009-04-22
得票数 6
1
回答
使用Ghostscript将扫描的
PDF
转换为纯文本
pdf
、
tesseract
、
ghostscript
我知道有一种方法可以使用将scannedPDF文档转换为
OCR
'd
PDF
文档,使用以下命令:它使用开源来做到这一点。根据,它可以转换成另一个
PDF
文档,而不仅仅是简单的文本(而tesseract也可以转换成纯文本)。 看起来我遗漏了一些与用法相关的东西
浏览 1
提问于2021-03-04
得票数 0
点击加载更多
相关
资讯
PDF 文件如何批量转为 JPG 图像格式详细操作教程
简单四步就能帮你把常见图像快速批量转为PDF文件
如何批量打印PDF文件?PDF批量打印技巧指南
PDF怎么用OCR来识别文字,这个人工智能OCR工具绝了
两种方法教你批量把 PDF 转换为 JPG 或其它图像格式
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券