腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何使用doc取器在
PDF
文件中搜索
文本
?
、
、
我试图在
PDF
文件中找到一些
文本
,但结果并不准确!举个例子,我有两个
PDF
文件,其中有一个词domiciiado。当我搜索这个单词(domiciliado)时,doc取器只显示一个
PDF
文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个
PDF
文件?
PDF
文件之间有什么区别吗?在一个
PDF
中,我只有
文本
,而其他
PDF
是
文本
和图像,这是从扫描页面。陷阱是什么? P.S.:这两个
PDF
文件
浏览 0
提问于2016-08-16
得票数 0
回答已采纳
2
回答
Tesseract
OCR
混淆了0到8的斜线
、
、
我曾在终端字体上训练过tesseract,但无论如何,我都无法让它
识别
出0。我正在使用jTessEditor创建培训tif和框。即使在验证时,它也会将所有的0读为8s。我遗漏了什么吗?
浏览 8
提问于2018-10-31
得票数 22
4
回答
哪些工具可以在Mac上将扫描过的纸张文件转换成可搜索的
文本
pdf
?
、
、
、
、
我需要将扫描文档转换为mac上可搜索的
文本
PDF
。它不需要免费,只需要比Acrobat更低的成本。
浏览 0
提问于2015-03-02
得票数 2
回答已采纳
1
回答
如何判断
pdf
文件中隐藏的
文本
层是否来自
OCR
?
我见过一些
pdf
文件后,
OCR
有非常准确的
文本
(无论是在
识别
率,在
文本
对齐图像)。 如果
pdf
文件中隐藏的
文本
层是否来自
OCR
,那么Unix/Linux工具会帮助我知道什么呢?
浏览 0
提问于2014-12-07
得票数 2
1
回答
如何快速从图像中扫描可搜索的
pdf
?
、
、
、
、
我想扫描文件与tesseract框架中的迅速和生成
pdf
文件,可以搜索。 实际上,我使用此代码将图像转换为
文本
,但我希望生成主格式的图片,但格式将随着转换为
文本
而改变,并生成
pdf
文件。
浏览 2
提问于2020-10-13
得票数 0
回答已采纳
4
回答
一种基于
OCR
的
PDF
文本
提取方法
、
、
是否有人尝试过使用
OCR
库和Java从
PDF
中提取
文本
?你认为什么是最可靠的
文本
提取库?我见过的大多数方法(tesseract、GOCR)都是C库,需要编写一些JNI代码。我熟悉pdfbox,它现在是Apache 0.8.x版的孵化器项目,但是它的
文本
提取并不总是准确的。我正在寻找一种更可靠的替代方法。
浏览 2
提问于2009-04-22
得票数 6
3
回答
将
pdf
的内容读取为字符串
、
、
如何将
PDF
的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的
文本
元素。
PDF
来自一个url,我将它加载到一个web视图中并使用NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.
pdf
, encoding: NSUTF8StringEncoding, error: nil)
浏览 14
提问于2015-08-02
得票数 0
回答已采纳
1
回答
是否有任何不基于
OCR
的通用布局分析库或工具?
、
我正在寻找布局分析库或工具(最好是开源的),可以应用于
文本
PDF
,以
识别
主要
文本
内容与侧栏,章节标题,章节标题(甚至可能是具有装饰/阴影和下划线的花哨的标题)等。我遇到了像OCRopus这样的工具,它们使用光学字符
识别
和图像
识别
来
识别
布局。有没有库可以在没有
OCR
的情况下做同样的事情?可以从
文本
PDF
中提取
文本
和图像,并将包含
文本
和图像位置的输入提供给该工具;对于此类文件
浏览 2
提问于2013-05-08
得票数 2
回答已采纳
1
回答
如何在蟒蛇的景观方向上阅读
pdf
?
、
、
、
我有一个
pdf
文件,是在肖像方向,但在一些页面,
文本
是在景观方向。当使用PyPDF2读取上面的页面时,我从extractText()函数获得以下
文本
:Out24:"U ~ 00 w.T.-O.O.O.mó00 woNN p 00 a+ -fl n~n a O ;~ 0 ~^ o a. ~… 下面是我试图提取
文本
的页面示例:
浏览 1
提问于2018-04-03
得票数 0
回答已采纳
1
回答
我想从
OCR
数据中提取表信息。
、
、
、
我想从
OCR
数据中提取表格信息,我有原始
文本
和它的
文本
。我试过pytesseract,但找不到实际的实现。我试过这个: 这种方法对我一点用也没有。我希望从
OCR
数据中获得此表的表格结构,以供进一步处理。
浏览 3
提问于2019-01-20
得票数 0
1
回答
快速检查
PDF
文件上的
OCR
文本
层
、
有没有什么程序可以让我在
PDF
渲染的基础上叠加
PDF
的
文本
(
OCR
)层?如果这可以用程序来完成,那会更方便,如果不能,一些cli命令或脚本也可以工作。
浏览 2
提问于2017-11-18
得票数 1
1
回答
在Tesseract
OCR
中是否有从
PDF
中查找字符串和删除页面的属性?
、
、
、
、
我试图在Tesseract
OCR
中将Image转换成
文本
PDF
。在中间,我需要检查封面页,并从结果中删除。在Tessaract
OCR
中是否可以根据封面的特定属性(封面
文本
匹配)来
识别
封面。或者,我是否需要获取tessetact
OCR
结果的全部输出,并提供我的逻辑来扫描
PDF
和删除封面页。我非常困惑,任何帮助都将不胜感激。
浏览 1
提问于2018-09-20
得票数 0
回答已采纳
1
回答
提取
PDF
中表示为图像的
文本
- itextsharp
、
、
、
我在使用ITextSharp从
PDF
文件中提取
文本
的过程中,我已经成功地提取了我感兴趣的
文本
的一部分,但当我继续我的‘
文本
’提取时,我注意到一些
文本
单词(当我使用itextsharp从整个页面提取整个
文本
时无法获得
文本
因此,简而言之:如何提取包含在
PDF
图像对象中的
文本
?我是否必须提取图像并找到另一种方法将其转换为
文本
?这是一个非常可怕的行星排列对我来说..有人遇到过这个问题吗?
浏览 4
提问于2013-06-07
得票数 2
回答已采纳
1
回答
Acrobat
OCR
识别
的访问
文本
、
、
我有
PDF
文件已经被“
识别
”使用
OCR
文本
识别
->
识别
文本
使用功能在Acrobat。有什么想法吗?
浏览 0
提问于2010-06-25
得票数 0
回答已采纳
1
回答
关于一个好的自由软件/网站将
pdf
转换为EPUB的建议
、
我发现,当我将一个包含大量
文本
的
pdf
文件转换成EPUB格式(例如书籍)时,它们会在同一句话之间被分割成段落,我使用过-量程,Toepub.com和许多在大坏网站上可以找到的网站;-)。
浏览 0
提问于2019-11-14
得票数 0
1
回答
从
PDF
获取数据到php/html/javascript
、
、
我想问一下大家对
pdf
的看法。例如,这张图片,这样您就可以看到我想从
pdf
:输出哪些数据 谢谢
浏览 1
提问于2013-05-08
得票数 0
回答已采纳
1
回答
包含
文本
和图像页面的OCRing
pdf
、
、
我有下面的ubuntu脚本,它检查我的
pdf
是否已经OCRed,如果没有就OCRs,问题是,我有一些混合了
OCR
和非
OCR
的
pdf
。所以,我想在if语句中添加一个条件,如果行数或单词数少于某个数字(例如100行
文本
或1000个单词),则对其进行
OCR
。我对ubuntu完全陌生,我已经添加了几行(粗体)。"$MYFONTS" = '' ] || [ "$MYFONTS" = '[none]' ] **|| [
浏览 2
提问于2019-07-08
得票数 0
3
回答
操作
PDF
文件,Windows Forms C#
、
、
、
我有
pdf
页面,我想打印/保存从C#的windows窗体应用程序,但是我想修改文件之前,在添加一个用户编写的最终评论页面(只有
文本
)。 谁能给我指出一个简单的
pdf
库,它用简单的代码做这件事。
浏览 2
提问于2010-11-08
得票数 1
回答已采纳
1
回答
用c#编程编辑
PDF
(非固定
PDF
)
、
、
、
、
是否可以编辑在C#中不可填充的
PDF
格式 所需经费: 必须编辑以编程方式填写的表格中的
文本
和数据
浏览 6
提问于2012-06-28
得票数 1
1
回答
如何下载谷歌扫描的.
pdf
OCRed?
、
我有一个电子邮件与扫描的.
pdf
附加在我的Gmail帐户。当我点击“查看”,我看到谷歌有OCRed它。当我单击“下载”时,
PDF
是原始的,即不包含OCRed。如何通过谷歌下载内容为.
pdf
的OCRed文件?
浏览 0
提问于2012-11-26
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
告别「复制+粘贴」,基于深度学习的OCR,实现PDF转文本
想让文本识别更“智能”,来数据堂获取这些OCR转写数据!
OCR识别软件,有什么可以ocr识别的软件
pdf识别软件哪些好用?分享超级实用的一款ocr识别软件!
夺得ICDAR OCR竞赛世界第一,360数科文本识别技术分享
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券