腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3231)
视频
沙龙
1
回答
帮助Canon CanoScan LiDE扫描
PDF
文档
、
、
、
当我使用Windows 7中的扫描仪,并将扫描过的书籍页保存为
PDF
格式时,我可以打开
PDF
扫描页面并直接从其中复制文本以粘贴到Google或任何LibreOffice文档。我通过简单的扫描将页面扫描为文本,并将其保存为
PDF
格式。但是在Ubuntu中,当我打开扫描的
PDF
页面时,它会打开OK,但是我不能复制文本。
浏览 0
提问于2014-03-16
得票数 2
回答已采纳
1
回答
关于拆分
PDF
和
OCR
识别
、
、
、
我有很多
pdf
文档,它们都是扫描过的
文字
版本。我需要在
pdf
中拆分一个页面。 例如,如果有1个页面。我需要将一页分成页眉部分,页脚部分,主体部分和侧面部分。我知道Python的
PDF
和
OCR
库,但我找不到任何关于拆分单个页面的内容。 然后,最后希望将
pdf
页面的拆分部分传递给
OCR
,以
识别
字符并将输出
转换
为csv或文本文件。 提前感谢您……
浏览 18
提问于2021-04-20
得票数 0
回答已采纳
1
回答
是否可以使用Google脚本将位于Google中的不可搜索的
PDF
转换
为可搜索的
PDF
?
、
、
、
我想使用Google 将不可搜索的
PDF
转换
成可搜索的
PDF
,其中的文本是覆盖在
PDF
上的。
PDF
位于我的谷歌驱动器,我不想上传文件到另一个网站或下载的文件,以进行
转换
。我没有找到任何显示文本可以被覆盖的资源,类似于Acrobat如何进行
OCR
转换
。那么,是否有可能使用气体进行覆盖呢?我只看到人们
转换
成文本或文档文件。
浏览 1
提问于2019-07-09
得票数 1
回答已采纳
1
回答
使用Python PyPDF2从扫描的
pdf
(图像)中提取文本
、
、
、
我一直在尝试从扫描的
PDF
中提取文本(具有不可选文本的图像)。我想要的信息,包含日期,发票编号从
pdf
链接()。from PIL import Imagepage =
pdf
_reader.getPage
浏览 2
提问于2020-05-27
得票数 1
回答已采纳
2
回答
可将
OCR
文本插入回源
PDF
的
OCR
库
、
是否有库(或可执行文件)可以
OCR
PDF
(通常是通过扫描纸张创建的
PDF
),并将
识别
出的文本重新注入到
PDF
中?很可能是扫描图像背后的隐形
文字
。 最好是开源的。(目标:我有一个巨大的由Lucene索引的
PDF
文件库。如果
PDF
包含文本,Lucene将更容易找到哪些
PDF
是相关的。)
浏览 3
提问于2011-02-28
得票数 2
1
回答
关于一个好的自由软件/网站将
pdf
转换
为EPUB的建议
、
我发现,当我将一个包含大量文本的
pdf
文件
转换
成EPUB格式(例如书籍)时,它们会在同一句话之间被分割成段落,我使用过-量程,Toepub.com和许多在大坏网站上可以找到的网站;-)。我还没有能够完全掌握口径的不同的features.So,任何黑客修复在口径内的
转换
也是非常感谢的。 我的基本问题是
文字
被歪曲了。
浏览 0
提问于2019-11-14
得票数 0
2
回答
Tesseract
OCR
混淆了0到8的斜线
、
、
我曾在终端字体上训练过tesseract,但无论如何,我都无法让它
识别
出0。我正在使用jTessEditor创建培训tif和框。即使在验证时,它也会将所有的0读为8s。我遗漏了什么吗?
浏览 8
提问于2018-10-31
得票数 22
4
回答
一种基于
OCR
的
PDF
文本提取方法
、
、
是否有人尝试过使用
OCR
库和Java从
PDF
中提取文本?你认为什么是最可靠的文本提取库?我见过的大多数方法(tesseract、GOCR)都是C库,需要编写一些JNI代码。
浏览 2
提问于2009-04-22
得票数 6
1
回答
如何在ABBYY ios sdk中配置手写
识别
、
、
、
、
我已经尝试了ABBYY SDK for ios这是非常好的打印文本
转换
,但我不能
识别
手写的
文字
,谁可以帮助我配置
ocr
ABBYY sdk来
识别
手写
浏览 8
提问于2013-07-23
得票数 2
回答已采纳
4
回答
哪些工具可以在Mac上将扫描过的纸张文件
转换
成可搜索的文本
pdf
?
、
、
、
、
我需要将扫描文档
转换
为mac上可搜索的文本
PDF
。它不需要免费,只需要比Acrobat更低的成本。
浏览 0
提问于2015-03-02
得票数 2
回答已采纳
1
回答
在Tesseract
OCR
中是否有从
PDF
中查找字符串和删除页面的属性?
、
、
、
、
我试图在Tesseract
OCR
中将Image
转换
成文本
PDF
。在中间,我需要检查封面页,并从结果中删除。在Tessaract
OCR
中是否可以根据封面的特定属性(封面文本匹配)来
识别
封面。或者,我是否需要获取tessetact
OCR
结果的全部输出,并提供我的逻辑来扫描
PDF
和删除封面页。我非常困惑,任何帮助都将不胜感激。
浏览 1
提问于2018-09-20
得票数 0
回答已采纳
1
回答
从
PDF
中获取树的文件(最好使用Python)
、
、
、
、
我想制作一系列文件,其中包含了这个
PDF
()中的树。文件的名称将是左边对应的树号(t0、t1等)。在这两种方法中的任何
浏览 0
提问于2018-09-20
得票数 0
回答已采纳
1
回答
如何快速从图像中扫描可搜索的
pdf
?
、
、
、
、
我想扫描文件与tesseract框架中的迅速和生成
pdf
文件,可以搜索。 实际上,我使用此代码将图像
转换
为文本,但我希望生成主格式的图片,但格式将随着
转换
为文本而改变,并生成
pdf
文件。
浏览 2
提问于2020-10-13
得票数 0
回答已采纳
3
回答
运行ImageMagick将低质量
pdf
转换
为图像(用于
OCR
)的最佳参数是什么?
、
、
、
、
我有几个低质量的
pdf
。我想使用
OCR
--更准确地说,是用从他们那里获取文本。为此,我使用了first --一个将
pdf
转换
为图像的命令行工具--将这些
pdf
转换
为jpg或png。然而,ImageMagick生成的图像质量非常低,Ocropus几乎无法
识别
任何内容。我想了解处理低质量
pdf
的最佳参数是什么,以便为
OCR
提供尽可能好的质量图像。
浏览 0
提问于2010-09-01
得票数 9
回答已采纳
5
回答
是否有
OCR
无法
识别
的字体?
为此,我将其页面
转换
为图片,并将其添加回
PDF
文件。主要的问题是,任何
OCR
程序都可以恢复整个书面文本,特别是页面将是清晰的(而不是扫描的书),这将提高
OCR
的准确性。那么,有没有
OCR
无法
识别
的字体呢?否则,有没有一种技术可以让我的文档只被人类阅读,而不被
OCR
识别
?(例如,添加特定的背景,等等) 提前谢谢你。
浏览 3
提问于2012-11-13
得票数 4
回答已采纳
2
回答
如何将
pdf
扫描图像
转换
为最适合
ocr
的高分辨率tiff?
、
、
我
转换
pdf
到tiff图像与图像魔术,从500 to到4.6mb的文件大小。convert \pph-psd.tiffTiff图像: 为什么会发生这种情况,以及如何将
pdf
扫描图像
转换
为最适合
ocr
浏览 1
提问于2018-05-16
得票数 0
回答已采纳
3
回答
OCR
图形纸
我想把一个扫描过的图形纸笔记本(有手写)的
pdf
格式
转换
成一个文本文件。谢谢
浏览 6
提问于2009-06-20
得票数 1
1
回答
使用
OCR
读取循环文本
、
、
、
、
我想读物体上的
文字
。但是
OCR
程序不能
识别
它。当我给出小部分的时候,它就能认出。我必须把圆圈文本
转换
成线性文本。我该怎么做?谢谢。
浏览 2
提问于2017-10-09
得票数 7
2
回答
如何使用PHP安装和启动tesseract-
ocr
、
我正在寻找一个光学字符
识别
组件,将图像的
文字
转换
为字符使用php。 我从得到了一个脚本tesseract-
ocr
。如何通过php安装和启动tesseract-
ocr
?
浏览 5
提问于2009-10-06
得票数 2
1
回答
如何在PDFTextExtractor上使用iTextSharp
我想用iTextSharp从
pdf
文件中检索文本。但是,我无法像在itextsharp(itext)的JAVA中那样使用PDFTextExtractor。私有字符串readPDFOffline(string fileUri);检索此
Pdf
的文本内容;*返回contentOfflineFile
浏览 3
提问于2010-12-10
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
对PDF进行ocr文字识别怎么操作?扫描识别软件推荐
[windows] Umi-OCR 免费 · 离线 · 文字识别软件 支持PDF识别 开源
PDF怎么用OCR来识别文字,这个人工智能OCR工具绝了
OCR-文字识别
OCR文字识别工具
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券