腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
带有图像的
PDF
文件的
OCR
、
、
我让Tika在
PDF
文件上使用Tesseract,但是如果我给它一个同时具有可搜索文本和图像的
PDF
文件,文本是OCRed两次。有什么办法可以避免这种情况吗?
浏览 4
提问于2020-12-31
得票数 1
回答已采纳
1
回答
如何使用Apache Tika Server从
PDF
中提取内联图像并将其保存为文件?
、
我在对http://localhost:9998/tika的PUT请求中使用了以下标头"
X
-Tika-OCRLanguage", "eng""
X
-Tika-PDFOcrStrategy", &qu
浏览 48
提问于2021-06-02
得票数 0
1
回答
Applescript或Automator:运行Acrobat对
OCR
多个
PDF
文件进行批处理,更多
、
、
、
、
我使用ScanSnap S1500M将所有纸质文档扫描到/
PDF
-S1500M/-我想使用对文本进行
OCR
。我想(每天)自动化这个过程:
浏览 5
提问于2011-08-18
得票数 1
回答已采纳
4
回答
运行反引号/exec()时的PHP路径问题
、
、
即$f = `java -jar /
OCR
/
ocr
.jar /Folder/$path /
ocr
/output.txt`;java -jar /
OCR
/
ocr
.jar /Folder/Sub\ Folder/filetoocr.
pdf
/
浏览 1
提问于2010-04-15
得票数 0
1
回答
检测景观格式的图像,并将其分割成两幅肖像。
、
、
、
、
我已经扫描了
PDF
格式的文件。这些文件包含一页纵向格式和两页横向格式的页面。for i in *.
pdf
; # Créer le fichier
PDF
avec
OCR
ocrmypdf --language fra
浏览 2
提问于2020-04-20
得票数 1
1
回答
从tika-server获取hocr输出
、
、
、
我正在使用对
PDF
文件执行
OCR
操作。在和之后,我尝试使用
X
-Tika-
OCR
... headers配置Tesseract。我使用的curl命令: "http://tika-server:8081/tika" \ -H "Content-Type: application
浏览 5
提问于2020-01-09
得票数 2
回答已采纳
1
回答
运行OCRmyPDF时出现的问题: WinError2和无效版本号
、
、
、
、
(image_path) raw_text_from_
ocr
_
pdf
= get_text_from_
pdf
()/temp_
pdf
_file_name.
pdf
", new_
pdf
_file_name="
pdf
_w_
ocr
.
pdf
"): o
浏览 3
提问于2021-06-14
得票数 1
回答已采纳
1
回答
Python PyMuPDF searchFor方法不起作用
、
、
、
、
我正在使用python中的PyMuPDF库来搜索
PDF
文档中的特定文本,然后将其突出显示。
pdf
_document = fitz.open(
pdf
_path) for i in range(len(page_num)):
PDF
文档图像
浏览 1
提问于2018-12-21
得票数 0
1
回答
为文件管理器上下文菜单编写tesseract
、
、
、
然而,这一次,我使用Dolphin中的tesseract对
OCR
选定的图像文件(S)进行了一个非常简单的循环,它可以在许多其他脚本中工作: for filename in "${@}"; do
浏览 0
提问于2022-02-25
得票数 0
1
回答
在终端中运行命令,并在输出中包含输入名
、
、
、
、
我在Dolphin服务菜单文件中有这一行,该文件包含用于
PDF
处理的许多其他命令:它的优点是提供表单MY_
PDF
_
ocr
.
pdf
的输出文件,从而保留输入文件的名称。为此,我可以用这句话: Exec=konsole --noclose -e ocrmypdf "%u&
浏览 0
提问于2022-11-30
得票数 0
回答已采纳
2
回答
如何修复在Apache Tika for Python中解析的中文
PDF
以正确读取字符?
、
、
、
我有一个下载的
PDF
在中国,我想提取文本从使用提卡+ Python (原始链接到完整的
PDF
可以找到,或提取的样本页面可以找到)。当我运行以下代码时file_data = parser.from_fileÆ Éª £¬ £Ì £® £È £® 我创建
浏览 1
提问于2020-09-07
得票数 0
1
回答
bash -检查字符串变量是否等于表单提要
、
我正在尝试编写一个简单的bash脚本来检查一个
pdf
是否需要
OCR
,它使用的是与Xpdf一起分发的pdftotext可执行文件。如果pdftotext没有输出任何文本,那么
PDF
需要是
OCR
的,问题是,如果一个
PDF
还没有输出,pdftotext就会返回一个表单Feed字符(而不仅仅是一个空字符串)。这是我的密码:
pdf
_txt=$(pdftotext -q -l 5 '/Path/to/
pdf
/test.
pd
浏览 2
提问于2014-07-21
得票数 2
回答已采纳
1
回答
在r中的
pdf
上执行
ocr
时出错
、
、
、
、
在r中的
pdf
上尝试
OCR
,这给了我错误。运行代码后,也会生成"i.txt“文件,但仍然会出现错误。'"D:/Software_for_
PDF
_
OCR
/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/
PDF
_
OCR
_File/test.
pdf
-f 1 -lD:/
PDF
_
OCR
_File/t
浏览 3
提问于2017-09-20
得票数 0
1
回答
Powershell脚本,foreach循环中的2
x
变量
我想使用ocrmypdf.exe,在这里我必须读取
PDF
的网络文件夹,并将其放在子文件夹中。ocrmypdf工作简单: ocrmypdf.exe$source = @(Get-ChildItem -Path '
X
:\
OCR
\*.
pdf
') # <-- here aremy files, filtered for pdfs $destname = "
X
:\
ocr
\done" #destination-folder whe
浏览 1
提问于2022-07-14
得票数 0
3
回答
更改windows批处理中的文件扩展名
、
、
、
到目前为止,我只想将扩展从".
pdf
.
OCR
.
pdf
“更改为".
pdf
”,我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么?
浏览 5
提问于2015-08-27
得票数 1
回答已采纳
1
回答
如何使用python的类型模块?
、
我的代码: source = 'fr'; target = 'en'; tess_lang = 'fr'for dirpath, dirs,()]: ocrmypdf.
ocr
(language =
x
, input_file =
pdf
, output_file =
pdf
.rsplit('', 1)[0]+
浏览 15
提问于2019-12-31
得票数 0
回答已采纳
1
回答
使用Python PyPDF2从扫描的
pdf
(图像)中提取文本
、
、
、
我一直在尝试从扫描的
PDF
中提取文本(具有不可选文本的图像)。我想要的信息,包含日期,发票编号从
pdf
链接()。from PIL import Imagepage =
pdf
_reader.getPage
浏览 2
提问于2020-05-27
得票数 1
回答已采纳
1
回答
命令行有效,但使用output_type="
pdf
“时缺少文本层
最近,我从ocrmypdf 9.0.3/tesseract 4.
x
升级到了ocrmypdf 13.4.1/tesseract 5.1。当使用cremypdf9.
x
或13.
x
时,这在cli上起作用:但是,当我在应用程序中使用API时, ocrmypdf.
ocr
("path/to
浏览 2
提问于2022-03-25
得票数 0
1
回答
更新多个列,使其与另一列相等
、
例如,
OCR
0000000006和
OCR
0000000008都有统一的标题06000146.
pdf
。
OCR
0000000001 Yes 100 06000093.
pdf
OCR
0000000004
OCR
0000000006 No 95
浏览 0
提问于2014-03-22
得票数 0
1
回答
用PHP从
PDF
中解析表格
、
、
所以我在考虑用PHP“导入”(上传和预处理/标准化数据)一个
PDF
标准格式的时间表。我已经尝试了几个库(smalot/pdfparser,gufy/pdftohtml-php,tecnickcom/tc-lib-
pdf
-parser和一些小类)来阅读
PDF
,但我得到的似乎都是简单的文本和至多
X
Y位置和段落内容。我目前正在尝试在a (
x
,y,content)中组织数据,但我真的在寻找一种在HTML / XML中获得类似于表的结构的方法。 将
PDF<
浏览 0
提问于2018-06-19
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PDF怎么用OCR来识别文字,这个人工智能OCR工具绝了
通用 PDF OCR 到 Word API 数据接口
告别「复制+粘贴」,基于深度学习的OCR,实现PDF转文本
对PDF进行ocr文字识别怎么操作?扫描识别软件推荐
[windows] Umi-OCR 免费 · 离线 · 文字识别软件 支持PDF识别 开源
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券