腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
为什么我用魔杖从
pdf
中提取图像jpg,它会在文本上变成黑色背景?
、
、
、
、
我对一些
pdf
文件有问题。我需要将它们转换为jpg图像,使它们可用于
OCR
,但当我转换其中的一些,魔杖
转
我的jpg在那里有一个黑色的背景文本。我看到这是一个关于空间颜色的常见问题。这似乎发生在word转换为
pdf
文件的文件中,其中空间颜色变成了CMYK。Tesseract
OCR
仅接受空间颜色RGB。我已经写了一个可以转换的python脚本,但我想解决这个问题。你能帮我一下吗?原页
pdf
? 已将
pdf
转换为jpg
浏览 51
提问于2019-04-22
得票数 1
回答已采纳
1
回答
在
PDF
中用python执行
OCR
有可能吗?
、
、
、
在
PDF
中用python执行
OCR
有可能吗?我正在尝试构建一个程序,从每一个
PDF
表格中提取一些信息,比如Autodesk BIM360所做的事情。
浏览 6
提问于2022-05-26
得票数 -2
1
回答
Applescript或Automator:运行Acrobat对
OCR
多个
PDF
文件进行批处理,更多
、
、
、
、
我使用ScanSnap S1500M将所有纸质文档扫描到/
PDF
-S1500M/-我想使用对文本进行
OCR
。我想(每天)自动化这个过程: 我应该用自动售货
浏览 5
提问于2011-08-18
得票数 1
回答已采纳
2
回答
如何通过API网关将AWS Lambda中的"
pdf
“和"
html
”文件作为“事件”传递?
、
、
、
我试图将"
pdf
“或"
html
”文件直接传递到lambda函数中。但是我不明白它应该以什么正确的格式接收?我能够理解如何使用以下代码通过lambda函数传递“图像”文件:但是如何发送
pdf
或
html
文件呢?(img): return
ocr
_text def lambda_handler=
ocr
浏览 1
提问于2020-05-06
得票数 0
回答已采纳
2
回答
OCR
将覆盖
HTML
传输到图像?
、
我要找一个
OCR
软件,渲染覆盖
HTML
到一个图像。我目前正在使用一些未命名的产品。它有一个
OCR
功能,可以对带有图像的
PDF
文档进行内联
OCR
。内联
OCR
非常方便,它允许搜索带有图像的
PDF
文档中的文本。也可以直接在文档中突出显示文本,
OCR
文本与底层图像对齐。不幸的是,我无法从未命名的产品中导出或存储内联
OCR
。有没有其他软件可以执行和导出在线
OCR
?我特别感兴趣的是导出到
HTML
中,其中包含与底
浏览 3
提问于2013-05-13
得票数 5
4
回答
运行反引号/exec()时的PHP路径问题
、
、
即$f = `java -jar /
OCR
/
ocr
.jar /Folder/$path /
ocr
/output.txt`;java -jar /
OCR
/
ocr
.jar /Folder/Sub\ Folder/filetoocr.
pdf
/
浏览 1
提问于2010-04-15
得票数 0
2
回答
使用此
OCR
保存代码将djvu转换为
pdf
麻烦
、
、
、
我想在保存
OCR
的同时将djvu转换成
pdf
。这个页面描述了如何做到这一点,但是我得到了一个空白的
html
文件。" content="text/
html
; charset=utf-8" /> <meta文件,所以当我运行 sed 's/ocrx
浏览 0
提问于2013-03-25
得票数 1
1
回答
在修改和部署更新之后,查询非常缓慢。
查询 SELECT dv.id,dv.client_id,b.name block_name,dv.is_
ocr
_pending,dv.time,dv.label,dv.is_
pdf
_broken,dv.is_
pdf
_scan,dv.
ocr
_recall_id,dv.
ocr
_vatno,cv.name
ocr
_vatno_name,dv.
ocr
_vatno_country,dv.
ocr
_is_vatno_verified,dv.
ocr
浏览 0
提问于2019-01-06
得票数 0
回答已采纳
2
回答
CodeIgniter base_url()用于href,getcwd()用于file_exists()
、
在视图中,我希望同时显示一个内联
PDF
-查看器(使用<object src=''></object>)和
OCR
‘’ed输出。控制器中的代码可以概括如下: * Fetch the path to the
pdf
of the document (
OCR
is preferred) $
ocr
_src = ge
浏览 3
提问于2016-10-18
得票数 0
回答已采纳
1
回答
在终端中运行命令,并在输出中包含输入名
、
、
、
、
我在Dolphin服务菜单文件中有这一行,该文件包含用于
PDF
处理的许多其他命令:它的优点是提供表单MY_
PDF
_
ocr
.
pdf
的输出文件,从而保留输入文件的名称。为此,我可以用这句话: Exec=konsole --noclose -e ocrmypdf "%u&
浏览 0
提问于2022-11-30
得票数 0
回答已采纳
1
回答
在r中的
pdf
上执行
ocr
时出错
、
、
、
、
在r中的
pdf
上尝试
OCR
,这给了我错误。运行代码后,也会生成"i.txt“文件,但仍然会出现错误。'"D:/Software_for_
PDF
_
OCR
/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/
PDF
_
OCR
_File/test.
pdf
-f 1 -lD:/
PDF
_
OCR
_File/t
浏览 3
提问于2017-09-20
得票数 0
3
回答
更改windows批处理中的文件扩展名
、
、
、
到目前为止,我只想将扩展从".
pdf
.
OCR
.
pdf
“更改为".
pdf
”,我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么?
浏览 5
提问于2015-08-27
得票数 1
回答已采纳
3
回答
OCR
图形纸
我想把一个扫描过的图形纸笔记本(有手写)的
pdf
格式转换成一个文本文件。谢谢
浏览 6
提问于2009-06-20
得票数 1
1
回答
带有图像的
PDF
文件的
OCR
、
、
我让Tika在
PDF
文件上使用Tesseract,但是如果我给它一个同时具有可搜索文本和图像的
PDF
文件,文本是OCRed两次。有什么办法可以避免这种情况吗?
浏览 4
提问于2020-12-31
得票数 1
回答已采纳
1
回答
用PHP从
PDF
中解析表格
、
、
所以我在考虑用PHP“导入”(上传和预处理/标准化数据)一个
PDF
标准格式的时间表。我已经尝试了几个库(smalot/pdfparser,gufy/pdftohtml-php,tecnickcom/tc-lib-
pdf
-parser和一些小类)来阅读
PDF
,但我得到的似乎都是简单的文本和至多我目前正在尝试在a (x,y,content)中组织数据,但我真的在寻找一种在
HTML
/ XML中获得类似于表的结构的方法。 将
PDF
转换为XLSX会导致时间表中的元
浏览 0
提问于2018-06-19
得票数 0
1
回答
使用Python PyPDF2从扫描的
pdf
(图像)中提取文本
、
、
、
我一直在尝试从扫描的
PDF
中提取文本(具有不可选文本的图像)。我想要的信息,包含日期,发票编号从
pdf
链接()。from PIL import Imagepage =
pdf
_reader.getPage
浏览 2
提问于2020-05-27
得票数 1
回答已采纳
2
回答
Javascript执行onkeyup函数
、
我在
HTML
中有以下输入: <div class="form-group"> <inputonkeyup="checkSIRET(this);" onfocusout="
ocr
_on_fly(true, this, true)" onfocusin="
ocr
_on_fly(false, t
浏览 48
提问于2019-06-05
得票数 1
回答已采纳
1
回答
更新多个列,使其与另一列相等
、
例如,
OCR
0000000006和
OCR
0000000008都有统一的标题06000146.
pdf
。
OCR
0000000001 Yes 100 06000093.
pdf
OCR
0000000004
OCR
0000000006 No 95
浏览 0
提问于2014-03-22
得票数 0
4
回答
从扫描创建copy+pastable
PDF
、
、
我有
PDF
文件,这是从扫描仪创建的。
PDF
只包含图像。
OCR
:从图像中读取文本一页的处理时间不应超过20秒。 命令行和/或API,不需要GUI。
浏览 0
提问于2018-06-05
得票数 1
1
回答
两种输入文件类型同时在GNU并行?
、
、
、
然后它将使用tesseract对每个pgm (第二个输入文件类型)执行
OCR
。 export -f generate_pgm PGM="$1" find .{}; parallel --argsep ,,,
ocr
,,, pgm/*.pgm'
浏览 2
提问于2017-07-25
得票数 1
点击加载更多
相关
资讯
PDF转HTML怎么转?pdf转html格式其实很简单
PDF转HTML怎么转?安利两种PDF转HTML方法
PDF转HTML格式怎么操作?PDF转HTML有什么方法?
python-html转pdf
这三个实用的PDF转HTML方法帮你轻松搞定PDF转HTML怎么转
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券