腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
如何从不可搜索的
pdf
中检测出可搜索的
pdf
?
、
、
、
、
我有一堆
pdf
文件,一些是可搜索的常规
pdf
文件,一些是一些不可搜索的文件的扫描版本。我想
提取
每个
pdf
的
内容
。要
提取
常规的
内容
,我使用
pdf
;要从不可搜索的pdfs中
提取
内容
,我使用
pdf
。然而,我需要区分哪个
pdf
是正常的
pdf
,哪个不是。有没有办法做到这一点?
浏览 4
提问于2015-07-09
得票数 2
1
回答
用Java实现
PDF
内容
验证的自动化解决方案
、
、
我正在做
PDF
内容
验证的POC,这将基本上验证
PDF
文件的
内容
。但我没有找到任何解决办法。我正在寻找的解决办法:
提取
PDF
内容
,并可能将其以某种结构化格式放入 根据预期值验证实际
提取
的
内容
浏览 0
提问于2020-01-28
得票数 1
2
回答
使用Adobe API
提取
PDF
内容
、
、
我正在尝试读取
PDF
文件的
内容
,该文件由多个表组成。使用Java和Adobe API,如果所有单元格都有一行
内容
,我就能够
提取
表格中的
内容
。当单元格有多行时,问题就出现了,这会导致
提取
的
内容
移动到下一行,从而导致与表头不对齐。 有没有什么方法可以从
PDF
中按原样
提取
内容
,同时保持表格格式与在
PDF
中显示的方式相同?我目前正在使用\t转义字符来
提取
数据。
浏览 56
提问于2015-02-11
得票数 2
1
回答
用Ghostscript从ZUGFeRD
PDF
中
提取
xml
、
、
是否有一种方法可以使用Ghostscript
提取
和保存嵌入在
PDF
中的xml文件?
浏览 6
提问于2022-03-21
得票数 0
1
回答
python从列中打开
PDF
urls并将文本数据加载到新列中
、
、
、
URL栏包含web上
PDF
的链接。我想打开每个
pdf
并将
pdf
的
内容
复制到新的列
PDF
data中。我知道一些
PDF
文件可能会很长,在某些情况下,该列中的文本数量可能会很大。例如,在第一行中,我希望将URL '‘的
内容
复制到列
PDF
data中。在第三行中,
PDF
data将包含
PDF
'''‘的
内容
。
浏览 12
提问于2018-02-13
得票数 0
2
回答
如何利用PDFBOX从
pdf
中
提取
对角水印并通过保持对齐来
提取
文本
、
、
、
、
如何使用PDFBox从
PDF
中
提取
对角水印文本? var pdfFile = "test-resources/
pdf
/
pdf
_sample_2.
pdf
"; Writer output =
浏览 6
提问于2021-12-02
得票数 2
1
回答
使用pyPDF读取时不能从
PDF
中获取正确格式的文本
、
我试图使用Python中的pyPDF包读取下面链接上的
PDF
文档。我使用了以下代码来读取
PDF
: import os from pyPdfPdfFileReader filename = os.path.abspath('F:/KG/per/Entr/equity research Text mining tool/HDFC_report.
pdf</e
浏览 3
提问于2015-08-03
得票数 0
回答已采纳
1
回答
使用C#阅读突出显示的文本(突出显示注释)的iTextSharp
、
、
我正在开发一个C# winform应用程序,将
pdf
内容
转换为文本。除了在
pdf
的高亮文本中找到的
内容
之外,所有需要的
内容
都被
提取
。请帮助获取工作样本,以
提取
在
pdf
中发现的突出显示的文本。
浏览 3
提问于2014-04-28
得票数 1
1
回答
用PHP解析
PDF
文档
、
、
、
如何
提取
.
pdf
文件的
内容
,以便使用PHP进行进一步操作?
浏览 1
提问于2010-12-19
得票数 1
回答已采纳
2
回答
在
PDF
中链接文本的编程方法
、
、
、
我正在寻找一些方法来编码一个函数(我在这一点上对任何语言或库开放),以现有的
PDF
文件作为输入,并返回一个修改后的
PDF
文件,将某些单词链接到不同的URL。我知道PHP和ColdFusion都有很好的工具来处理
PDF
,但是我还没能找到任何有效的工具。 我一直在通过Acrobat并手动链接文本来做到这一点,我想知道是否有任何方法可以自动执行这一过程。
浏览 0
提问于2010-01-10
得票数 2
回答已采纳
1
回答
提取
pdf
格式
、
、
、
、
大家好,在一个主要工作是
pdf
编辑的应用程序上工作。因此,我想
提取
整个
pdf
文件的
内容
,并在编辑后创建一个新的
pdf
。现在我需要知道如何
提取
pdf
格式(页眉,页脚,图像,突出显示。,,)提前谢谢。
浏览 3
提问于2011-08-04
得票数 0
1
回答
使用solr中的tika解析图像以及
pdf
中的文本(请求处理程序)
、
、
、
我试图使用solr 6索引
pdf
文件,并希望
提取
和保存图像(如果有)到某个位置。我使用下面的配置,但无法
提取
图像。我已经成功地索引了
pdf
文本
内容
。<?"true" stored="true"/> <field name="date" type="tdates" indexed="true" stored="true"/>
浏览 2
提问于2018-12-12
得票数 1
回答已采纳
1
回答
pdfplumber extract_text函数也可以从表格中
提取
文本。只想
提取
表外的文本
、
、
我有一个包含文本和表格的
pdf
。我想将它们都
提取
出来,但是当我使用extract_text函数时,它也会
提取
表中的
内容
。我只想
提取
表外的文本,并且可以使用extract_tables函数
提取
该表。我测试了一个只包含表格的
pdf
,但仍然使用extract_tables函数
提取
我想要
提取
的表格
内容
。
浏览 232
提问于2021-10-01
得票数 0
1
回答
如何使用
PDF
Box API读取签名
PDF
中的字段值
、
使用DocuSign完成数字签名后,如何使用字段ID/名称(使用
PDF
Box API)读取
PDF
中字段的值?我无法获取经过数字签名的
PDF
的字段I。
浏览 2
提问于2014-10-28
得票数 0
1
回答
如何在Java中从
PDF
文件中
提取
表格数据
、
、
我对从
PDF
文件中
提取
数据有疑问。我有一个
PDF
文件,其中有多个可用的数据表。我想从require表
内容
中
提取
数据。如何使用iText/PDFBox执行此操作?
浏览 2
提问于2018-02-13
得票数 0
1
回答
如何在android中使用itextpdf从马拉蒂、印地语
pdf
文件中
提取
文本
、
、
我使用itextpdf从我的android应用程序中的
pdf
中
提取
文本。对于有英语语言的
pdf
来说,它很好,但是当我试图从marathi或印地语
pdf
中
提取
文本时,它并不是
提取
正确的文本。तीं 请帮助我
提取
适当的
内容
。
浏览 0
提问于2016-12-02
得票数 2
回答已采纳
5
回答
从
PDF
中
提取
所有
内容
、
、
、
寻找从
PDF
文件中
提取
内容
的解决方案(使用控制台工具或库)。 现在我们使用的是开源
pdf
2xml (
提取
文本、图像和链接)和GhostScript (快照和缩
浏览 7
提问于2009-11-12
得票数 8
回答已采纳
3
回答
我有一个包含文件路径的字符串,如何更改路径
我得到的文件名是这样的‘
pdf
/随机性
Pdf
.
pdf
’ 我使用 new_filename = Path(file_name).stem + ".txt" 我这样做是为了将扩展名更改为.txt 现在我想更改'
pdf
/...
浏览 9
提问于2019-06-04
得票数 0
回答已采纳
1
回答
如何
提取
包含CheckBox (X)数据的C#格式
、
、
、
我正在编写
PDF
,主要思想是
提取
pdf
内容
,包括图像、文本以及复选框,至于文本和图像,我
提取
文本
内容
和图像,但我无法
提取
复选框数据。
浏览 24
提问于2022-09-14
得票数 0
1
回答
pdfbox解析
pdf
文件的顺序是什么?(假设页面中有超过1列)
、
、
如果
pdf
文件的一页上有2列,pdfbox是按列还是逐行解析它?
浏览 3
提问于2019-09-12
得票数 0
点击加载更多
相关
资讯
PDF电子发票内容提取EXCEL插件
如何提取PDF文件中的图片内容?
pdf怎么转换成jpg图片?pdf内容提取方法!
如何快速提取pdf文件内容?文件扫描工具推荐
PDF转文本,轻松提取内容实现高效编辑与共享
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券