腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(7232)
视频
沙龙
1
回答
PDFBox
getText
未
返回
所有
可见
文本
、
、
我使用
PDFBox
从我的PDF文档中提取
文本
。它检索
文本
,但不是全部(具体而言,似乎缺少标题/页眉和页脚
文本
)。缺少的部分不是图像,而是在使用foxit阅读器中的
文本
视图时提取出来的。我使用的是1.8.12版本,并用2.0.2做了一个测试用例,看看它是否会
返回
更多的内容。PDFTextStripper(); strip
浏览 6
提问于2016-08-16
得票数 0
回答已采纳
1
回答
如何使用
PDFBox
java从PDF中识别和删除隐藏的
文本
我使用
pdfbox
库读取PDF中的
文本
,并将其保存在
文本
文件中。它也读取隐藏的
文本
,这是不
可见
的PDF是通过PDF阅读器查看。我的要求是获得这些隐藏
文本
的一些特征,以区别于正常
文本
。
浏览 0
提问于2020-09-17
得票数 2
回答已采纳
1
回答
从PDF复制和粘贴
文本
时,方块/点/空白作为输出
、
我正在尝试从PDF中提取
文本
。首先,我尝试了
PDFBox
。在输出中,我发现部分
文本
丢失了,在eclipse控制台上,我得到了以下警告我想知道以上警告意味着什么。对于同样的PDF,当我手动复制和粘贴PDF
文本
时,我得到了正方形或圆点形状,我想知道为什么会发生这种情况。请解释一下。
浏览 4
提问于2016-09-19
得票数 0
1
回答
使用.NET版本的
PDFBox
:
PDFBox
.NET-1.8.9解析PDF中的注释/注释
、
、
我使用下面的代码来使用.NET版本的
PDFBox
解析PDF中的
文本
。Imports org.apache.
pdfbox
.pdmodel Dim stripper As New PDFTextStripper() Return stripper.
getText
doc IsNot
浏览 0
提问于2018-09-03
得票数 1
回答已采纳
1
回答
maven-plugin构建
pdfbox
程序的结果与正常的NetBeans运行结果不同。
、
、
、
this.document.close(); }因此,基本方法load()从字节数组加载pdf文档,方法extractText()将从PDF中提取的
文本
作为字节数组
返回
当我从NetBeans Run按钮运行程序时,它可以工作,但是当我在用maven-Run插件构建的单个jar上运行它时,
返回
的
文本
是错误的字符编码。所以问题是PDF框以两种不同的格式
返回
文本
..。 如何控制/设置
浏览 5
提问于2013-02-02
得票数 0
回答已采纳
1
回答
使用
PDFBox
和VB.NET通过
文本
检测粗体、意大利语和敲击
、
在用
PDFBox
提取PDF时,是否存在保留
文本
格式的方法? stripper.setSortByPos
浏览 0
提问于2016-10-10
得票数 1
5
回答
一个Java库,用于从保留空格和行的PDF文档中提取
文本
、
、
使用它,我可以将PDF文档的
文本
提取为字符串,并且还可以保留原始文档中的
所有
空行和空格(就像它们在pdf文档中出现的那样)?我现在使用的是
PDFBox
-0.7.3库中的PDFTextStripper类,我还使用了
getText
()方法,该方法确实将文档作为字符串
返回
,但是它也删除了
所有
空行、制表符和
文本
之间的空格。这是
getText
()的默认行为,似乎不可能让它工作以保留
文本
的空段(我在API中找不到任何用于此目的的方法)。 谢谢你的
浏览 3
提问于2009-10-22
得票数 2
1
回答
来自两行的字母互换,Adobe Reader可以完成此工作
、
我有一个关于
pdfbox
1.8.13的问题。我正在试着从一个单页PDF文档中读取整个
文本
。Adobe Reader可以做到这一点,
pdfbox
可以读取几乎整个页面,但会将文档的前两行和最后两行打乱,以便字母互换。Prinzregentenstr.
浏览 3
提问于2017-08-08
得票数 1
回答已采纳
2
回答
如何使用
pdfbox
获取PDF表单
文本
域的内容?
、
、
我使用它通过org.apache.
pdfbox
获取PDF文件的
文本
。 if (!PDFTextStripper(); parsedText = pdfStripper.
getText
现在,我有了一个PDF表单,其中包含可编辑的
文本
字段。我的代码不
返回
字段中的
文本
。我想要得到那条短信。有没
浏览 35
提问于2014-12-04
得票数 4
1
回答
使用
PDFBox
搜索单词的程序
、
、
我想做一个程序,在一个pdf中使用
PDFBox
搜索单词。INIT.pdf"); String content = s.
getText
,words);//methode for searching those words on my text但是有没有可能用
getText
直接查看PDF而不查看<
浏览 2
提问于2013-05-13
得票数 0
1
回答
如何使用
pdfbox
获得pdf的最大fontsize
、
、
、
我使用
pdfbox
从pdf中提取一些信息,但是如何提取每个对象的信息?如果其中一个包含流,我如何解码该流以显示? 我能从一个pdf框中得到最大字体大小的吗?
浏览 8
提问于2015-03-23
得票数 1
3
回答
从pdf文件中提取
文本
、
、
、
我需要提取
文本
(逐字)从一个pdf文件。
浏览 1
提问于2010-10-26
得票数 5
回答已采纳
3
回答
在
PDFBox
中将
文本
样式设置为带下划线
、
、
我试图添加带下划线的
文本
到一个空白的pdf页面使用
PDFBox
,但我还没有找到任何例子在网上。关于堆栈溢出的
所有
问题都指向提取带下划线的
文本
,而不是创建它。该函数是否
未
为
PDFBox
实现?从
PDFBox
文档来看,字体似乎是预先呈现为粗体、斜体和规则的。PDFont font = PDType1Font.TIMES_ROMAN.
浏览 10
提问于2014-09-29
得票数 4
回答已采纳
3
回答
can驱动程序:如何验证
文本
是否存在于页面中
、
、
我想知道如何验证
文本
是否存在于页面中。我想确认页面中是否存在"Google.co.in in“。
浏览 4
提问于2014-12-15
得票数 0
3
回答
使用
PDFBox
从PDF获取
文本
行的边界框
、
有没有办法使用
PDFBox
获取
文本
行的边框?
浏览 0
提问于2015-10-30
得票数 1
1
回答
使用
pdfbox
,为什么可以提取
文本
,但不能提取图像
、
、
我正在使用
pdfbox
从这个中提取图像和
文本
。我有以下提取
文本
的代码: String thistext=p.
getText
(document); 它可以正确地提取
文本
但是,当我尝试使用ExtractImages类从相同的pdf中提取图像时,生成的图像是pdf的
所有
页面,而不是实际的图像。这是因为pdf可能是扫描副本的原因吗?如果这是真的,为什么
文本
会被提取出来?
浏览 4
提问于2013-01-31
得票数 0
2
回答
有没有办法使用selenium提取webElement的显示名称?
、
、
int i = 0; i < list.size(); i++) {} 我希望控制台输出显示页面上
所有
产品的名称
浏览 0
提问于2019-07-05
得票数 4
3
回答
C#如何从PDF页面url获取PDF
文本
、
、
、
、
C#如何从PDF页面url获取pdf
文本
例如,网页包含PDF
文本
,我想读取该页面中的
所有
文本
浏览 1
提问于2016-08-22
得票数 1
1
回答
使用OpenTypeFont提取
pdfBox
文本
的问题
、
、
因此,
pdfBox
文本
提取还可以提取特殊字符(例如,小大写字体),这会在底层字体是简单的Type1字体时产生问题。我的问题是:我能做些什么来避免这个问题吗
浏览 1
提问于2014-12-06
得票数 0
回答已采纳
2
回答
即使
文本
没有隐藏,
getText
()也会在Selenium中
返回
一个空白。我也尝试过JavaScript
、
、
我正在尝试匹配
文本
并选中复选框。我正在尝试从checkbox类型的innerHTML标记中获取
文本
或输入。我尝试过
getText
();它
返回
空,
返回
innerHTML,innerText
返回
null。
文本
是
可见</e
浏览 0
提问于2012-12-05
得票数 4
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券