我正在从PDF文档中提取文本。此PDF是使用WS从AS400读取数据生成的。因此,在打印文本时,输出如下:
orem ipsum dolor sit amet, **«VS123»** In eros risus, «VS124» sed felis quis, commodo interdum tellus. Donec vitae massa
is 123、is 124是is 400中的变量。Java APi无法从变量及其打印变量名中读取值,而不能读取变量值。
我使用PDFBox 提取文本。代码源代码类似于:
import java.io.File;
import java.io.IOE
在尝试合并多个PDF文档时,我遇到以下错误...
PDFMerger failed with the following exception:
org.apache.pdfbox.exceptions.WrappedIOException
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:278)
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1220)
at org.apache.pdfbox.pdmodel.P
我正在尝试使用pdfbox来编写一个简单的pdf文件,但问题是我得到了错误:
cannot find symbol class PDDocument
我已经将jar文件下载到程序所在的文件夹中。如何修复这个编译错误?
package org.apache.pdfbox.pdmodel.PDDocument;
import java.io.*;
import org.apache.pdfbox.pdmodel.PDDocument;
public class pdf
{
public static void main(String args[])
{
}
}
我想从下面的pdf文件中读取文本。我使用的是pdfbox版本1.8.8。我得到了以下错误。
2014-12-18 15:02:59 WARN XrefTrailerResolver:203 - Did not found XRef object at specified startxref position 4268142
2014-12-18 15:03:00 ERROR PDPageNode:202 - No Kids found in getAllKids(). Probably a malformed pdf.
2014-12-18 15:03:00 ERROR PDPageNode
我将PDFBox用于C# .NET项目。我得到了一个"TypeInitializationException“( 'java.lang.Throwable‘的类型初始化程序抛出了一个异常)。执行下列代码块时:
FileStream stream = new FileStream(@"C:\1.pdf",FileMode.Open);
//retrieve the pdf bytes from the stream.
byte[] pdfbytes=new byte[65000];
stream.Read(pdfbytes, 0, 65000)
我从Matlab打电话给PDFBox,想知道在一个PDF中有多少页。所有的工作与Matlba,2016年b和以前都很好。我可以导入库并加载PDF,而不会出现问题:
import org.apache.pdfbox.pdmodel.PDDocument;
pdfFile = PDDocument.load(filename);
当我在207 a运行相同的东西时,我会得到以下错误:
No method 'load' with matching signature found for class
'org.apache.pdfbox.pdmodel.PDDocument&
在我的java应用程序中,我使用pdfbox-2.0.9将PDF文件转换为html。但我得到了
java.lang.UnsupportedOperationException
at org.apache.pdfbox.pdmodel.graphics.color.PDPattern.toRGB(PDPattern.java:95)
at org.fit.pdfdom.PathDrawer.pdfColorToColor(PathDrawer.java:133)
at org.fit.pdfdom.PathDrawer.clearPathGraphics(PathDraw
我正在试着把PdfBox (我最喜欢的书,如果重要的话)转换成文本,我检查了iText和Apache pdf。我看到了一个非常大的性能差异:使用iText需要2:521,而使用PdfBox: 6:117。这是我的PdfBOx代码
PDFTextStripper stripper = new PDFTextStripper();
BUFFER.append(stripper.getText(PDDocument.load(pdf)));
这是给iText的
PdfReader reader = new PdfReader(pdf);
for (int i = 1; i <= reader.