我尝试从PDF中提取一些文本。为此,我需要定义一个包含文本的矩形。 我意识到,当我比较从提取文本的坐标到绘制的坐标时,坐标可能具有不同的含义。 package MyTest.MyTest;
import org.apache.pdfbox.pdmodel.*;
import org.apache.pdfbox.pdmodel.PDPageContentStream.*;
import org.apache.pdfbox.text.*;
import java.awt.*;
import java.io.*;
public class MyTest
{
public stati
我正在从PDF文档中提取文本。此PDF是使用WS从AS400读取数据生成的。因此,在打印文本时,输出如下:
orem ipsum dolor sit amet, **«VS123»** In eros risus, «VS124» sed felis quis, commodo interdum tellus. Donec vitae massa
is 123、is 124是is 400中的变量。Java APi无法从变量及其打印变量名中读取值,而不能读取变量值。
我使用PDFBox 提取文本。代码源代码类似于:
import java.io.File;
import java.io.IOE
我是java编程的新手....我需要提取每个tables and images as per source,我试图提取文本使用pdfbox,但我只得到文本和文本属性。如何识别表格、图像、列表等。使用java程序。
是否可以在pdf文件中识别...?
我使用的模块是PDFbox,如果有任何想法进一步处理...,
我正在使用pdfbox从这个中提取图像和文本。我有以下提取文本的代码:
PDFTextStripper p = new PDFTextStripper();
String thistext=p.getText(document);
它可以正确地提取文本。但是,当我尝试使用ExtractImages类从相同的pdf中提取图像时,生成的图像是pdf的所有页面,而不是实际的图像。这是因为pdf可能是扫描副本的原因吗?如果这是真的,为什么文本会被提取出来?
我正在试着把PdfBox (我最喜欢的书,如果重要的话)转换成文本,我检查了iText和Apache pdf。我看到了一个非常大的性能差异:使用iText需要2:521,而使用PdfBox: 6:117。这是我的PdfBOx代码
PDFTextStripper stripper = new PDFTextStripper();
BUFFER.append(stripper.getText(PDDocument.load(pdf)));
这是给iText的
PdfReader reader = new PdfReader(pdf);
for (int i = 1; i <= reader.
我用Java编写了一个简单的程序,使用PDFBox从PDF文件中提取单词。它从PDF中读取文本并逐字摘录。
public class Main {
public static void main(String[] args) throws Exception {
try (PDDocument document = PDDocument.load(new File("C:\\my.pdf"))) {
if (!document.isEncrypted()) {
PDFTextStripper