之前写过一些关于PDF的文章:
Python图片裁剪的两种方式——Pillow和OpenCV
Java+PDFBox将PDF转成图片
【PyMuPDF和pdf2image】Python将PDF转成图片...PDF的页数
2、以纯文本的方式获取页面内容
//以Text返回PDF的内容 - 所有页
pdfUtil.getText("c:/sample.pdf");
// 以Text返回PDF第2页的内容...pdfUtil.getText("c:/sample.pdf",2);
// 以Text返回PDF第5~8页的内容
pdfUtil.getText("c:/sample.pdf", 5, 8);...(file1, file2, 3, 3);
// 比较第1~5页
pdfUtil.compare(file1, file2, 1, 5);
6、在文本模式下排除某些文本再对PDF文件进行比较
String...1998", "testautomation");
//使用正则表达式,在比较之前删除指定内容
// \\d+ 在比较之前删除PDF中的所有数字 \\d+是数字的正则表达式
pdfutil.excludeText