用pymupdf按正确的顺序提取pdf格式的图片

文章/答案/技术大牛

发布

2回答

python-3.x、pdf、image-extraction、pymupdf

我目前正在开发一个用于pdf文件的Python3.x图像提取器，但似乎找不到一个解决方案来解决我在整个工作过程中遇到的问题。我的目的是提取pdf文件(车辆报告)的所有图像，而不是提供这些文件的公司的徽标。到目前为止，我有一个使用fitz的工作代码，它可以找到图像并存储它们(我在互联网上找到了这个代码)。不幸的是，它们以错误的顺序返回。为了

浏览 43提问于2019-09-02得票数 0

1回答

pdf中的Python图像提取序列

python、pymupdf、image-extraction

我试着用PyMuPDF (fitz)从pdf中提取图像。我的pdf在一个页面上有多张图片。我在保存图像的同时保持了正确的序列号。我发现正在提取的图像没有遵循正确的顺序。有时它开始从底部提取，有时从顶部提取，以此类推。有没有办法修改我的代码，使提取按照

浏览 29提问于2020-12-03得票数 2

4回答

PyMuPDF提取纯文本的几个问题

python、pdf、pymupdf

我想使用阅读PDF文件。我所需要的是纯文本(不需要提取颜色，字体，表格等信息)。我试过以下几种方法from fitz import TextPagedoc = TextPage然后，我从PyMuPDF的一位作者那里找到了一个PyMuPDF，它具有按从文件中读取的顺序提取文本<

浏览 3提问于2018-06-04得票数 4

2回答

如何按顺序提取单词？

python、arrays

在比较两个PDFS时，我试图提取这些差异。我附上了一张图片来一瞥PDF。我已经提取了两个PDfs之间的逐行差异.我还逐字逐句地提取了差异。但这些词并没有按正确的顺序提取。我用下面的代码逐字提取. if f != s: changed_wor

浏览 4提问于2022-08-03得票数 0

2回答

从pdf* - Python中提取矩形中的文本*

python、text-extraction、pdf-extraction、pymupdf

我有一个要求，要从Pdf中提取一个矩形的文本。我已经测试过几种方法。但没有收到具体的短信。例如，我用PyMuPDF、pdf管道工、tabula、camelot、pdftable软件包进行了测试。在PyMuPDF模块中，它要求开始词和结束词来提取文本。据我所知，剩下的包也只是提取线条，曲线信息，而不是文本。我想从PDF中的矩形中获取文本，而不提供任何开始和结束文本

浏览 4提问于2020-02-13得票数 2

2回答

如何使用pymupdf从pdf文件中提取表

python、pdf

我的工作要求我使用pymupdf从pdf文件中提取表格并导出为csv格式。

浏览 0提问于2019-05-16得票数 0

1回答

从pdf文件中提取所有图像和文本

java、python、node.js、pdf

我需要从pdf创建json来呈现所有图像和文本的HTML格式的pdf内容。我已经尝试了下面的模块来做到这一点。我现在只能提取普通图像，但不能提取图形图像和背景阴影图像。尝试的模块-Mammoth(Node) -PDFBox(Java)

浏览 5提问于2017-05-08得票数 0

1回答

文档属性(PDF)中的“创建”和“修改”字段未显示

python、python-3.x、pymupdf、python-pdfreader

目前，我已经合并了许多PDF一起创建一个PDF在一起。我添加了元数据信息，其中包括“创建”和“修改”两个字段，但结果这些字段仍然不显示信息。这是我的源代码：import osfrom datetime import datetime r_UM = re.compile(regex) extension = [".pdf

浏览 5提问于2021-02-03得票数 0

回答已采纳

1回答

我们是否可以扫描多个PDS文件中的某些文本，并计算所有找到的匹配项？

python、python-3.x、pdf

我正在尝试拼凑一些代码来扫描多个PDF文件，这些文件都是简历，找到与某些搜索词匹配的单词，并计算所有匹配的单词。因此，如果一份简历列出了5倍的“Python”，我想要捕获它；如果它列出了4倍的“Excel”，我就想捕获它。我要把所有东西都列在数据框里。这是我正在使用的代码。我认为这很接近，但这里肯定有不对劲的地方。我知道文本文件可以csv文件是非常干净的。也许PDF文件很难处理。无论如何，如果这是可行的，我希望看到一

浏览 1提问于2020-07-17得票数 1

1回答

如何使用OpenAI最大上下文长度为2049标记？

python、openai

我想将各种PDF格式的文本发送到。特别是或 API。问题:当令牌计数超过允许的2049时，如何最好地准备提示符？

浏览 6提问于2021-11-22得票数 3

1回答

PyMuPDF中的页面定向

python、pdf、python-imaging-library、pymupdf

我正在尝试从一些Pdfs中提取文本。为此，我在Python中使用PyMuPDF库(1.19.2)。然而，我有一些困难，了解页面和图片的方向在Pdfs中。当我在Adobe阅读器中查看PDF时，页面会以正确的方向出现。但是，当我使用下面的代码检查Python中的页面旋转时，会得到270的旋转。doc = fitz.open(document_name)现在，当我使用以下代码从页面中提取嵌

浏览 23提问于2022-01-12得票数 2

2回答

PyPDF2的可维护替代方案

python、pdf、pypdf2

我使用库从pdf文档中提取文本、图像、页面宽度和高度、注释和其他属性。然而，这个库已经有了很多bug和问题，而且已经存在很长时间了。(编辑:再次维护PyPDF2 ) 有什么好的选择吗？据我所知，reportlab更适合创建全新的pdf格式(或者我只是对reportlab不够有经验)。

浏览 9提问于2020-07-31得票数 14

回答已采纳

1回答

用Python从PDF中提取所有图像，并保持其透明性

python、pypdf2、pymupdf

我在网上和这里看到了许多解决方案，用于用PyMuPDF、PyPDF2和其他工具从PDF中提取图像，但它们都没有成功地保留透明度信息，它们使用的是过时的代码，不再起作用，或者问题没有答案。我尝试的例子显示了一个黑色的背景，其中的透明度应该是。如果我打开photoshop中的PDF并取出图像，它就像我所期望的那样是透明的背景。所以我知道信息就在那里。有谁用</

浏览 3提问于2022-07-30得票数 1

1回答

使用OCR (光学字符识别)读取扫描的PDF* (JPEG)的内容*

python-3.x、python-2.7、ocr、data-analysis、python-tesseract

我一直在尝试使用OCR (光学字符识别)来转换扫描的不可选PDF (JPEG)。请对此进行研究，并建议我获得预期的结果。import os PDF_file = "document.pdf" Part #1 : Converting PDF to images''' # S

浏览 0提问于2020-05-27得票数 1

1回答

为什么pdf中的图像有时被分割成多个图像？

image、pdf、pdf-generation、ghostscript、postscript

注意到图像有时被分割成PDF格式。步骤：图像被横向分割成三幅图像，在从.docx到pdf的转换过程中究竟发生了什么，使得转换器将其分割成三幅图像而不是一幅？是否将切片图

浏览 12提问于2022-09-26得票数 -1

回答已采纳

1回答

有没有用RTL语言从PDF中很好地提取文本的python包？

python、pdf、text-extraction、text-alignment、persian

我曾经为PDF文件使用过著名的python包，比如PDFminer、PyMuPDF、PyPDF2等等。但是他们都不能正确地从PDF文件中提取文本，这些文件是用从右到左语言(波斯语、阿拉伯语)编写的。例如：doc = fitz.open("*/path/to/file.pdf")print(txt) 它返回如下

浏览 1提问于2018-07-25得票数 4

1回答

使用python从pdfs中提取特定文本

pymupdf、pdfplumber、grobid

我尝试过不同的python库来从pdfs中提取特定的文本，我必须从这个pdf中提取标题下的文本，我必须将从例1开始的文本提取为菱形粗体。下一个pdf包含不同格式的的数据。在这个pdf中，我必须从历史提取数据到检查，然后从检查到调查与历史和调查作为一个excel文件中的列和相应的数据行。python regex

浏览 20提问于2022-06-30得票数 0

1回答

如何从使用iText在C#中的PDF文件中提取正确顺序的文本布局

c#、itext

我知道如何从PDF中提取文本格式，正如在中解释的那样。但是，要按正确的顺序提取文本格式是不容易的。换句话说，当我在iText中提取文本时，如何使用两种策略？

浏览 5提问于2022-08-26得票数 0

2回答

用PyMuPDF逐页逐行提取pdf中的文本

python、text-extraction

我必须从现有的PDF文档中提取文本。目前，我使用PyMuPDF模块来实现这一点。总体而言，它工作得很好，而且速度非常快。问题是，这个工具会用新的换行符替换pdf文档中的所有水平制表符(例如，在headings: 5 \t Topic中)。由于我必须逐行提取文本，这对我来说是非常不切实际的。我还尝试了tika (这里我不能分页提取文本)和PyPDF2 (这太可怕了:对于任何格式化的文本(比如粗体)，它

浏览 17提问于2019-05-04得票数 1

1回答

如何从PDF文件中正确提取日文txt

python、algorithm

我需要从pdf文件中提取文本。谁能给我一个如何处理的提示？

浏览 5提问于2022-02-22得票数 1

回答已采纳

点击加载更多