腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
用
pymupdf
按
正确
的
顺序
提取
pdf
格式
的
图片
python-3.x
、
pdf
、
image-extraction
、
pymupdf
我目前正在开发一个用于
pdf
文件
的
Python3.x图像
提取
器,但似乎找不到一个解决方案来解决我在整个工作过程中遇到
的
问题。我
的
目的是
提取
pdf
文件(车辆报告)
的
所有图像,而不是提供这些文件
的
公司
的
徽标。到目前为止,我有一个使用fitz
的
工作代码,它可以找到图像并存储它们(我在互联网上找到了这个代码)。不幸
的
是,它们以错误
的
顺序
返回。为了
浏览 43
提问于2019-09-02
得票数 0
1
回答
pdf
中
的
Python图像
提取
序列
python
、
pymupdf
、
image-extraction
我试着
用
PyMuPDF
(fitz)从
pdf
中
提取
图像。我
的
pdf
在一个页面上有多张
图片
。我在保存图像
的
同时保持了
正确
的
序列号。我发现正在
提取
的
图像没有遵循
正确
的
顺序
。有时它开始从底部
提取
,有时从顶部
提取
,以此类推。有没有办法修改我
的
代码,使
提取
按照
浏览 29
提问于2020-12-03
得票数 2
4
回答
PyMuPDF
提取
纯文本
的
几个问题
python
、
pdf
、
pymupdf
我想使用阅读
PDF
文件。我所需要
的
是纯文本(不需要
提取
颜色,字体,表格等信息)。我试过以下几种方法from fitz import TextPagedoc = TextPage然后,我从
PyMuPDF
的
一位作者那里找到了一个
PyMuPDF
,它具有
按
从文件中读取
的
顺序
提取
文本<
浏览 3
提问于2018-06-04
得票数 4
2
回答
如何
按
顺序
提取
单词?
python
、
arrays
在比较两个PDFS时,我试图
提取
这些差异。我附上了一张
图片
来一瞥
PDF
。 我已经
提取
了两个PDfs之间
的
逐行差异.我还逐字逐句地
提取
了差异。但这些词并没有
按
正确
的
顺序
提取
。我
用
下面的代码逐字
提取
. if f != s: changed_wor
浏览 4
提问于2022-08-03
得票数 0
2
回答
从
pdf
- Python中
提取
矩形中
的
文本
python
、
text-extraction
、
pdf-extraction
、
pymupdf
我有一个要求,要从
Pdf
中
提取
一个矩形
的
文本。我已经测试过几种方法。但没有收到具体
的
短信。例如,我
用
PyMuPDF
、
pdf
管道工、tabula、camelot、pdftable软件包进行了测试。在
PyMuPDF
模块中,它要求开始词和结束词来
提取
文本。据我所知,剩下
的
包也只是
提取
线条,曲线信息,而不是文本。 我想从
PDF
中
的
矩形中获取文本,而不提供任何开始和结束文本
浏览 4
提问于2020-02-13
得票数 2
2
回答
如何使用
pymupdf
从
pdf
文件中
提取
表
python
、
pdf
我
的
工作要求我使用
pymupdf
从
pdf
文件中
提取
表格并导出为csv
格式
。
浏览 0
提问于2019-05-16
得票数 0
1
回答
从
pdf
文件中
提取
所有图像和文本
java
、
python
、
node.js
、
pdf
我需要从
pdf
创建json来呈现所有图像和文本
的
HTML
格式
的
pdf
内容。我已经尝试了下面的模块来做到这一点。我现在只能
提取
普通图像,但不能
提取
图形图像和背景阴影图像。尝试
的
模块-Mammoth(Node) -PDFBox(Java)
浏览 5
提问于2017-05-08
得票数 0
1
回答
文档属性(
PDF
)中
的
“创建”和“修改”字段未显示
python
、
python-3.x
、
pymupdf
、
python-pdfreader
目前,我已经合并了许多
PDF
一起创建一个
PDF
在一起。我添加了元数据信息,其中包括“创建”和“修改”两个字段,但结果这些字段仍然不显示信息。这是我
的
源代码:import osfrom datetime import datetime r_UM = re.compile(regex) extension = [".
pdf
浏览 5
提问于2021-02-03
得票数 0
回答已采纳
1
回答
我们是否可以扫描多个PDS文件中
的
某些文本,并计算所有找到
的
匹配项?
python
、
python-3.x
、
pdf
我正在尝试拼凑一些代码来扫描多个
PDF
文件,这些文件都是简历,找到与某些搜索词匹配
的
单词,并计算所有匹配
的
单词。因此,如果一份简历列出了5倍
的
“Python”,我想要捕获它;如果它列出了4倍
的
“Excel”,我就想捕获它。我要把所有东西都列在数据框里。这是我正在使用
的
代码。我认为这很接近,但这里肯定有不对劲
的
地方。我知道文本文件可以csv文件是非常干净
的
。也许
PDF
文件很难处理。无论如何,如果这是可行
的
,我希望看到一
浏览 1
提问于2020-07-17
得票数 1
1
回答
如何使用OpenAI最大上下文长度为2049标记?
python
、
openai
我想将各种
PDF
格式
的
文本发送到。特别是或 API。问题:当令牌计数超过允许
的
2049时,如何最好地准备提示符?
浏览 6
提问于2021-11-22
得票数 3
1
回答
PyMuPDF
中
的
页面定向
python
、
pdf
、
python-imaging-library
、
pymupdf
我正在尝试从一些Pdfs中
提取
文本。为此,我在Python中使用
PyMuPDF
库(1.19.2)。然而,我有一些困难,了解页面和
图片
的
方向在Pdfs中。当我在Adobe阅读器中查看
PDF
时,页面会以
正确
的
方向出现。但是,当我使用下面的代码检查Python中
的
页面旋转时,会得到270
的
旋转。doc = fitz.open(document_name)现在,当我使用以下代码从页面中
提取
嵌
浏览 23
提问于2022-01-12
得票数 2
2
回答
PyPDF2
的
可维护替代方案
python
、
pdf
、
pypdf2
我使用库从
pdf
文档中
提取
文本、图像、页面宽度和高度、注释和其他属性。然而,这个库已经有了很多bug和问题,而且已经存在很长时间了。(编辑:再次维护PyPDF2 ) 有什么好
的
选择吗?据我所知,reportlab更适合创建全新
的
pdf
格式
(或者我只是对reportlab不够有经验)。
浏览 9
提问于2020-07-31
得票数 14
回答已采纳
1
回答
用
Python从
PDF
中
提取
所有图像,并保持其透明性
python
、
pypdf2
、
pymupdf
我在网上和这里看到了许多解决方案,用于
用
PyMuPDF
、PyPDF2和其他工具从
PDF
中
提取
图像,但它们都没有成功地保留透明度信息,它们使用
的
是过时
的
代码,不再起作用,或者问题没有答案。我尝试
的
例子显示了一个黑色
的
背景,其中
的
透明度应该是。如果我打开photoshop中
的
PDF
并取出图像,它就像我所期望
的
那样是透明
的
背景。所以我知道信息就在那里。有谁
用</
浏览 3
提问于2022-07-30
得票数 1
1
回答
使用OCR (光学字符识别)读取扫描
的
PDF
(JPEG)
的
内容
python-3.x
、
python-2.7
、
ocr
、
data-analysis
、
python-tesseract
我一直在尝试使用OCR (光学字符识别)来转换扫描
的
不可选
PDF
(JPEG)。 请对此进行研究,并建议我获得预期
的
结果。import os
PDF
_file = "document.
pdf
" Part #1 : Converting
PDF
to images''' # S
浏览 0
提问于2020-05-27
得票数 1
1
回答
为什么
pdf
中
的
图像有时被分割成多个图像?
image
、
pdf
、
pdf-generation
、
ghostscript
、
postscript
注意到图像有时被分割成
PDF
格式
。步骤:图像被横向分割成三幅图像,在从.docx到
pdf
的
转换过程中究竟发生了什么,使得转换器将其分割成三幅图像而不是一幅?是否将切片图
浏览 12
提问于2022-09-26
得票数 -1
回答已采纳
1
回答
有没有用RTL语言从
PDF
中很好地
提取
文本
的
python包?
python
、
pdf
、
text-extraction
、
text-alignment
、
persian
我曾经为
PDF
文件使用过著名
的
python包,比如PDFminer、
PyMuPDF
、PyPDF2等等。但是他们都不能
正确
地从
PDF
文件中
提取
文本,这些文件是
用
从右到左语言(波斯语、阿拉伯语)编写
的
。例如:doc = fitz.open("*/path/to/file.
pdf
")print(txt) 它返回如下
浏览 1
提问于2018-07-25
得票数 4
1
回答
使用python从pdfs中
提取
特定文本
pymupdf
、
pdfplumber
、
grobid
我尝试过不同
的
python库来从pdfs中
提取
特定
的
文本,我必须从这个
pdf
中
提取
标题下
的
文本,我必须将从例1开始
的
文本
提取
为菱形粗体。 下一个
pdf
包含不同
格式
的
的
数据。在这个
pdf
中,我必须从历史
提取
数据到检查,然后从检查到调查与历史和调查作为一个excel文件中
的
列和相应
的
数据行。python regex
浏览 20
提问于2022-06-30
得票数 0
1
回答
如何从使用iText在C#中
的
PDF
文件中
提取
正确
顺序
的
文本布局
c#
、
itext
我知道如何从
PDF
中
提取
文本
格式
,正如在中解释
的
那样。但是,要按
正确
的
顺序
提取
文本
格式
是不容易
的
。换句话说,当我在iText中
提取
文本时,如何使用两种策略?
浏览 5
提问于2022-08-26
得票数 0
2
回答
用
PyMuPDF
逐页逐行
提取
pdf
中
的
文本
python
、
text-extraction
我必须从现有的
PDF
文档中
提取
文本。目前,我使用
PyMuPDF
模块来实现这一点。总体而言,它工作得很好,而且速度非常快。问题是,这个工具会用新
的
换行符替换
pdf
文档中
的
所有水平制表符(例如,在headings: 5 \t Topic中)。由于我必须逐行
提取
文本,这对我来说是非常不切实际
的
。我还尝试了tika (这里我不能分页
提取
文本)和PyPDF2 (这太可怕了:对于任何
格式
化
的
文本(比如粗体),它
浏览 17
提问于2019-05-04
得票数 1
1
回答
如何从
PDF
文件中
正确
提取
日文txt
python
、
algorithm
我需要从
pdf
文件中
提取
文本。谁能给我一个如何处理
的
提示?
浏览 5
提问于2022-02-22
得票数 1
回答已采纳
点击加载更多
相关
资讯
不懂如何提取pdf图片?教你pdf的图片怎么提取的方法
pdf图片提取怎么操作?如何提取pdf文档中的图片?
pdf提取图片,分享快速提取图片的方法
怎么提取PDF中的图片?这些软件可以提取PDF图片
pdf文件中的图片怎么提取?教你快速提取PDF中的图片
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券