Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >如何在PyMuPDF中获取文本的背景色

如何在PyMuPDF中获取文本的背景色
EN

Stack Overflow用户
提问于 2019-09-26 06:30:06
回答 1查看 842关注 0票数 4

我尝试查看是否可以使用文本的背景和前景颜色来识别PDF中表格中可能的表头。使用PyMuPDF文本提取,我能够获得前景颜色。想知道有没有办法也能得到背景颜色。

我正在使用pymupdf 1.16.2和python 3.7。我查看了文档,但发现只有一个颜色字段,它与文本颜色而不是背景颜色相关联

如果有人知道如何使用pyMuPDF获得背景颜色,或者可能是其他软件包,请让我知道

EN

回答 1

Stack Overflow用户

发布于 2020-01-15 13:43:32

我需要一个类似的函数,但在PyMuPDF中找不到它,所以我编写了一个函数来获取包含文本的左上角bbox中像素的颜色。

代码语言:javascript
运行
AI代码解释
复制
def getText2(page: fitz.Page, zoom_f=3) -> dict:
    """
    Function similar to fitz.Page.getText("dict"). But the returned dict
    also contains a key "bg_color" with color tuple as value for each block in "blocks".
    """
    # Retrieves the content of the page
    all_words = page.getText("dict")

    # Transform page into PIL.Image
    mat = fitz.Matrix(zoom_f, zoom_f)
    pixmap = page.getPixmap(mat)
    img = Image.open(io.BytesIO(pixmap.getPNGData()))
    img_border = fitz.Rect(0, 0, img.width, img.height)
    for block in all_words['blocks']:
        # Retrieve only text block (type 0)
        if block['type'] == 0:
            rect = fitz.Rect(*tuple(xy * zoom_f for xy in block['bbox']))
            if img_border.contains(rect):
                color = img.getpixel((rect.x0, rect.y0))
                block['bg_color'] = tuple(c/255 for c in color)
    return all_words
票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58110777

复制
相关文章
如何在 Python 中搜索和替换文件中的文本?
让我们看看如何在文本文件中搜索和替换文本。首先,我们创建一个文本文件,我们要在其中搜索和替换文本。将此文件设为 Haiyong.txt,内容如下:
海拥
2021/10/20
16.6K0
如何在 React 中获取点击元素的 ID?
在 React 应用中,我们经常需要根据用户的点击事件来执行相应的操作。在某些情况下,我们需要获取用户点击元素的唯一标识符(ID),以便进行进一步的处理。本文将详细介绍如何在 React 中获取点击元素的 ID,并提供示例代码帮助你理解和应用这个功能。
网络技术联盟站
2023/06/07
4.3K0
如何在windows下和linux下获取文件(如exe文件)的详细信息和属性
最近在项目开发中,由cs开发的exe的程序,需要自动升级,该exe程序放在linux下,自动升级时检测不到该exe程序的版本号信息,但是我们客户端的exe程序需要获取服务器上新程序的版本号信息。最后由我用java实现linux上exe文件的版本号读取功能。下面是详细代码:
业余草
2019/01/21
6.7K0
如何在windows下和linux下获取文件(如exe文件)的详细信息和属性
Python+pymupdf“擦除”PDF文件中的任意内容
给定一个PDF文件,在指定位置绘制一个白色的无框矩形,相当于“擦除”该位置的内容。
Python小屋屋主
2021/07/19
5K1
使用VBA获取单元格背景色中红色、绿色和蓝色的数值
如果在其他应用中我们要选择背景色,但却不知道其RGB值,那么就可以先在Excel单元格中设置想要的背景色,然后使用这几个函数获取其RGB值,这样就可以应用到其他程序中了。
fanjy
2022/11/16
3.6K0
使用VBA获取单元格背景色中红色、绿色和蓝色的数值
【VS Code扩展】获取编辑框中的文本
editor._documentData._lines会返回一个字符串数组,我们可以通过textArray.length获取到代码的行数,也可以通过连接它们达到与获取整段文本一样的效果。
pai233
2022/01/12
1.7K0
如何在gin中获取响应体内容?
实现思路: 对gin的responseWriter进行包装, 每次写往请求方写响应数据的时候,将响应数据返回出去。step1: 定义一个新的CustomResponseWriter,通过组合方式持有一个gin.ResponseWriter和response body缓存。type CustomResponseWriter struct { gin.ResponseWriter body *bytes.Buffer}func (w CustomResponseWriter) Write(b []byt
Johns
2021/04/10
11.9K0
如何在gin中获取响应体内容?
如何在onCreate中获取View的高度和宽度
在开发过程中经常需要获取到View的宽和高,可以通过View.getWidth()和View.getHeight()来得到宽高。然而新手们经常在onCreate方法中直接调用上面两个方法得到的值是0!
阳仔
2019/07/31
5.8K0
如何在Bash中获取数组长度?
在Bash脚本中,数组是一种常用的数据结构,用于存储多个值。在处理数组时,经常需要知道数组的长度,即数组中元素的个数。本文将详细介绍如何在Bash中获取数组长度的方法,以帮助您更好地处理数组操作。
网络技术联盟站
2023/06/17
1.6K0
如何在Bash中获取数组长度?
GIMP 教程:如何在 GIMP 中创建曲线文本
当你在 GIMP 中制作一个徽章、海报或其它任何作品时,你需要扭曲或弯曲一些文本。多功能的 GIMP 工具提供了一些创建弯曲文本的方法。取决于你将如何使用它和你想给予文本的弧度,有一些适合不同情况的方法。
用户8639654
2021/09/14
2.3K0
Python脚本工具,PyMuPDF批量提取PDF文件中的图片
如何批量快速提取出PDF中的图片文件,你是否遇到这样的一个问题,尤其是PPT文件转换为PDF文件,需要快速提取其中的图片文件,如果你恰好会那么一点py,同时复制粘贴没问题的话,那么相信你也能够很轻松的解决这个问题。
二爷
2021/08/23
3.2K0
Python脚本工具,PyMuPDF批量提取PDF文件中的图片
Python 处理 PDF 的神器 -- PyMuPDF
这是「进击的Coder」的第 724 篇技术分享 作者:冰__蓝 来源:https://blog.csdn.net/ling620/article/details/120035699 “ 阅读本文大概需要 13 分钟。 ” # 1、PyMuPDF简介 1. 介绍 在介绍PyMuPDF之前,先来了解一下MuPDF,从命名形式中就可以看出,PyMuPDF是MuPDF的Python接口形式。 MuPDF MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看
崔庆才
2022/09/20
3.6K0
Python 处理 PDF 的神器 -- PyMuPDF
文本获取和搜索引擎中的反馈模型
coursera课程 text retrieval and search engine 第五周 推荐。
爬蜥
2019/07/09
1.4K0
获取压缩包中的文本字符串。
通过指定位置压缩包解析公钥,和密文,解析客户信息,不需要解压,那是我手动解压看效果的。 ps:中文可能会产生乱码,调一下编码。
崔笑颜
2020/06/08
1.8K0
Python+pymupdf转换文本型PDF文件为图片式PDF文件
Python小屋屋主
2023/08/29
2500
Python+pymupdf转换文本型PDF文件为图片式PDF文件
如何在命令行中监听用户输入文本的改变?
这真是一个诡异的需求。为什么我需要在命令行中得知用户输入文字的改变啊!实际上我希望实现的是:在命令行中输入一段文字,然后不断地将这段文字发往其他地方。
walterlv
2020/02/10
3.7K0
Python处理PDF——PyMuPDF的安装与使用
在介绍PyMuPDF之前,先来了解一下MuPDF,从命名形式中就可以看出,PyMuPDF是MuPDF的Python接口形式。
润森
2022/09/22
6.6K0
Python处理PDF——PyMuPDF的安装与使用
Python处理PDF——PyMuPDF的安装与使用!
来源丨网络 1、PyMuPDF简介 1. 介绍 在介绍PyMuPDF之前,先来了解一下MuPDF,从命名形式中就可以看出,PyMuPDF是MuPDF的Python接口形式。 MuPDF MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。 MuPDF 中的渲染器专为高质量抗锯齿图形量身定制。它以精确到像素的几分之一内的度量和间距呈现文本,以在屏幕上再现打印页面的外观时获得最高保真度。 这个观察器很小,速度很快,但是很完整。它支持多种文档格式,如P
张俊红
2022/05/13
4.2K0
如何在 WordPress 中获取最新被评论的文章列表
我之前的「WordPress 文章查询教程6:如何使用排序相关的参数」中详细介绍了文章查询的排序参数,其中介绍可以通过评论数进行排序:
Denis
2023/04/13
1.8K0
点击加载更多

相似问题

使用PyMUPDF从pdf中删除文本

15

PyMuPDF中的页面定向

123

如何在pymupdf中实现PDF文件中Rect前的文本

172

用PyMuPDF逐页逐行提取pdf中的文本

217

使用PyMuPDF向pdf添加文本

26
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档