Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >用python解析pdf中的文本与表格【pdfplumber的安装与使用】

用python解析pdf中的文本与表格【pdfplumber的安装与使用】

作者头像
blmoistawinde
发布于 2019-10-30 10:18:48
发布于 2019-10-30 10:18:48
5.1K05
代码可运行
举报
运行总次数:5
代码可运行

我们接触到的很多文档资料都是以pdf格式存在的,比如:论文,技术文档,标准文件,书籍等。pdf格式使得用机器从中提取信息格外困难。

为了解决这个问题,我找到了几种解决方案,最后选择了python上的pdfplumber库,安装和使用都相对比较方便,效果也还不错,所以下面介绍这个库的安装与使用。

安装

我的电脑配置环境: Win10+python3.6 和许多库一样,其基本安装只需要pip就可以了。

pip install pdfplumber

不过本库还提供了图形Debug功能,可以获得PDF页面的截图,并且用方框框起识别到的文字或表格,帮助判断PDF的识别情况,并且进行配置的调整。【具体例子在后面附上。】

要使用这个功能,还需要安装ImageMagick (特别注意,是6.X版本而不是最新的7.X版本。下载地址如下:https://legacy.imagemagick.org/script/binary-releases.php#windows

按照官网的指示,理论上安装了这个就可以了,不过,我在使用to_image函数输出图片时,遇到了DelegateException。后来发现,还需要安装另一个软件才能够解决问题。 GhostScript: https://www.ghostscript.com/download/gsdnld.html 【注意,一定要下载32位版本,哪怕Windows和python的版本是64位的。】 然后就大功告成了!

基本使用

本库最重要的应用是提取页面上的文本和表格,用法如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pdfplumber
import pandas as pd

with pdfplumber.open("path/to/file.pdf") as pdf:
    first_page = pdf.pages[0]
    # 获取文本,直接得到字符串,包括了换行符【与PDF上的换行位置一致,而不是实际的“段落”】
    print(first_page.extract_texts()) 
    # 获取本页全部表格,也可以使用extract_table()获得单个表格
    for table in p0.extract_tables(): 
        #得到的table是嵌套list类型,转化成DataFrame更加方便查看和分析 
        df = pd.DataFrame(table[1:], columns=table[0]) 
        print(df)

pdfplumber还可以获得页面上的所有单词、直线、方格、乃至曲线的位置信息,具体可以看看官网的说明:https://github.com/jsvine/pdfplumber

图形展示

最后,附上官网的一个示例jupyter notebook,从这个例子中可以看到其图形展示的功能和更多的用法: src="https://nbviewer.jupyter.org/github/jsvine/pdfplumber/blob/master/examples/notebooks/extract-table-nics.ipynb" width="720" height="2000">

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018/08/25 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
手把手教学:提取PDF各种表格文本数据(附代码)
PDFPlumb最适合提取电脑生成的PDF,而不是扫描的PDF。 它是在pdfminer和pdfmine.six基础上设计的。
量化投资与机器学习微信公众号
2019/09/24
3.6K1
手把手教学:提取PDF各种表格文本数据(附代码)
Python:解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比
pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本。
丹枫无迹
2019/01/22
19.3K1
​Python 操作pdf(pdfplumber读取PDF写入Exce)
PDF是Portable Document Format的缩写,这类文件通常使用.pdf作为其扩展名。在日常开发工作中,最容易遇到的就是从PDF中读取文本内容以及用已有的内容生成PDF文档这两个任务。
度假的小鱼
2023/11/17
6860
​Python 操作pdf(pdfplumber读取PDF写入Exce)
[784]python解析PDF表格
别问我为啥知道2比1好,你试试用1去解析一些带有文字格式的表格,带有复杂的表头的表格,你就知道啦!我在这里并没有在瞎说,而且还得装的的java的,后者只装一个的ImageMagick的就行,而且ImageMagick的很有用的
周小董
2020/03/28
1.3K0
如何使用python提取pdf表格及文本,并保存到excel
pdf是一种便携式文档格式,由Adobe公司设计。因为不受平台限制,且方便保存和传输,所以pdf非常受欢迎。
派大星的数据屋
2022/04/03
3.5K0
如何使用python提取pdf表格及文本,并保存到excel
Python操作PDF全总结|处理PDF文档不得不知道的两个库
Python在自动化办公方面有很多实用的第三方库,可以很方便的处理word、excel、ppt、pdf文件,今天我们就学习一下Python处理PDF文档的两个常用库「pdfplumber」、「pypdf2」。
吾非同
2021/01/20
3.8K0
Python PyPDF2、pdfplumber 提取 PDF 文本、图片内容
PyPDF2 需要去 GitHub 下载 https://github.com/mstamy2/PyPDF2
全栈程序员站长
2022/09/10
3.2K0
python自动化系列之提取pdf文字和图片
在python中有许多开源的库可以处理Pdf文档,最常用的Pypdf2库可以读取文档,合并,分割pdf文档,但是也有局限性:
JQ实验室
2022/07/06
6.2K0
手把手教你用Python提取PDF中的表格
pdfplumber 是一个开源的 python 工具库 ,它可以轻松的获取 PDF 文本内容、标题、表格、尺寸等各种信息,今天来介绍如何使用它来提取 PDF 中的表格。
玖柒的小窝
2021/11/21
1.9K0
手把手教你用Python提取PDF中的表格
用 Python 批量提取 PDF 的表格数据,保存为 Excel
需求:想要提取 PDF 的数据,保存到 Excel 中。虽然是可以直接利用 WPS 将 PDF 文件输出成 Excel,但这个功能是收费的,而且如果将大量 PDF转 Excel 的时候,手动去输出是非常耗时的。我们可以利用 Python 的第三方工具库 pdfplumber 快速完成这个功能。
杰哥的IT之旅
2022/05/17
2.7K0
用 Python 批量提取 PDF 的表格数据,保存为 Excel
Python自动化办公系列之Python操作PDF
大家可以叫我黄同学(博客名:Huang Supreme),一个应用统计硕士,爱好写一些技术博客,志在用通俗易懂的写作风格,帮助大家学到知识,学好知识!
小白学视觉
2022/04/06
1K0
Python自动化办公系列之Python操作PDF
当涉及到PDF中的数据挖掘,PDFPlumber是您的得力助手
当涉及到处理PDF中的信息时,数据科学家们常常需要面临一项挑战。有些人可能会采用一种可怕的方法,即手动复制和粘贴所需的数据。这种方法不仅效率低下,而且对于长期工作来说是最慢和最低效的方式之一。此外,有些PDF文件可能不容易进行这种手动操作。
用户3578099
2023/10/23
6240
当涉及到PDF中的数据挖掘,PDFPlumber是您的得力助手
为了提取pdf中的表格数据,python遇到excel,各显神通!
不知大家在工作中有没有过提取pdf表格数据的经历,按照普通人的思维,提取pdf的表格数据的方法可能会选择复制粘贴,但这是一个相当繁杂且重复的工作。而今天我们会讲解如何用python和excel来提取pdf的表格数据,看二者哪个更为方便!
Python与Excel之交
2021/08/05
3.6K0
Python自动读取PDF,推荐用pdfplumber库!
pdfplumber 是一个 Python 库,专为从 PDF 文件中提取文本和表格数据而设计。
double
2024/02/26
2.5K0
Python自动读取PDF,推荐用pdfplumber库!
技术学习:Python(11)|操作PDF
🏮1 前言 Python在自动化办公方面有很多实用的第三方库,我们可以从官方网https://pypi.org/search/?q=pd找到很多这种第三方库来供给我们使用,这些库可以很方便的处理wor
艾特
2023/10/10
4590
技术学习:Python(11)|操作PDF
利用Python将PDF文档转为MP3音频
微信读书里的电子书有配套的自动音频,而且声音优化的不错,比传统的机械朗读听起来舒服很多。
派大星的数据屋
2022/04/03
1.9K0
利用Python将PDF文档转为MP3音频
如何使用Python提取PDF表格及文本,并保存到Excel
PDF是一种便携式文档格式,由Adobe公司设计。因为不受平台限制,且方便保存和传输,所以PDF非常受欢迎。
IT阅读排行榜
2021/04/20
5.3K0
如何使用Python提取PDF表格及文本,并保存到Excel
Python工具 | pdf转excel的python方法
最近不知道写什么了,正好昨天整理了几学期的年级排名,需要pdf转excel,所以百度学习了一下python的pdfplumber库
Justlovesmile
2021/12/14
2.3K0
利用 Python 将 PDF 文档转为语音音频
微信读书里的电子书有配套的自动音频,而且声音优化的不错,比传统的机械朗读听起来舒服很多
AirPython
2021/01/05
1.7K0
利用 Python 将 PDF 文档转为语音音频
数据导入与预处理-第4章-数据获取python读取pdf文档
1、什么是pdf? PDF(Portable Document Foramt)是一种便捷式文本格式,由Adobe系统公司开发,其文件可以在任意操作系统中保持原有的文本格式。PDF文件中可以包含图片、文本、多媒体等多种形式的内容。
IT从业者张某某
2022/11/12
1.2K0
数据导入与预处理-第4章-数据获取python读取pdf文档
推荐阅读
相关推荐
手把手教学:提取PDF各种表格文本数据(附代码)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验