如何在Python中打印使用pdfplumber提取的文本的下一行

文章/答案/技术大牛

发布

1回答

使用python从pdfs中提取特定文本

pymupdf、pdfplumber、grobid

我尝试过不同的python库来从pdfs中提取特定的文本，我必须从这个pdf中提取标题下的文本，我必须将从例1开始的文本提取为菱形粗体。下一个pdf包含不同格式的的数据。在这个pdf中，我必须从历史提取数据到检查，然后从检查到调查与历史和调查作为一个excel文件中的列和相

浏览 20提问于2022-06-30得票数 0

1回答

python、pdfplumber

如何使用pdfPlumber extract.text函数打印从PDF中提取的文本的下一行？我尝试过line.next()，但它不起作用。实际的作业名称在“作业名称”之后的行上。如下例所示。作业名称奥尔巴尼购物中心开发我的代码如下所示。.+)') with

浏览 27提问于2021-07-17得票数 0

回答已采纳

2回答

如何使用Python从Pdf导入混合分数？

python、fractions、pdftotext

我是python的新手。我正在尝试使用Python从pdf文件中提取混合分数。但是我不知道我应该使用哪个工具来提取。我的示例pdf只包含一个简单文本的页面。我想用Python提取零件的名称和长度。Pdf文件可从以下链接(Sample Pdf)下载编辑1：-更新感谢你推荐Pdfplumber。这是一个很棒的工具。我可以用它来<

浏览 57提问于2021-04-07得票数 0

回答已采纳

1回答

在python中运行pdf水管工时，我得到了一个错误-> CryptographyDeprecationWarning: Python3.6不再受Python团队的支持。

python、pdf、cryptography、pdfplumber

我使用Python脚本，它使用pdfplumber提取PDF文件的文本内容。在python中运行pdf管道工时，我遇到了如下错误

浏览 3提问于2022-08-09得票数 0

1回答

水管工错过了原理图中所有表的第一列和最后一行。

python、pdfplumber

我是新来的水管工，我惊讶于它是如何从表格中提取文本的。它无法提取文档中每个表的第一列和最后一行。我试图调整table_settings变量中的几个配置参数，不幸的是，我没有能够获得更好的结果(在我的例子中，如果我<e

浏览 13提问于2021-11-22得票数 0

回答已采纳

1回答

PDF-如果不存在元数据，管道工提取标题

python、python-3.x、python-2.7

我已经使用pdf水管工从GitHub页面()的文件中提取文本，我遍历了所有属性，如果不存在元数据，我需要提取pdf的标题。pdf = pdfplumber.open(r'1.pdf')text = page.extract_text() print

浏览 0提问于2020-07-20得票数 2

回答已采纳

1回答

使用python从PDF文件中提取相关文本

python、pandas、dataframe、tesseract

使用python只从整个PDF文件中提取相关文本，并将输出数据存储到Excel的特定列中。我试图解决它，但不能提取特定的文本值。下面是需要提取的示例输出的屏幕截图：我想提取excel.不同列中的发票号、订单号和总价值。到目前为止，我已经尝试过：pdf = <em

浏览 8提问于2020-09-30得票数 0

1回答

从PDF的每一页的表格中提取数据，并将所有数据一起添加到一个数据中？

python、pdf

我有一个有几个页面的pdf，我想从每个页面中提取数据，并将它们连接到一个数据文件中。我已经设法挖掘了Stack和其他资源来创建下面的代码，它成功地从每个页面提取并打印了表作为数据格式。但是，下一步是按行连接每个单独的数据帧(这样它是一个数据文件，而不是几个单独的数据文件)。import pdfplumbertables=[] wit

浏览 8提问于2020-08-30得票数 0

回答已采纳

2回答

如何使用PDFplumber只提取pdf文件中没有表格的文本？

python、pdf、text、nlp

我想使用NLP模块处理一些pdf文件，然后从所有现有的表中清除这些文件。这是使用pdfplumber提取表的代码pdf = pdfplumber.open("file.pdf")table=page.extract_table() 但是我想反转操作，只提取文本

浏览 4提问于2021-02-21得票数 1

2回答

如何使用PDFMiner在Python中提取PDF中文本的字体颜色？

python、pdf、pdfminer

如何从PDF中的文本中提取字体颜色？我已经尝试过使用PDFMiner来探索LTText或LTChar对象，但是这个模块似乎只允许提取字体大小和样式，而不允许提取颜色。

浏览 14提问于2021-02-25得票数 0

1回答

使用python从PDF中提取表中的表

python

请帮助我使用python包(如camelot、pdfplumber等)提取内表。

浏览 1提问于2022-08-18得票数 0

3回答

解析python中的非结构化文本

python、parsing、pdf、text

我对python很陌生，我正在尝试读取一个PDF文件来提取ID No.。到目前为止，我已经成功地使用pdfplumber从PDF文件中提取文本。下面是代码块： firstpage = pdf_file.pages[0]

浏览 8提问于2020-08-20得票数 1

回答已采纳

2回答

如何强制pdfplumber根据上面行的列数提取表格？

python、pdf

我正在尝试用python包pdfplumber从PDF文档中提取一个表。该表有四列和多行。第一行是标题，第二行只有一个合并的单元格，然后值被正常保存(例如) pdfplumber能够检索表格，但如果有四列，它会生成6列，并根据列保存值。我尝试使用不同的表格设置，包括“垂直策略”：“线”，但这产生了相同的结果。# Python 2.7.16 import

浏览 47提问于2019-10-09得票数 0

1回答

在Python中将文本转换为DataFrame时数据自动隐藏

python、pandas

我有一个问题的数据hiding.When我打印提取的数据作为文本，每一个数据是正确地显示。下面的代码是为打印提取的数据和输出也给出的。import osimport pdfplumberos.system(f'ocrmypdf {path} output.pdf') ocrmypdf.ocr(path,

浏览 11提问于2022-03-31得票数 -1

回答已采纳

1回答

在VSC中安装第三方python模块时出现问题

python、visual-studio-code、installation、module

我在VSCode上安装/使用第三方python模块时遇到了问题，比如pdfplumber或PyPDF2。-import file管道工通过文件更多其他信

浏览 48提问于2021-03-10得票数 0

2回答

如何使用pdfplumber将表详细信息提取到行和列中

python、pandas、dataframe、pdfplumber

我正在使用pdfplumber从pdf中提取表格。但是，正在使用的表没有可见的垂直线分隔内容，因此提取的数据被分成3行和1列。 ? 我想把上面的表格排成13行。import pdfplumberimport numpy as np with pdfplumber.open('test.pdf') as pdf:p

浏览 67提问于2021-08-21得票数 0

1回答

PYPDF2 -提取所有页面并转换为CSV

python、pypdf2

我刚接触Python，正在尝试将PDF中的数据提取到CSV文件中，下面是我使用的代码： import pdfplumber pages = pdf.pages for page in pdf.pages:in text

浏览 2提问于2021-03-30得票数 2

1回答

如何用PDf管道工只提取主文本而忽略图像文本和表格？

python、pdf、text-parsing、text-extraction、pdfplumber

试图解析任何未扫描的pdf和只提取文本，没有表格和他们的评论或图片和他们的评论。只有主文本的pdf，如果这样的文本存在。曾经做过水管工。 with pdfplumber.open("somePDFname.pdf") as pdf:

浏览 16提问于2022-10-26得票数 0

1回答

Pythonpdf管道工:提取pdf，并将数据分割成2列

python、python-3.x、pdf

Line no 10 Line no NLine no. 1....我尝试了使用<

浏览 1提问于2020-08-25得票数 3

1回答

在python中是否有一种方法只提取核心文本(没有框、页脚等)。从pdf里？

python、text、text-mining、text-extraction、pdfplumber

我只想从一个“富”pdf文档中提取核心文本，这意味着它有很多我不感兴趣的表格、图表、框、页脚等等。我尝试使用一些常见的python包，如PyPDF2、pdfplumber或pdfreader.The，显然它们提取了pdf中所有的文本，包括上面列出的那些我不感兴趣的部分。PdfReaderpage = file.pages[10] t

浏览 11提问于2022-11-07得票数 -1

回答已采纳

点击加载更多

使用python从pdfs中提取特定文本