腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用PDFSharp/C#
从
PDF
中
提取
表格
、线条和坐标
、
我有几个报告保存为
PDF
,其中包含文本和图像之间
的
几个表。我不确定这些表是否真的是表,还是仅仅是行。我试着用
PDF
打开这些文件,它们只有几行,但我仍然不确定这是Writer在处理LibreOffice
表格
时
的
行为,还是仅仅是行。我使用
的
是PDFSharp。谢谢你
的
帮助。
浏览 87
提问于2015-07-23
得票数 1
2
回答
如何使用pdfplumber将表详细信息
提取
到行和列
中
、
、
、
我正在使用pdfplumber
从
pdf
中
提取
表格
。但是,正在使用
的
表没有可见
的
垂直线
分隔内容,因此
提取
的
数据被分成3行和1列。 ? 我想把上面的
表格
排成13行。import pdfplumberimport numpy as np with pdfplumber.open('test.
pdf
') as
pdf
:p
浏览 67
提问于2021-08-21
得票数 0
2
回答
从
不带
垂直线
的
PDF
表格
中
提取
表格
、
、
我想从如下图所示
的
PDF
文件中
提取
表格
: ?
PDF
文件包含文本,并且不是扫描
的
图像。我一直在尝试使用Camelot,但没有成功。lattice风格不起作用,因为没有
垂直线
,并且stream风格不能正确地分隔行。我使用了row_tol,但是因为行
的
高度不同,所以它并不适用于所有行。有没有一种方法可以使用lattice方法,但要考虑
垂直线
的
列分隔符?或者,是否有其他方法可以解压该表?
浏览 40
提问于2019-10-04
得票数 1
1
回答
如何在Java
中
从
PDF
文件中
提取
表格
数据
、
、
我对
从
PDF
文件中
提取
数据有疑问。我有一个
PDF
文件,其中有多个可用
的
数据表。我想从require表内容中
提取
数据。如何使用iText/PDFBox执行此操作?
浏览 2
提问于2018-02-13
得票数 0
1
回答
我们应该使用什么python库来
从
PDF
中
提取
包含复杂标题
的
表?
、
、
、
、
我尝试使用很多库来
从
PDF
中
提取
表格
,比如: camelot,tabula,PDFPlumber,PDFTabExtract…但是他们不会给出一个好
的
结果。主要
的
问题是头部是复杂
的
格式,而我有不同格式
的
头部。 使用camelot,我不能有一个适用于我
PDF
中所有页面的脚本。使用Tabula时,当
表格
有一个旋转
的
文本标题时,我得到了一个令人困惑
的
数据帧。使用PDFPlumber时,我
浏览 13
提问于2019-06-10
得票数 0
1
回答
将
pdf
表导出到excel
、
、
如何用c#和asp.net将
pdf
表导出到excel?如果有的话,你能给我一个示例代码片段吗?
浏览 0
提问于2010-03-12
得票数 0
2
回答
从没有任何网格线
的
表格
中
提取
数据,
从
扫描
的
文档图像中
提取
边框
、
、
、
、
使用camelot和tabula
从
数字
PDF
中
提取
表数据非常简单。但是,当表没有边框和内部网格时,解决方案不适用于文档页面的扫描图像。我一直在尝试使用OpenCV生成
垂直线
和水平线。但是,由于扫描图像
的
旋转角度很小,因此很难采用这种方法。 我们如何利用OpenCV为包含
表格
数据(以及文本段落)
的
扫描文档页生成网格(水平和
垂直线
)和边框?如果这是可行
的
,如何取消扫描图像
的
旋转角度?
浏览 8
提问于2019-12-24
得票数 6
2
回答
如何用PDFMiner
从
pdf
中
提取
表格
?
、
、
、
我正在尝试
从
pdf
文档
中
的
一些
表格
中
提取
信息。'fp = open(path, 'rb')if not document.is_extractable: raise PDFTextExtractionNot
浏览 0
提问于2017-09-14
得票数 2
3
回答
从
pdf
文件
中
获取数据
、
我有一张
pdf
文件
中
的
表格
。有x,y,z列。我只想要x列。有可能使用python吗?如果是,怎么做? 然后我想要画x和y。我该怎么做(使用表
中
的
数据)
浏览 23
提问于2022-04-14
得票数 -1
2
回答
从
PDF
中
提取
表格
的
tabula vs camelot
、
、
、
我需要从
pdf
中
提取
表格
,这些
表格
可以是任何类型
的
,多个标题,垂直标题,水平标题等。我已经实现了两个表
的
基本用例,并且发现tabula比camelot做得更好,仍然不能完美地检测所有表,而且我不确定它是否适用于所有类型
的
表。
表格
执行情况:tab = tabula.read_
pdf
('pdfs/<
浏览 3
提问于2020-04-23
得票数 4
回答已采纳
1
回答
如何
提取
pdf
格式
的
表列数据并存储在变量python
中
、
、
、
、
我有3个表(图像粘贴),所有3个表(有相同
的
列)看起来都一样,我希望在变量
中
存储3个表
的
地址列(黄色)
的
数据。
浏览 8
提问于2022-02-16
得票数 -1
1
回答
将
PDF
中
的
文本
提取
为JSON或XML或其他格式?
、
、
我试图
从
PDF
中
提取
数据,价格,信息和数字(我有超过10000个
PDF
,所以网站
的
免费试用将不起作用)。下面是我得到
的
一个
PDF
示例:我用Python语言(这类任务
的
初学者,还有Python语言)和几个包(如PyPDF2、pdfx等等)尝试过,但我只能得到这样
的
文本 所以可以
提取
价格,数字和信息,但我有不同
的
pdf
格式,所以不可能只使用文本和
浏览 2
提问于2019-01-01
得票数 0
2
回答
将数据
从
PDF
导入到SQL Server
、
、
我有一个
PDF
,其中有以下格式
的
行:我已经将
PDF
转换为Excel,但它没有给出正确
的
列结构。 如何将数据
从
PDF
导入到SQL Server?或者,我如何在C#.Net
中
实现它?
浏览 1
提问于2014-09-15
得票数 0
1
回答
如何在Microsoft azure中上传结构化
表格
数据并在其上构建QnA机器人
、
、
、
我有一个结构化
的
PDF
文件,其中包含假日、日期、日期和位置等字段。1)除了创建一个单独
的
数据库并集成它之外,有没有办法上传它并使我们
的
azure机器人能够回答关于这个节日餐桌
的
问题。我试着把它上传到QnA Maker,但是我没有得到正确
的
预期响应。请让我知道在azure
中
内置
的
bot是否提供任何这样
的
设施。例如:数据 假日日期日期地点独立日15-08-2019周四所有地点Ganesh Chaturthi 02-09-2019周一孟买孟
浏览 1
提问于2019-08-29
得票数 1
3
回答
在Python中生成
PDF
文档
的
FLOSS/免费解决方案?
、
、
在没有商业/受限制
的
库
的
情况下,用Python生成嵌入字体
的
PDF
文档最简单
的
方法是什么? 我想生成包含
表格
数据和页眉/页脚
的
文档。我尝试过reportlab,但虽然功能强大,但似乎很难使用。
浏览 1
提问于2011-01-10
得票数 3
回答已采纳
1
回答
是否可以
从
pandas dataframe
中
的
图像
中
读取表数据?
、
、
、
有没有办法将扩展名为.jpeg/.png/.bmp
的
图像读取到pandas数据帧
中
?图像将包含表数据,如下所示:请告诉我有没有办法
从
图像
中
读取
表格
内容到pandas数据帧
中
。谢谢!
浏览 2
提问于2021-10-08
得票数 2
1
回答
获取
PDF
中
嵌入
的
表数
、
下面的代码
从
PDF
中
提取
表格
。install.packages("tidyverse") n_tables <- extract_tables("filename.
pdf
我们是否可以绕过实际
的
表格
提取
步骤,直接使用tabulizer或任何其他R包
从
pdf
中
获取
表格
计数
浏览 3
提问于2018-08-22
得票数 0
1
回答
表未被识别
、
、
、
import pandas as pdFileName="Filepath"print DF3 import camelottables = camelot.read_
pdf
(FileName,pages='1-end') print t
浏览 10
提问于2019-02-28
得票数 0
2
回答
如何确定
PDF
是否被标记?
、
我如何知道
PDF
是否被标记?我正在开发一个程序,可以在
PDF
文件
中
复制一个文本并在我
的
应用程序
中
显示它,所以我尝试测试这个
PDF
文件,我从一个
PDF
文件(普通Copy+Paste)
中
复制了一个表,并将它粘贴到MS
中
。结果是没有
表格
的
普通文本。当您
从
pdf
文件
中
复制表并将其粘贴到Word
中
时,会出现一些问题,使其成为图像。这是真的
浏览 6
提问于2012-10-04
得票数 2
回答已采纳
1
回答
将
PDF
电子
表格
数据
提取
到Python数据结构
中
、
、
我有一些
PDF
电子
表格
,我想从每个
表格
中
提取
数据,并将其存储在类似于字符串
的
2d列表
中
;本质上是
从
PDF
中
以对象
的
形式重新创建
表格
/电子
表格
,我可以在我
的
代码
中
索引和使用它。要实现这样
的
目标,PDFMiner是我
的
最佳选择吗?如果
从
表格
/电子
表格<
浏览 0
提问于2013-07-18
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
怎么提取pdf中的表格?转换的方法有这些
从多个PDF格式的发票中提取需要的信息,整理成excel表格
印度小哥“神剑”:PDF提取表格so easy!
CAD中如何进行表格提取?
怎么从图片中扫描提取表格-一招教你图片转换表格
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券