腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
pdf
.js获取有关嵌入式字体
的
信息
、
我正在使用
pdf
.js。获取带有字体信息
的
块
的
文本 str: "blabla", width: 191.433141, transform: Array[6], } 是否有可能以某种方式获得更多关于g_d0_f2
的
信息。
浏览 2
提问于2016-11-17
得票数 2
回答已采纳
1
回答
为什么我得到
的
是"ق“而不是"fi"?
、
、
、
我从文档中
提取
了文本,并注意到该文本包含一些未知字符,例如:很明显,ق不是真正
的
字符,应该用"fi“代替--我可以使用
python
将这些字符替换为正确
的
英
文字
符吗?import zlib file = open ("
PDF
_File.
pdf
&quo
浏览 0
提问于2015-01-12
得票数 2
1
回答
可以找到与正则表达式匹配
的
嗨,我在找"CGK / WIII“开头
的
行,但能找到第一行吗? 我正在用
Python
编码,从
pdf
发票中
提取
数据到invoice2data包
的
数据,并面对一个从一个
pdf
文件
中
呈现
的
文本错误。我认为我
的
文字
中有不同
的
字体,但不确定。
浏览 6
提问于2022-12-03
得票数 1
回答已采纳
3
回答
在
PDF
中
添加链接
、
、
、
、
我有几个
PDF
是用Microsoft生成
的
。我想: 我更喜欢
Python
,但我愿意接受其他
的
选择。 编辑:,我无法访问原始Word文档。我需要操纵
PDF
本身。我正在寻找一种使用
Python
库(或其他语言中类似的东西)<
浏览 9
提问于2015-03-01
得票数 4
回答已采纳
1
回答
如何读取亚洲语言(中文、日文、泰文等)
的
PDF
文件并将字符串存储在
python
中
。
、
、
、
、
我使用PyPDF2读取
python
中
的
PDF
文件。虽然它适用于英语和欧洲语言
的
语言(英
文字
母),但图书馆无法阅读亚洲语言,如日语和汉语。它只是在
提取
文本时打印一个空字符串。 我尝试过其他库,如textract和PDFMiner,但都没有成功。当我从
PDF
中
复制文本并将其粘贴到笔记本上时,字符就会变成一些随机格式
的
文本(可能是以不同
的
编码方式)。if
pdf
.isEncrypted:
浏览 1
提问于2018-06-22
得票数 4
回答已采纳
1
回答
使用pyPDF读取时不能从
PDF
中
获取正确格式
的
文本
、
我试图使用
Python
中
的
pyPDF包读取下面链接上
的
PDF
文档。我使用了以下代码来读取
PDF
: import os from pyPdfPdfFileReader filename = os.path.abspath('F:/KG/per/Entr/equity research Text mini
浏览 3
提问于2015-08-03
得票数 0
回答已采纳
1
回答
Python
读取
pdf
文件
、
如何使用jupyter实验室从
pdf
文件
中
读取和
提取
表格? 一个典型
的
pdf
文件与文本之间
的
文字
字幕和表格。我需要编码来
提取
特定标题下
的
表格,并清理一些不需要
的
文本,比如页码。
浏览 3
提问于2022-09-19
得票数 -1
1
回答
Azure机器学习无法将
PDF
作为web服务
的
输入
、
我在azure ML上部署了一个随机
的
森林实验,我试图根据文档包含
的
单词对文档进行评分。这些文档是
PDF
格式
的
。当我将这个实验部署为web服务时,它不允许我输入
PDF
。有没有一种方法可以将
PDF
输入到web服务?
浏览 0
提问于2017-02-06
得票数 1
5
回答
从
PDF
(google应用程序引擎)中
提取
文本
、
、
有没有免费
的
Java库可以从
PDF
中
提取
文本,与Google应用程序引擎兼容?有没有其他方法可以从
PDF
中
提取
文本?我试过,不幸
的
是他们不能正确处理非英
文字
符。
浏览 6
提问于2010-03-28
得票数 2
回答已采纳
1
回答
PdfBox从
pdf
中
提取
具有相同字体
的
文本
、
、
、
我需要从
pdf
中
提取
一段
文字
。本文具有与特征相同
的
字体族。有什么想法吗?干杯 编辑:,让我用另一种方式问这个问题:我如何才能从
pdf
页面中
提取
出“粗体”文本?
浏览 1
提问于2013-09-18
得票数 1
1
回答
波斯文件
的
PDFBOX
、
、
、
、
我想使用pdfBox从波斯语
pdf
文件中
提取
测试,但是它返回所有波斯字符
的
"?" (它正确地返回同一文档
中
的
拉丁单词)。 我怎么才能修好它?有什么建议吗?
浏览 3
提问于2018-08-29
得票数 3
4
回答
如何使用
Python
从
PDF
中
提取
表作为文本?
、
、
我有一个
PDF
,其中包含表格,
文字
和一些图像。我想从
PDF
文件
中
的
任何位置
提取
表格。 PDFfilename = "Sammamish.
pdf
" #filename of your
PDF
/directory where your
PDF
is st
浏览 4
提问于2017-11-28
得票数 47
回答已采纳
1
回答
将置乱
的
PDF
字符重映射为可读
的
文本
、
、
、
我确实有一个问题,因为cups-
PDF
创建
PDF
文档,其中字符映射到奇怪
的
符号[在Ubuntu 14.04和16.04}。我认为这是某种unicode,即使
Python
告诉我它
的
字符串类型。type(object)
python
返回"string" 如果我从
PDF
中
获取文本,通过鼠标复制粘贴,或者通过
Python
模块,或者通过
Python
模块。因此,它
的
真实,
PDF</e
浏览 1
提问于2017-04-18
得票数 0
回答已采纳
1
回答
由于ToUnicode映射,
PDF
文本
提取
返回错误字符
、
我试图使用PDFMiner从一个外文
PDF
文件中
提取
文本,但是被一个ToUnicode语句所挫败。即使在普通
PDF
查看器
中
,该文件
的
行为也很奇怪。例如,下面是文件中一些文本
的
截图:但是,如果我选择并复制文本,则如下所示:您可以看到几个字符已经更改,特别是第二到最后
的
字符。 毫不奇怪,PDFMiner
提取
了不正确
的
文本。但是每个
PDF
查看器都能正确地显示这些数据。我怀疑问题要么是ToUnico
浏览 2
提问于2015-02-23
得票数 5
回答已采纳
1
回答
如何在
Python
中将
PDF
中
的
字节转换为字符串?
、
、
我尝试将从book_download_page = requests.get(link)获取
的
字节转换为字符串,然后从content = book_download_page.content转换为字符串我试过
的
是, content = book_download_page.content.decode('utf-8') 我得到了错误, 'utf-8' codec can't decode byte 0xe2
浏览 21
提问于2020-06-25
得票数 0
1
回答
从
pdf
文件
中
读取图像
、
、
、
、
我有一个要求,客户将上传一个
pdf
文件,其中包含图像/s。我必须读取那个
pdf
文件,从它们中
提取
图像,然后将图像保存到db和硬盘
中
。但我不知道如何使用
Python
/Django代码从
pdf
文件中
提取
图像。是否有从
pdf
文件
中
读取和
提取
图像
的
python
库。 提前谢谢。
浏览 2
提问于2013-08-09
得票数 0
回答已采纳
2
回答
可以在
Python
中
提取
带有空格
的
pdf
吗?
、
、
在创建了一个使用java和pdfbox
提取
pdf
的
工具之后,我一直在尝试用
Python
提取
pdf
。虽然对于相同
的
pdf
,Java实现是成功
的
,但我一直在努力在
python
中
做同样
的
事情,因为pdfminer和pypdf和pypdf2都不能逐行
提取
带有空格
的
pdf
。特别是,出于某种奇怪
的
原因,pdfminer <
浏览 10
提问于2013-06-16
得票数 4
1
回答
在SVG
中
定位SVG字体路径
、
我使用这里
的
脚本从svg字体中
提取
路径,然后将文本(象形
文字
)放置在svg
中
,然后将其拉到
PDF
中
。我
的
问题是,象形
文字
的
基线在0,这是我
的
svg
的
开始,所以我只看到了字形
的
下降。我只是钻研svg,因为这和它
的
安全说,我有点迷路。我这样做是为了使最终
的
PDF
文件能够概述文本,而不需要将字体嵌入到
pdf
中
浏览 5
提问于2013-08-02
得票数 2
回答已采纳
1
回答
如何
提取
PDF
年度报告
的
叙述部分以进行文本分析?
我想使用FOG指数作为我学士学位论文
的
一部分来比较SFCR报告和IFRS报告中保险公司
的
报告。报告以
PDF
格式提供。提前感谢!
浏览 0
提问于2020-11-11
得票数 1
1
回答
PDF
数据
提取
会给出符号/胡言乱语?
、
、
我有一个叫
PDF
2XL
的
软件,它通常是很好
的
提取
数据表
的
文件。我以前在数百个文件中使用过它。如果我按照正常方式复制并粘贴到excel/记事本
中
,也会遇到同样
的
问题。 我猜这与
PDF
文件
中
乱七八糟
的
字符编码标题有关?我怎样才能改变这一点?我在Windows上,没
浏览 2
提问于2011-11-08
得票数 3
点击加载更多
相关
资讯
pdf文字提取,pdf中的文字如何提取出来?
PDF转Word不花钱?一招教你提取PDF中的文字
pdf文字识别,教你一个提取pdf文字的方法
pdf文件中的图片怎么提取?教你快速提取PDF中的图片
PDF怎么识别提取文字?这个方法轻松提取
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券