首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >从pdf中提取文本时,如果字体有ToUnicode映射,我是否应该关心编码?

从pdf中提取文本时,如果字体有ToUnicode映射,我是否应该关心编码?
EN

Stack Overflow用户
提问于 2012-06-08 21:39:04
回答 1查看 279关注 0票数 0

我正在尝试从pdf中提取文本。Pdf参考是一个真正的地狱,留下了许多实际的问题没有得到回答。我的问题是:如果字体字典包含/ToUnicode CMap和/Encoding,CMap是否总是涵盖这种字体使用的所有字符,这意味着我不需要使用/Encoding或其他任何东西就可以用这种字体打印文本?pdf参考资料的5.9章似乎回答是,但我的一些测试似乎回答否。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-06-09 00:05:30

5.9章是正确的,ToUnicode Cmap应该足以进行文本提取。问题是,许多PDF文件没有正确遵循PDF规范,您必须实现自己的启发式文本提取。

您可以从PDF规范开始,然后根据遇到的不符合规范的PDF文件,使用各种增强功能更新文本提取方法。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/10949967

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档