问从pdf中提取文本时，如果字体有ToUnicode映射，我是否应该关心编码？
EN

Stack Overflow用户

提问于 2012-06-08 21:39:04

回答 1查看 279关注 0票数 0

我正在尝试从pdf中提取文本。Pdf参考是一个真正的地狱，留下了许多实际的问题没有得到回答。我的问题是:如果字体字典包含/ToUnicode CMap和/Encoding，CMap是否总是涵盖这种字体使用的所有字符，这意味着我不需要使用/Encoding或其他任何东西就可以用这种字体打印文本？pdf参考资料的5.9章似乎回答是，但我的一些测试似乎回答否。

pdf

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-06-09 00:05:30

5.9章是正确的，ToUnicode Cmap应该足以进行文本提取。问题是，许多PDF文件没有正确遵循PDF规范，您必须实现自己的启发式文本提取。

您可以从PDF规范开始，然后根据遇到的不符合规范的PDF文件，使用各种增强功能更新文本提取方法。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10949967

复制

相似问题

问从pdf中提取文本时，如果字体有ToUnicode映射，我是否应该关心编码？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从pdf中提取文本时，如果字体有ToUnicode映射，我是否应该关心编码？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从pdf中提取文本时，如果字体有ToUnicode映射，我是否应该关心编码？
EN