我正在尝试从pdf中提取文本。Pdf参考是一个真正的地狱,留下了许多实际的问题没有得到回答。我的问题是:如果字体字典包含/ToUnicode CMap和/Encoding,CMap是否总是涵盖这种字体使用的所有字符,这意味着我不需要使用/Encoding或其他任何东西就可以用这种字体打印文本?pdf参考资料的5.9章似乎回答是,但我的一些测试似乎回答否。
发布于 2012-06-09 00:05:30
5.9章是正确的,ToUnicode Cmap应该足以进行文本提取。问题是,许多PDF文件没有正确遵循PDF规范,您必须实现自己的启发式文本提取。
您可以从PDF规范开始,然后根据遇到的不符合规范的PDF文件,使用各种增强功能更新文本提取方法。
https://stackoverflow.com/questions/10949967
复制相似问题