当从一些PDF文件中提取文本时,PDFBox会返回乱码。这是因为缺少或损坏了Unicode映射。我可以在控制台上看到以下警告。我希望能够检测到这一点,以便能够将这些PDF标记为损坏。 我正在寻找一种比解析日志更好的解决方案。 谢谢你的帮忙! 控制台日志示例: WARNING: No Unicode mapping for CID+32 (32) in font F6
WARNING: Failed to find a character mapping for 32 in TimesNewRoman,Bold 下面提到的帖子也讨论了相同的问题,但没有讨论能够在代码端检测并处理相同问题的方法:
当我尝试在stdscr.addstr('│─┼')中使用alt-code字符时,它只会将乱码打印到控制台。我知道可以使用stdscr.addch(<alt-code> or <curses.ACS_...>),但我发现这种方法很麻烦。有没有办法让addstr正确地输出这些额外的字符?
我在Windows8.1上使用Python3.4,并找到了的curses库。