我正在将一个应用程序从.NET/Windows转换到mono/linux,但是我找不到任何关于IFilters的信息。我知道微软的IFilters for Office,Adobe和FoxIt IFilters for PDF,但不知道它们是否可以在Linux和/或Mono上运行,或者是否有功能相同的东西(用于从专有表单中提取纯文本)。
我使用less,它使用pdftotext从less my.pdf的pdf文件中提取文本。这样,一些单词的字母由空格与pdf文件隔开。
CH APTE R 2 5 T E ST IN G WE B A P P LIC AT IO N S 540
一些人声称Adobe没有问题。我没有程序来证实这一点。但是我想知道Linux中的哪个软件程序可以正确地提取单词呢?