今天呢?小编给大家操作几种Python解析PDF方法。请大家认真看噢!不懂的请留言.........
PdfMiner的demo:
试用后发现PdfMiner更适合配合StringIO转出pdf文件中的文字类信息。这和我的需求不符,果断更换。
接着找到了PythonMagick,通过写demo发现能够顺利转出我需要的图,但是PythonMagick并没有方法可以获取pdf文件的页数,于是又找到了PyPdf2,PyPdf2的PdfFileReader中getNumPages()方法可以读取pdf文件页数。
PythonMagick的demo:
运行时,碰到错误1:
PyPDF2.utils.PdfReadError: Multiple definitions in dictionary at byte 0x4717c2 f or key /Info
通过查询,将严格模式关闭,PdfFileReader(input_stream,strict=False)可以解决。
文中所用到的包如下:
PythonMagick可以通过lfd.edu提供的镜像下载whl文件,比如我用的python2.7,64位windows,下载对应的是PythonMagick‑0.9.10‑cp27‑none‑win_amd64.whl。
安装方法,cmd进入whl文件所在目录,运行:
pip install PythonMagick‑0.9.10‑cp27‑none‑win_amd64.whl
PyPdf2可以使用pip直接安装。
pip install PyPdf2
PdfMiner可以在github里搜一下,关键字排名第一有2k star那个的就是。
在搜索过程中,还发现另外一种方法,使用ImageMagick与命令行进行转换
cmd进入pdf所在目录,运行:
magick convert 6p.pdf 6p.jpg
此方法能够将pdf自动按页转为jpg。
这几种方法你都知道了吗?谢谢你们的观看!!!谢谢
领取专属 10元无门槛券
私享最新 技术干货