可将 PDF
转换成 docx
文件的 Python
库。该项目通过 PyMuPDF
库提取 PDF
文件中的数据,然后采用 python-docx
库解析内容的布局、段落、图片、表格等,最后自动生成 docx
文件。
pdf2docx
同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。
pip install pdf2docx
from pdf2docx import parse
pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'
# convert pdf to docx
parse(pdf_file, docx_file)
output