从Python中的MS Word文件中提取文本,可以使用Python的第三方库python-docx
。python-docx
库可以让你读取、写入和操作MS Word文件。以下是一个简单的示例,说明如何使用python-docx
库从MS Word文件中提取文本。
首先,确保已经安装了python-docx
库。如果没有,可以使用以下命令安装:
pip install python-docx
然后,可以使用以下代码从MS Word文件中提取文本:
import docx
def extract_text_from_docx(file_path):
doc = docx.Document(file_path)
text = ''
for paragraph in doc.paragraphs:
text += paragraph.text + '\n'
return text
word_file_path = 'path/to/your/word/file.docx'
extracted_text = extract_text_from_docx(word_file_path)
print(extracted_text)
在这个示例中,我们首先导入docx
库,然后定义一个名为extract_text_from_docx
的函数,该函数接受一个参数file_path
,即MS Word文件的路径。在函数内部,我们使用docx.Document
打开文件,然后遍历文件中的所有段落,将每个段落的文本添加到text
变量中。最后,返回提取的文本。
要使用这个函数,只需将word_file_path
变量设置为你的MS Word文件的路径,然后调用extract_text_from_docx
函数并打印结果。
领取专属 10元无门槛券
手把手带您无忧上云