首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在一个函数中从doc和docx文件中抓取文本

,可以使用Python的python-docx库来实现。

python-docx是一个用于读取、查询和修改Microsoft Word文件的Python库。它可以解析docx文件,并提供了一系列方法来获取文本内容。

以下是一个示例函数,用于从doc和docx文件中抓取文本:

代码语言:txt
复制
from docx import Document

def extract_text_from_docx(file_path):
    doc = Document(file_path)
    text = ""
    for paragraph in doc.paragraphs:
        text += paragraph.text + "\n"
    return text

def extract_text_from_doc(file_path):
    with open(file_path, "rb") as file:
        data = file.read()
    text = data.decode("utf-8")
    return text

def extract_text_from_file(file_path):
    if file_path.endswith(".docx"):
        return extract_text_from_docx(file_path)
    elif file_path.endswith(".doc"):
        return extract_text_from_doc(file_path)
    else:
        return "Unsupported file format."

# 示例用法
file_path = "example.docx"
text = extract_text_from_file(file_path)
print(text)

这个函数首先判断文件的扩展名,如果是docx文件,则使用python-docx库来解析文本内容。对于docx文件,我们可以通过遍历doc.paragraphs来获取每个段落的文本内容,并将其拼接到一个字符串中。

如果是doc文件,则使用二进制模式打开文件,并读取其中的数据。然后使用utf-8编码将数据解码为文本。

最后,我们可以调用extract_text_from_file函数,并传入文件路径来提取文本内容。

这种方法可以适用于从doc和docx文件中抓取文本,例如从合同、报告、简历等文档中提取关键信息。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

领券