部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Deepseek批量处理word文档中的段落内容顺序和格式

Deepseek批量处理word文档中的段落内容顺序和格式

作者头像
AIGC部落
发布2024-12-19 18:15:17
发布2024-12-19 18:15:17
8600
举报
文章被收录于专栏:Dance with GenAIDance with GenAI

Word文档中很多这样的段落,要调整内容顺序和格式

在deepseek中输入提示词:

你是一个Python编程专家,要完成如下word文档处理任务:

读取word文档:"D:\AR列表英文书.docx";

里面的内容是多个段落,格式为:序号.书名/蓝思值/AR值

比如:

1.Fly Guy苍蝇小子系列/120L-400L/1.3-2.8

2.Amelia Bedelia糊涂女佣/200L-570L/1.8-3.7

3.Nate The Great小侦探内特/230L-570L/2.0-3.7

首先删除段落开头的序号;

然后将AR值内容提取出来,前面加上字符串“AR”,放在段落开头;

然后将段落中的符号“/”替换为“-”

AR值和书名之间的符号“.”用空格代替;

删除段落末尾的符号“-”;

处理完成后的文档内容应该是这样的:

AR1.3-2.8 Fly Guy苍蝇小子系列-120L-400L

AR1.8-3.7 Amelia Bedelia糊涂女佣-200L-570L

AR2.0-3.7 Nate The Great小侦探内特-230L-570L

将处理好的段落保存到一个新的word文档中;

注意:每一步都要输出信息到屏幕上

Deepseek的回复:

好的,我们将按照你的要求逐步处理Word文档,并在每一步输出信息到屏幕上。以下是详细的Python代码实现:

  1. 安装python-docx库 首先,确保你已经安装了python-docx库。如果没有安装,可以使用以下命令进行安装: bash 复制 pip install python-docx
  2. 编写Python代码

from docx import Document

# 读取Word文档

doc = Document(r"D:\AR列表英文书.docx")

# 用于存储处理后的段落

new_paragraphs = []

# 遍历文档中的每个段落

for para in doc.paragraphs:

text = para.text

# 输出原始段落内容

print(f"原始段落内容: {text}")

# 删除段落开头的序号

if text.strip(): # 确保段落不为空

parts = text.split('.', 1)

if len(parts) == 2:

text = parts[1].strip()

else:

text = text.strip()

# 输出删除序号后的段落内容

print(f"删除序号后的段落内容: {text}")

# 提取AR值

parts = text.split('/')

if len(parts) == 3:

book_name = parts[0]

lexile_value = parts[1]

ar_value = parts[2]

# 将AR值放在段落开头,前面加上字符串“AR”

new_text = f"AR{ar_value} {book_name}-{lexile_value}"

# 输出处理后的段落内容

print(f"处理后的段落内容: {new_text}")

# 将处理后的段落添加到列表中

new_paragraphs.append(new_text)

# 创建一个新的Word文档

new_doc = Document()

# 将处理后的段落添加到新文档中

for new_para in new_paragraphs:

new_doc.add_paragraph(new_para)

# 保存新文档

new_doc.save(r"D:\AR列表英文书_processed.docx")

print("处理完成,新文档已保存为 'D:\\AR列表英文书_processed.docx'")

3代码解释

读取Word文档: 使用Document类读取Word文档。

遍历段落: 遍历文档中的每个段落,并输出原始段落内容。

删除序号: 通过分割字符串删除段落开头的序号,并输出删除序号后的段落内容。

提取AR值: 使用split('/')方法将段落内容分割成书名、蓝思值和AR值。

生成新段落: 将AR值放在段落开头,并将/替换为-,将AR值和书名之间的符号.用空格代替,删除段落末尾的符号-,然后输出处理后的段落内容。

创建新文档: 创建一个新的Word文档,并将处理后的段落添加到新文档中。

保存新文档: 将新文档保存到指定路径。

4. 运行代码

运行上述代码后,你将看到原始段落内容、删除序号后的段落内容以及处理后的段落内容输出到屏幕上。最终,处理后的文档将保存为D:\AR列表英文书_processed.docx。

5. 注意事项

确保路径和文件名正确,避免路径中的反斜杠问题。

如果文档中有空段落或其他特殊情况,代码可能需要进一步调整。

通过以上步骤,你可以成功完成Word文档的处理任务。

处理后的word文档如下:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Dance with GenAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档