可以通过以下步骤实现:
open()
来打开文件,并使用read()
方法读取文件内容。split()
将字符串拆分成单词列表。set()
函数将单词列表转换为集合。join()
方法将单词列表中的单词连接成一个字符串,并使用write()
方法将字符串写入文件。下面是一个示例代码,演示了如何实现上述步骤:
import os
def remove_duplicate_words(file_path):
# 读取文件内容
with open(file_path, 'r') as file:
content = file.read()
# 拆分成单词列表
words = content.split()
# 去除重复的单词
unique_words = set(words)
# 将去重后的单词列表转换为字符串
new_content = ' '.join(unique_words)
# 写入新的文件
new_file_path = os.path.splitext(file_path)[0] + '_nodup.txt'
with open(new_file_path, 'w') as new_file:
new_file.write(new_content)
print(f"已生成去重后的文件:{new_file_path}")
# 处理多个文本文件
file_paths = ['file1.txt', 'file2.txt', 'file3.txt']
for file_path in file_paths:
remove_duplicate_words(file_path)
在上述代码中,remove_duplicate_words()
函数接受一个文件路径作为参数,处理该文件并生成去重后的文件。file_paths
列表包含要处理的多个文本文件的路径。可以根据实际情况修改文件路径。
这个方法适用于任何文本文件,可以用于清理重复单词,提高文本数据的质量和可读性。
腾讯云相关产品和产品介绍链接地址:
请注意,以上链接仅供参考,具体产品选择应根据实际需求进行评估。
领取专属 10元无门槛券
手把手带您无忧上云