前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >利用Python进行CSV文件编码检测

利用Python进行CSV文件编码检测

作者头像
披头
发布2020-04-26 16:28:57
发布2020-04-26 16:28:57
2.8K00
代码可运行
举报
文章被收录于专栏:datartisandatartisan
运行总次数:0
代码可运行

csv文件编码格式多种多样,批量处理时容易出现问题,今天偶然看到有人提问:如何处理PowerBI批量导入csv文件时,文件编码不一致的问题?因为我之前处理过单个csv文件编码检测的问题,初步认为是可以利用Python解决的,今天正好是周末,便研究了一下实现方法。目标是实现csv文件编码格式批量获取,并且按照编码格式在当前目录下创建子目录,最后将同一种编码格式的csv文件移动至对应的子目录下,最终效果如下图:

根据项目需求,程序将用到os, chardet, shutil分别用于识别文件、检测编码和移动文件,三大模块用法如下:

批量识别文件下CSV文件

代码语言:javascript
代码运行次数:0
运行
复制
import os

path = input('请输入文件夹路径: ')
files = os.listdir(path)
csv_list = []
for f in files:
    if os.path.splitext(f)[1] == '.csv':
        csv_list.append(path + '\\' + f)
    else:
        pass

编码检测

代码语言:javascript
代码运行次数:0
运行
复制
import chardet

file_code = chardet.detect(str)['encoding']

文件移动

代码语言:javascript
代码运行次数:0
运行
复制
import shutil

shutil.move(src_path, dst_path)

程序编写

根据项目需求将程序逻辑拆解为如下几个步骤:

  1. 批量识别目录下csv文件;
  2. 检测每个文件的编码格式,创建每个编码格式的子文件夹;
  3. 将每个文件移动至对应的编码格式子文件夹;

程序会多次用到循环的判断以及报错的处理,完整代码如下:

代码语言:javascript
代码运行次数:0
运行
复制
import os
import chardet
import shutil

path = input('请输入文件夹路径: ')
files = os.listdir(path)
csv_list = []
for f in files:
    if os.path.splitext(f)[1] == '.csv':
        csv_list.append(path + '\\' + f)
    else:
        pass
for i in range(len(csv_list)):
    with open(csv_list[i], 'rb+') as ff:
        lines = ff.readline()
        file_code = chardet.detect(lines)['encoding']
    dst_path = os.path.split(csv_list[i])[0] + '\\' + file_code
    if not os.path.exists(dst_path):
        os.mkdir(dst_path)
    shutil.move(csv_list[i], dst_path +'\\'+ os.path.split(csv_list[i])[1])
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 乐享数据8090 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 批量识别文件下CSV文件
  • 编码检测
  • 文件移动
  • 程序编写
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档