首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >linux 处理csv一些操作

linux 处理csv一些操作

作者头像
小田测测看
发布2026-06-17 18:06:13
发布2026-06-17 18:06:13
230
举报
将CSV中制表符转成逗号

当csv原始数据为 制表符分隔时, 对Excel、pandas处理不友好,可直接使用 trsed 进行转换。

代码语言:javascript
复制
# 使用 tr,将制表符替换为逗号
tr '\t' ',' < input.tsv > step1.csv

特点:

  • • 逐行流式处理,适合 2GB+ 文件
  • • 不依赖额外工具
  • • 适合字段中不包含逗号的场景,有的话使用 csvkit进行转义

按固定行数拆分 CSV 保留表头

为了方便并行处理、上传 HDFS、导入数据库,常需要将 CSV 按行数拆分。 以下示例:每 1,000,000 行一个文件,且每个文件都包含表头

代码语言:javascript
复制
awk '
NR==1 {h=$0; next}
{
  f = int((NR-2)/1000000)
  if ((NR-2)%1000000 == 0) {
    name = sprintf("part_%03d.csv", f)
    print h > name
  }
  print >> name
}
' step1.csv

输出示例:

代码语言:javascript
复制
part_000.csv
part_001.csv
part_002.csv

常用 CSV 操作命令
查看前几行(含表头)
代码语言:javascript
复制
head -n 5 part_000.csv
统计行数
代码语言:javascript
复制
wc -l part_000.csv
按列查看
代码语言:javascript
复制
cut -d',' -f3 part_000.csv | head
简单过滤(第 2 列等于 xxx)
代码语言:javascript
复制
awk -F',' '$2=="xxx"' part_000.csv

建议
  • 文件过大:优先拆分,再使用pandas、excel工具处理
  • 分析场景:避免 Excel 直接打开原始大文件
  • 自动化:可以将以上命令写入 shell 脚本或 pipeline

#csv

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 编程拾光 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 将CSV中制表符转成逗号
  • 按固定行数拆分 CSV 保留表头
  • 常用 CSV 操作命令
  • 查看前几行(含表头)
  • 统计行数
  • 按列查看
  • 简单过滤(第 2 列等于 xxx)
  • 建议
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档