数据加载、存储与文件格式一共分为四部分:
1⃣️读写文本格式中的数据
2⃣️二进制数据格式
3⃣️Web APIs交互
4⃣️数据库交互
总述
读写文本格式中的数据
看图就可以,整个框架如下图所示:
01
常用函数举例
常用函数中,最常用的是read_csv和read_table
逗号分隔举例
在这个地方的cat,Mac环境下省去!直接输入cat即可
无标题行举例
读入文件有两种方式:第一种是pandas默认分配序号,另一种则为自定义列名,并且能够确定索引:
多列转层次化索引举例
如图:
非固定分隔符分隔字段
不是所以的源数据都按照固定分隔符大小来进行分隔,这个时候就要进行调整,此处使用的是正则表达式:
处理异形文件格式
此处举例跳过注释行,只留下数据行:
序列函数
缺失值处理,缺失值的表现形式可以为NA,或者为空,这个时候需要进行统一处理,此外,除了缺失值处理,还可以用不同的NA值来进行标记:
read_csv&read_table
以下是常用read_csv和read_table选项:
逐块读取文本文件
读取几行加入nrows的限制条件即可,逐块读取以下代码所示:
将数据写出到文本格式
最基础的是逗号分隔:
其他分隔符在sep选项设置即可,在这里同样涉及到缺失值处理的问题:缺失值在输出结果中会被表示为空字符串
指定序列:a,b,c
除了之前的CSV方法,Series还有自己的to_csv
还有一个导图忘记截图的重点:如果没有设置其他选项,则会写出行和列的标签。当然,它们也都可以被禁用:
index&header
处理分隔符格式
由于接收到含有畸形行的文件而使read_table出毛病的情况并不少见,所以需要对数据 进行手工处理:
这个地方的用来定义新格式的类:
CSV语支选项:
还是那句话,温故而知新,可以为师矣。
另外,古人云,书读百遍,其义自见也不是没有道理的,
学习完了多回去总结总结,能得到更多新的东西 。
觉得好看就给我点个好看吧~
领取专属 10元无门槛券
私享最新 技术干货