从前的日色变得慢 车,马,邮件都慢 一生只够爱一个人
——木心
原创文章,转载请注明来源。
由于本人近期在部门内做关于Python的分享,打算将分享的内容也同步到这个公总号中,因此在利用Excel做数据挖掘系列文章中会穿插一些与Python相关的内容。
Pandas 是一个非常好用的库,正如名字一样,人见人爱。之所以如此,就在于不论是读取、处理数据,用它都非常简单。我们在这一期中就来看看pandas的两种基础的数据类型Series和DataFrame的基本用法以及如何利用pandas高效导入导出数据。
Pandas 有两种自己独有的基本数据结构。读者应该注意的是:它固然有着两种数据结构,因为它依然是 Python 的一个库。所以,Python 中有的数据类型在这里依然适用,也同样还可以使用除了自己定义数据类型。只不过,Pandas 里面又定义了两种数据类型:Series 和 DataFrame,它们让数据操作更简单了。
本文后续的操作都是基于引入约定:
1
Series数据类型
2
DataFrame数据类型
DataFrame 是一种二维的数据结构,他可以被看做由Series组成的字典,非常接近于电子表格或者类似 mysql 数据库的形式。它的竖行称之为 columns,横行称之为 index。 构建DataFrame的办法很多,常用的一种是直接传入一个由等长列表构建的字典:
3
数据的导入与导出
pandas可以方便的读取/存储各种格式的数据,通常读取用read_xx(),导出用to_xx()。
以下为几种常用的操作:
pd.read_csv() 的几种基本用法
什么参数都不设置的情况下,读取进来之后是DataFrame格式,自动生成数字索引。
但是通常这样操作都会提示编码报错:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc7 in position 2: invalid continuation byte
这是由于文件中包含中文所导致的,解决这一问题的方法可以更改编码类型为gb2312,做法如下:
其他几种常用的参数用法:
pd.read_excel()的几种基本用法
pd.read_clipboard()的基本用法
从剪贴板导入数据非常方便,不论从任何地方复制数据后,直接在Python中运行下面的代码就可以将数据成功导入了。这在处理小规模数据的时候非常灵活便捷。
小结
关于Pandas模块的话题非常丰富,每个人使用Pandas的场景也各不一样。因为我打算以数据分析师的角度,带领大家迅速的了解这个库。在掌握了基本的数据结构前提下,下一期我打算讲解Pandas清理、处理、统计相关方面的应用。
《利用Excel做数据挖掘》这一系列应该会持续很久一段时间,难度会在Excel中处于中等偏上水平。如过觉得这些内容对您有用,请点赞分享给更多的朋友吧,谢谢!
领取专属 10元无门槛券
私享最新 技术干货