Pandas的使用可以数据分析工作变得更快更简单,可以让我们将精力集中在业务上。Pandas是基于Numpy构建的,要达到熟练使用它,首先必须熟悉它的两个主要数据结构:Series和DataFrame。虽然它们并不能解决所有问题,但它们为大多数应用提供了一种可靠、易于使用的基础。在使用Pandas的时候,需要导入如下模块:
>> import numpy asnp
>> import pandas aspd
>> from pandasimport Series, DataFrame
1.Series
Series是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。下面看看它的基本用法:
与普通Numpy相比,你可以通过索引的方式选取Series中的单个或一组值,而且数组的运算始终会保留索引与值之间的映射关系。
事实上,Series的用法十分类似Python内置的字典dict,但是比dict要强大很多。
2.DataFrame
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以看成是由Series组成的字典,其中数据是一个或多个二维块存放的。
构建DataFrame的方法有很多:
通过类似字典标记的方式或属性的方式,可以将DataFrame的列获取为一个Series,也可以通过位置或名称的方式获取行,比如用索引字段ix:
领取专属 10元无门槛券
私享最新 技术干货