前面介绍了机器学习和数据分析三剑客之一的numpy,
想学AI?先来一碗numpy的纯干货吧!
今天就来介绍三剑客之二的pandas,如果没有pandas的话,数据分析还是R语言的天下,pandas是量化交易最核心的依赖库,那就来解开它的面纱,看看pandas到底是什么?怎么用?
一、什么是pandas?
Wes McKinney在2008年时就职于AQR(一家量化投资公司),当时没有一个工具能够满足他的工作需求,所以就开始自己造(牛人就是这样的),2012年,他的同事Sien Chang加入开发,他们一起造就了这个python社区的一个非常牛的三方库-pandas!
作者对pandas设计需求:
具备按轴自动或显式数据对齐功能的数据结构。
集成时间序列功能。
既能处理时间序列数据也能处理非时间序列数据的数据结构。
数学运算和约简可以根据不同的轴编号执行。
灵活处理缺失数据。
合并常见数据库中的关系型运算。
整个pandas基于numpy开发,在numpy中的大部分操作在pandas中同样适用,同时pandas和numpy一样拥有计算性能优势,我们可以把pandas理解为一个numpy的封装。
二、pandas的安装和引入
$pip install pandas
$pip install -i https://pypi.douban.com/simple pandas
第一种方法是在pypi的官方仓库获取pandas,第二种是在豆瓣的仓库获取,下载速度非常快。
>>>from pandas import Series, DataFrame
>>>import pandas as pd
因为Series和DataFrame这两个类使用非常频繁,可以直接引入进来,就像import numpy as np一样,以后看见np就知道是numpy,pd就是pandas,plt就是matplotlib。
三、pandas的核心数据结构
上一篇文章讲了numpy,numpy中最重要的数据结构就是ndarray,就是多维数组,但是ndarray最大的问题是数据没有直观的标签,如果要建立对应的标签需要使用其他方式存储,标签就像是Excel中的表头,代表一列或一行数据是什么。在pandas中有两种最重要的数据结构,Series和DataFrame,它们都有标签,操作非常方便。
1.Series
Series对象就像是1一个带标签的一维数组,科目是索引,成绩是数组中的值。
2.DataFrame
DataFrame就非常像Excel表格,学号是索引,可以从DataFrame中抽出Series来得到小明的成绩。
今天就介绍到这里,明天介绍Series和DataFrame的具体用法。
领取专属 10元无门槛券
私享最新 技术干货