鉴于吸取昨天的教训……
我……
昨天内容太多了花了我好多时间排版……
所以从今天开始一篇推文就写一节……
或者内容不多的部分拼凑起来……
今天要写的是Pandas基础的第一节
先说一下,Pandas基础这块一共分为三部分:
1⃣️Pandas的数据结构介绍
2⃣️基本功能
3⃣️汇总和计算描述统计
今天先总结第一部分。
总述
Pandas的数据结构介绍
这里一共是三个部分:Series,DataFrame,索引对象,可能和原书上的逻辑有些不太一样,但是毕竟自己总结,什么好用用什么~
最开始需要导入Pandas及Pandas的Series和DataFrame。
(我发现在Mac上截图比导出图片清晰度更高……)
01
Series
定义
Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。
创建方式
创建方式一共有三种:
1⃣️最简单的形式:通过我数组产生
2⃣️对各个数据点进行标记的索引
3⃣️直接通过这个字典来创建Series
应用
应用一共是六个部分:
通过索引的方式选取Series中的单个或一组值:
类似于NumPy的运算:根据布尔型数组进行过滤、标量乘法、应用数学函数等:
缺失数据检测:
根据运算的索引标签自动对齐数据:
name属性:
索引修改方式:通过赋值就地修改:
02
DataFrame
定义
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的
值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可
以被看做由Series组成的字典(共用同一个索引)。DataFrame中的数据是以一个
或多个二维块存放的(而不是列表、字典或别的一维数据结构)。
创建方式
创建方式一共有两种:
1⃣️直接传入一个由等长列表或NumPy数组组成的字典
2⃣️嵌套字典
应用
DataFrame应用这块比较简单,基本上一看就能明白是什么意思,所以这里没有写代码了。另外要注意的一点就是,Python2和Python3有很多细节都是不一样的,需要在代码中慢慢注意到。
03
索引对象
这一节的内容不是很复杂,主要是定义和一些基本特性:
pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index,Index对象不可变,用户不能对其进行修改。
不能对其进行修改这个在代码上更体现出来,主要是如果尝试进行修改系统会报错:
不可变能使labels对象在多个数据结构之间安全共享:
与python的集合不同,pandas的Index可以包含重复的标签:
Index的方法和属性:
哇。。。居然要跨年了。。。
2019年就要来了~
年初立的Flag好像没有一件完成了呢~
哈哈哈
不过没关系新的一年也要有新的目标鸭~
冲鸭~!
同时也祝大家新年快乐!~
领取专属 10元无门槛券
私享最新 技术干货