官方文档:https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html
虽然可以直接查官方文档,不过还是结合一些实际场景,方便记忆,预计做一个使用的系列,涉及平时常见的数据处理应用。
从数据处理的角度来说,主要还是看怎么方便怎么来,少量的数据,简单的,直接EXCEL就可以完成了,大量的数据,或者涉及太多的表可以考虑使用python提高工作效率,没有绝对。
系列第一篇为,处理明细业务数据的python应用。
大致流程为:
1、读取源数据
2、源数据预处理
3、源数据分类汇总
4、源数据分类归并汇总
1、场景1:从多个excel读取同类型明细数据,并合并
# 读取数据
list_df = []
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='4',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='5',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='6',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='7',dtype=object))
# 存在 concat 和 append 两种方法,都可以用于行合并,相对来说,concat可以一次性合并多个df,效率比append高
# 且concat可以进行列级别的追加,所以,推荐学会使用concat就可以了
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html?highlight=concat#pandas.concat
# ignor_index = True 保证索引不会重复,join = 'outer' 自动扩充列
df = pd.concat(list_df, sort=False,ignore_index=True,join='outer')
df.head(2)
2、场景2:数据预处理,检索源数据中的缺失项目
df.isnull().any() # 查看哪一列存在空值
在知道哪些列存在空值后,进行数据预预处理。注意:
1、对于多种类型的数据使用fillna或者where填充;否则会提示
TypeError: Cannot do inplace boolean setting on mixed-types with a non np.nan value
2、或者分同类型的列进行填充;
#df.fillna(0,inplace=True) # 统一使用0值填充
#df.fillna(method='ffill',inplace=True) #向后填充
df.fillna(value={'地区':'其他','销售额':0},inplace=True) # 使用字典填充
3、场景3:按地区、一类属性汇总销售额总数和平均值,aggfunc可以采用字典指定字段计算方式
pd.pivot_table(df, values=['销售额'], index=['地区','一类'], aggfunc={'销售额':[np.sum,np.mean]})
但是,这么汇总一个问题,作为报告还好,但是如果还需要继续分析,更希望是以明细的方式展现。因此:
table = pd.pivot_table(df, values=['销售额'], index=['地区','一类'], aggfunc={'销售额':[np.sum,np.mean]}).reset_index()
# 调整列名,从多重索引降为一层索引
table.columns = [''.join(x) for x in table.columns.tolist()]
table.head(2)
4、场景4:如:想看大地区的数据,则先需要对数据进行归并,如华南地区,华中地区等
# 需要有华南地区等参照表
dfcz = pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='dqcz',dtype=object)
dfcz.drop_duplicates(subset=['区域','省级'],keep=False,inplace=True) # 去重
dic_cz = dict(zip(dfcz['省级'].tolist(),dfcz['区域'].tolist())) # 通过两个列表形成字典
df2 = df.copy()
df2['转换区域'] = df2['地区'].map(dic_cz) # 使用map进行转换
df2.head(2)
最后,再进行一次数据透视表
table = pd.pivot_table(df2, values=['销售额'], index=['转换区域','一类'], aggfunc={'销售额':[np.sum,np.mean]})
# 调整列名,从多重索引降为一层索引
table.columns = [''.join(x) for x in table.columns.tolist()]
table.head(2)
附:使用pandas修改源数据的一个注意事项,按照官方文档注释,请勿使用链式赋值的形式,否则你会不知道到底修改是否成功https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
参考链接:
Pandas 中 SettingwithCopyWarning 的原理和解决方案 https://www.jianshu.com/p/72274ccb647a
# 总之就是不允许使用筛选子数据来进行赋值
# 因为用了的话,你不知道有没有改到
# 所以,如果你需要修改,择直接在源数据上操作
# 对筛选后的数据进行操作,那么则使用copy()
pd.set_option('mode.chained_assignment','warn')
df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'],'Max Speed': [1, 2, 3, 4],'Max Speed2': [380., 370., 24., 26.]})
# 跨多行代码链接索引,这里分两部分操作可以进行赋值,但是不推荐
df2 = df.iloc[0:2,:]
df2.iloc[0,'Animal'] = 2
# 链式索引这样是不会修改!
df.loc[0:2,:]['Animal'] = 2
# 直接赋值,这样修改才比较靠谱!
df.loc[0:2,'Animal'] = 2
未完待续。