前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >pandas系列 - (一)明细数据汇总简单场景应用

pandas系列 - (一)明细数据汇总简单场景应用

作者头像
forxtz
发布2020-10-27 17:20:31
1.2K0
发布2020-10-27 17:20:31
举报
文章被收录于专栏:源懒由码

官方文档:https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html

虽然可以直接查官方文档,不过还是结合一些实际场景,方便记忆,预计做一个使用的系列,涉及平时常见的数据处理应用。

从数据处理的角度来说,主要还是看怎么方便怎么来,少量的数据,简单的,直接EXCEL就可以完成了,大量的数据,或者涉及太多的表可以考虑使用python提高工作效率,没有绝对。

代码语言:javascript
复制
系列第一篇为,处理明细业务数据的python应用。
大致流程为:
1、读取源数据
2、源数据预处理
3、源数据分类汇总
4、源数据分类归并汇总

1、场景1:从多个excel读取同类型明细数据,并合并

代码语言:javascript
复制
# 读取数据
list_df = []
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='4',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='5',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='6',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='7',dtype=object))

# 存在 concat 和 append 两种方法,都可以用于行合并,相对来说,concat可以一次性合并多个df,效率比append高
# 且concat可以进行列级别的追加,所以,推荐学会使用concat就可以了
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html?highlight=concat#pandas.concat
# ignor_index = True 保证索引不会重复,join = 'outer' 自动扩充列
df = pd.concat(list_df, sort=False,ignore_index=True,join='outer')
df.head(2)

2、场景2:数据预处理,检索源数据中的缺失项目

代码语言:javascript
复制
df.isnull().any()   # 查看哪一列存在空值

在知道哪些列存在空值后,进行数据预预处理。注意:

1、对于多种类型的数据使用fillna或者where填充;否则会提示

代码语言:javascript
复制
TypeError: Cannot do inplace boolean setting on mixed-types with a non np.nan value

2、或者分同类型的列进行填充;

代码语言:javascript
复制
#df.fillna(0,inplace=True)  # 统一使用0值填充
#df.fillna(method='ffill',inplace=True) #向后填充
df.fillna(value={'地区':'其他','销售额':0},inplace=True)  # 使用字典填充

3、场景3:按地区、一类属性汇总销售额总数和平均值,aggfunc可以采用字典指定字段计算方式

代码语言:javascript
复制
pd.pivot_table(df, values=['销售额'], index=['地区','一类'], aggfunc={'销售额':[np.sum,np.mean]})

但是,这么汇总一个问题,作为报告还好,但是如果还需要继续分析,更希望是以明细的方式展现。因此:

代码语言:javascript
复制
table = pd.pivot_table(df, values=['销售额'], index=['地区','一类'], aggfunc={'销售额':[np.sum,np.mean]}).reset_index()
# 调整列名,从多重索引降为一层索引
table.columns = [''.join(x) for x in table.columns.tolist()]
table.head(2)

4、场景4:如:想看大地区的数据,则先需要对数据进行归并,如华南地区,华中地区等

代码语言:javascript
复制
# 需要有华南地区等参照表
dfcz = pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='dqcz',dtype=object)
dfcz.drop_duplicates(subset=['区域','省级'],keep=False,inplace=True)  # 去重
dic_cz = dict(zip(dfcz['省级'].tolist(),dfcz['区域'].tolist()))  # 通过两个列表形成字典
df2 = df.copy()
df2['转换区域'] = df2['地区'].map(dic_cz)  # 使用map进行转换
df2.head(2)

最后,再进行一次数据透视表

代码语言:javascript
复制
table = pd.pivot_table(df2, values=['销售额'], index=['转换区域','一类'], aggfunc={'销售额':[np.sum,np.mean]})
# 调整列名,从多重索引降为一层索引
table.columns = [''.join(x) for x in table.columns.tolist()]
table.head(2)

附:使用pandas修改源数据的一个注意事项,按照官方文档注释,请勿使用链式赋值的形式,否则你会不知道到底修改是否成功https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

代码语言:javascript
复制
参考链接:
Pandas 中 SettingwithCopyWarning 的原理和解决方案  https://www.jianshu.com/p/72274ccb647a
代码语言:javascript
复制
# 总之就是不允许使用筛选子数据来进行赋值
# 因为用了的话,你不知道有没有改到
# 所以,如果你需要修改,择直接在源数据上操作
# 对筛选后的数据进行操作,那么则使用copy()
pd.set_option('mode.chained_assignment','warn')
df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'],'Max Speed': [1, 2, 3, 4],'Max Speed2': [380., 370., 24., 26.]})

# 跨多行代码链接索引,这里分两部分操作可以进行赋值,但是不推荐
df2 = df.iloc[0:2,:]
df2.iloc[0,'Animal'] = 2

# 链式索引这样是不会修改!
df.loc[0:2,:]['Animal'] = 2   

# 直接赋值,这样修改才比较靠谱!
df.loc[0:2,'Animal'] = 2    

未完待续。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-10-13 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档