pandas每天一题-题目9：计算平均收入的多种方式

咋咋

发布于 2021-09-01 14:21:59

1.4K0

这是一个关于 pandas 从基础到进阶的练习题系列，来源于 github 上的 guipsamora/pandas_exercises 。这个项目从基础到进阶，可以检验你有多么了解 pandas。

我会挑选一些题目，并且提供比原题库更多的解决方法以及更详尽的解析。

计划每天更新一期，希望各位小伙伴先自行思考，再查看答案。如果对你有帮助，记得转发推荐给你的好友！

上期文章：pandas每天一题-题目8：去重计数的多种实现方式

后台回复"数据"，可以下载本题数据集

如下数据：

数据描述：

需求：计算订单平均收入？

说明：

假如有10笔订单，总收入(quantity * item_price)是200，那么订单平均收入 = 200/10=20

虽然需求很简单，但有些实现方式考验你的 groupby 理解程度！

下面是答案了

方式1

初学者容易给出的错误答案是：

df = pd.read_csv('chipotle.tsv',sep='\t',converters={'item_price': lambda x: float(x[1:-1])})
df.eval('quantity * item_price').mean()

问题在于数据颗粒度不是一个订单，而是一个订单中的明细项。

因此第一种方式就是调整颗粒度：

(
    df.groupby('order_id')
    .apply(
        lambda g: g.eval('quantity * item_price').sum()
    )
    .mean()
)

21.394231188658654

使用 groupby+ apply 比较慢，我们可以把计算收入放在分组之前：

(
    df.eval('revenue=quantity * item_price')
    .groupby('order_id')
    .agg({'revenue':sum})['revenue']
    .mean()
)

有没有发现，收入只是一个临时变量，但代码中却多次出现(revenue)。可否省略？这引出方式2

pandas允许直接对列(Series)做分组：

(
    df.eval('quantity * item_price')
    .groupby(df.order_id)
    .sum()
    .mean()
)

点评：