value category1 20 B3 40 B 我想添加一个mean列,其中包含每个类别的值的平均值。我不能按原样使用pandas函数,因为你不能在Dask中枚举groupby对象。这 import dask.dataframe as dd
list(d.groupby("category")) 引发KeyErro
如果CSV可以放在内存中,那么一个简单的两行代码就足够了:mean=data.groupby(data.A).mean()chunks=pandas.read_csv("report.csv",chunksize=whatever)
cmeans=pandas.concat([chunk.groupby(data.A).mean() for chunk i