我有一个csv文件,它包含以下格式的数据。我的csv文件相当大,大约2000值。然而,这些值并不是平均分布在每一个小时。例如:
我有237 samples from hour 3 and only 4 samples from hour 6。另外,我应该指出,BSs可以从多个sources.The值中收集,这些值总是来自20-100。正因为如此,它给出了一个扭曲的结果。对于每一个小时,我计算那个小时的BSs之和除以那个小时的样本数。主要目的是了解BSs是如何随时间发展<
pandas有没有一种内置的方法,可以在同一列df["returns"]上应用两个不同的聚合函数f1, f2,而不必多次调用agg()?示例数据帧:import datetime as dtdf = pd.DataFrame:
# Assume `f1` and `f2` are defined for aggregating
我实际上是在使用vaex,但是用pandas来回答也很好。
pandas pd.cut函数在绑定方面似乎很有用,但是它生成一个分类列(category dtype),它看起来像bin中所有值的列表。是否有办法将其更改为标识每个垃圾箱的增量数字(谢谢jezreal给出了这部分答案)?我只需要一个bin号,然后groupby纬度和经度列上的bin数和平均值(mean)。我还需要计算热图条目的强度。, l