Pandas聚合中的自定义函数

文章/答案/技术大牛

发布

2回答

熊猫无法使用聚合函数列表进行聚合。

、、

如何指定自定义聚合函数，使其在pandas.DataFrame.aggregate的列表参数中使用时行为正确import pandas as pddef ok_mean(x): df.aggregate(['mean', np.max, ok_mean])(不在列表中</

浏览 4提问于2019-02-26得票数 4

1回答

Python中的自定义聚合函数

、、

我一直在为Pandas中的自定义聚合函数的问题而挣扎，而我一直无法解决这个问题。':np.arange(1, 5)})df.agg({'value': 'mean'})但是，如果我定义了以下自定义mean函数</em

浏览 6提问于2020-08-24得票数 2

回答已采纳

1回答

在PySpark中，我试图定义一个自定义聚合器，它正在累积状态。在斯帕克2.3有可能吗？AFAIK，现在可以通过使用PySpark关键字调用pandas_udf，从Spark2.3 (cf )开始在PandasUDFType.GROUPED_AGG中定义自定义的PandasUDFType.GROUPED_AGG但是，考虑到它只是将一个函数作为参数，我认为在聚合过程中不可能携带状态。从Scala中，我

浏览 0提问于2018-10-02得票数 1

1回答

如何在聚集熊猫数据时进行字符串操作？

、

我需要对熊猫的数据进行一些汇总。我用的是熊猫版本1.3.3。在这个例子中，有人能告诉我我做错了什么吗?使用自定义函数进行字符串聚合的正确方

浏览 12提问于2022-03-03得票数 1

回答已采纳

1回答

、

FROMHERE xxxxxxCode mean=('sum',(lambda x: mean(absolute(x - mean(x)))))模仿平均偏差，因为它不是直接构建在Numpy中，我得到以下错误： KeyError: "[('ar', '<lambda>')] not in in

浏览 11提问于2019-11-12得票数 1

回答已采纳

1回答

pandas group by agg根据pattern在组内选择

、、

我正在尝试编写一个自定义聚合函数，它将始终从每个组中选择以最少零结尾的字符串。例如，下面是一个数据帧示例： import pandas as pd df = pd.DataFrame({"group" : [1, 1, 1, 2, 2], "value" : ["10534","30400", "30400", "34355", "35000"]}) 我在这里

浏览 28提问于2021-08-16得票数 0

回答已采纳

1回答

pandas自定义聚合函数

、、、

我有一个pandas dataframe，下面的命令对它起作用： house.groupby(['place_name'])['index_nsa'].agg(['first','last']) 它给了我我想要的现在，我想创建一个自定义聚合值，它给出了第一个值和最后一个值之间的百分比变化。我在对值进行数学运算时遇到了错误，所以我假设我必须将它们转换为数字。house.groupby(['place_name

浏览 22提问于2019-06-23得票数 1

回答已采纳

1回答

将自定义聚合函数应用于熊猫DataFrame

、

我想返回col_x * col_y之和除以col_x之和import pandas as pd return sum(x * y) / sum(x) result = df.agg(aggregation_function, axis="columns", args=(&q

浏览 1提问于2020-09-29得票数 2

回答已采纳

1回答

pandas.groupby.aggregate

、、、

我试图使用自定义聚合函数来提高pandas.groupby.aggregate操作的性能。我注意到--如果我错了-- pandas按顺序调用每个块上的聚合函数(我怀疑它是一个简单的for-loop)。由于pandas在很大程度上是基于numpy的，是否有一种方法可以使用numpy的矢量化特性来加速计算？在我的代码<e

浏览 1提问于2020-12-01得票数 5

回答已采纳

0回答

在pandas* DataFrame的多个列中应用自定义函数*

、

[1,2,3], [4,3,3], [3,2,5], [2,2,4]]我想对每一行应用一个自定义函数然后我想按键聚合(例如，average)。result1 2 32.673 4 19.00 我知道我可以通过使用循环来做到这一点，但我希望用最python/pandas</em

浏览 4提问于2018-07-14得票数 0

1回答

在dask上按组应用函数的最佳实践

、、

我有一个很大的数据集存储在hdf5文件中，我需要执行一些操作。df.groupby(['center', 'sku'])['units'].agg([np.mean]).compute() 但是，如果我尝试应用一个函数units'] \这需要大约13分钟，

浏览 12提问于2019-11-15得票数 2

回答已采纳

2回答

pandas dataframe中的值按键排序类似于python的sorted()

、

我需要按自定义聚合函数对数据帧进行排序，例如，它们的值之和，类似于带有key参数的sorted函数： sorted([(1, 10), (1, 2), (2, 3)], key=sum) 这就给出了：[(1, 2), (2, 3), (1, 10)] 我知道在pandas中我可以创建一个新的聚合列并按列排序： df = pd.DataFrame([(1, 10), (1, 2), (2, 3)])df[2] = df

浏览 46提问于2019-06-17得票数 1

回答已采纳

1回答

将PySpark中的两个DataFrames组合成矩阵

、、、

14 | ['ghi', 'jkl']|+----+---------------+ 我希望通过组合上面的两个DataFrame并在关键字和python函数定义的标记之间执行一些复杂的计算

浏览 2提问于2019-11-22得票数 0

2回答

在Python Pandas中，如何使用like R dplyr mutate_each

、、、

在Python Pandas中，我想通过对多个列执行多个聚合函数来添加列，比如R mutate_each。例如，Python Pandas能否实现与以下R脚本相同的处理？%>% mutate_each(funs(min, max, mean), starts_with("Sepal")) 然而，我能够实现与使用Pandas的变异体相同的处理。如下面

浏览 3提问于2017-10-18得票数 5

2回答

Pandas滚动:聚合布尔值

、、

在pandas.DataFrame中有没有滚动的" any“函数？或者，是否有其他方法可以在滚动函数中聚合布尔值？考虑一下： import pandas as pd s = pd.Series([True, True, False, True, False, False, FalseAttributeError: 'Rolling' object has no attribute 'any&

浏览 23提问于2020-03-24得票数 1

回答已采纳

1回答

根据列中的值，有条件地聚合具有不同函数的分组数据框

、

，方法是对group_id进行分组，然后对每个组应用不同的聚合函数。为了确定使用哪个聚合函数，我想设置一个条件，该条件引用df中的另一个列，即condition。具体地说，我想取"ones"组的val中所有元素的和和"tens"组中所有元素的平均值。(但我不需要从condition中提取聚合函数的名称。condition列

浏览 21提问于2021-01-24得票数 1

回答已采纳

1回答

Pandas.DataFrame.GroupBy.agg，聚合函数中需要的独立列。如何让它进入agg？

、、

我有一个带有两级MultiIndex的Pandas DataFrame对象。此外，它显然包含许多额外的列(例如'A'，'B'，'C'，'D'，'E')。我想对DataFrame中的单个多索引执行一些聚合函数，这些索引来自可用列的子集(例如，'C'，'D'，'E')中的<

浏览 4提问于2020-04-29得票数 0

1回答

用火花放电写自定义的联非新议程

、、、

我需要编写一个自定义的pySpark，我遇到了这个例子。在类似的行中，如线程的最后一部分所示，我提出了以下函数 StructField("keyDoubleType()), StructField("bf_signature", Binary())

浏览 1提问于2019-04-04得票数 1

1回答

用于聚合的OrientDB注册自定义函数

正如本页底部所写的，我们可以在OrientDB中构建自定义函数。但是，这个示例只显示了执行内联操作的自定义函数。有任何方法可以编写执行聚合操作的OrientDB函数吗？因此，问题更多的是如何访问自定义函数中该字段的“当前”记录值，以便执行聚合操作。

浏览 12提问于2015-08-08得票数 0

回答已采纳

1回答

使用df.agg(...)当自定义函数包含在列表中时，在函数列表上失败

、

我希望聚合一组列，每个列都有两个函数：np.mean和quart_1。所有列都是数字。np.mean是从numpy导入的，quart_1是一个自定义函数，它返回列的第一个四分位数： return np.percentile(x, 25) 问题是，如果我执行错误似乎是，如果我将原始DataFrame包含在列表中，quart_1将返回没有任何聚合的原始Pandas (带有一些标签)

浏览 3提问于2017-08-05得票数 1

点击加载更多

熊猫无法使用聚合函数列表进行聚合。

Python中的自定义聚合函数

PySpark中的有状态聚合函数

如何在聚集熊猫数据时进行字符串操作？