为什么UserDefinedAggregateFunction中的MutableAggregationBuffer需要bufferSchema？

、

当我试图为我们这个复杂的问题创建一个联非新议程的时候，我决定从一个基本的非洲发展新议程开始，它返回原样的专栏。由于我刚开始使用Spark / Scala，有人能帮我指出我的错误吗？以下是守则：import org.apache.spark.sql.expressions.UserDefinedAggregateFunctionin

浏览 1提问于2016-11-14得票数 2

回答已采纳

1回答

、、、、

我正在研究在spark中实现UserDefinedAggregateFunction，并且发现需要一个bufferSchema。我知道如何创建它，但我的问题是为什么它需要bufferSchema？它不仅需要一个大小(聚合中使用的元素数量)、一个inputSchema和一个dataType？bufferSchema不是在sql的中间步骤中将其限制为UserDefinedTypes吗？

浏览 13提问于2019-08-14得票数 2

1回答

用于Spark的累积产品UDF

、、

我在其他文章中也看到过这样做是为了数据格式：Input data:| val|| 1 || 3 |如果我想取这个之和，我可以做一些简单的事情spark.sql("""Select SUM(table.val) from table""&

浏览 0提问于2020-04-09得票数 1

回答已采纳

1回答

collect_set等效火花1.5UDAF方法验证

、、、

有人能告诉我火花1.5中collect_set的等效函数吗？class CollectSetFunction[T](val colType: DataType) extends UserDefinedAggregateFunction {def inputSchema: StructType = def buffer

浏览 2提问于2016-10-12得票数 0

1回答

创建具有相同Id: DataFrame的所有行的嵌套JSON

、、

我有一个有三列的DataFrame df4 val df1 = Seq((1, "collect_list($"data").alias("data")).withColumn("executor_id", lit("e2")) DF4的内容类似|[{"n

浏览 0提问于2019-02-13得票数 1

2回答

在GraphFrame上聚合AggregateMessages时，如何保留所有元素？

、、

.我想运行一个聚合，以获取从目标顶点发送到源顶点的所有消息(而不仅仅是总和、第一个、最后一个等)。因此，我想要运行的命令类似于：|CCC| [1, 2]|+---+---------------+ 我可以将上面的函数与first或last一起使用，而

浏览 5提问于2018-04-07得票数 1

1回答

在PySpark中连接列表

在我的Spark Dataframe中，有一列是字符串"1 1 1 1 0 0 0 0 0""1 1 1 1 0 0 0 0 0""1 1 1 1 0 0 0 0 0"我希望从这一列的每一行中收集字符串，并通过连接创建一个单独的列表。然后，拆

浏览 3提问于2018-07-23得票数 0

1回答

火花窗口函数的求和值及条件的重新启动

、、

如果某一列为'relative'，则需要和值，如果为'absolute'，则重新启动和值。这里我定义了我的dataFrame： (1, "2018-02-21", 'relative, 3.00), (1, "2018-02-

浏览 3提问于2018-01-10得票数 1

回答已采纳

1回答

计算多列的模式

、、、

我想要在同一时间在星火中计算多列的模式，并使用这个计算值来推断DataFrame中的缺失。我发现了如何计算平均值，但我认为模式更复杂。multiple_mean = df.na.fill(df.columns.zip().toMap) 我可以用蛮力的方式计算一个模式谢谢你的帮助。

浏览 0提问于2017-10-14得票数 0

回答已采纳

1回答

Spark SQL:无法在窗口函数中使用聚合

、、

如果用户处于非活动状态超过30分钟(30*60秒)，则会分配一个新的session_id。我是Spark SQL的新手，正在尝试使用Spark SQL上下文复制相同的过程。但我遇到了一些错误。FROM ) 我尝试在Spark-Scala中使用相同的SQL在窗口函数中。

浏览 2提问于2017-02-24得票数 1

1回答

火花数据格式中模式(最常见元素)的聚合

、、

在Spark中，我使用的是一个库，我应该为它提供聚合，然后库进行一系列联接/群比，并在最后调用聚合。我试图避免违反封装(虽然我可以，如果必要的话)，只需调用这个方法的聚合(传统的和或最小等)。

浏览 2提问于2016-10-25得票数 2

回答已采纳

1回答

如何编写一个简单的行收集的Spark UDAF？

、、

对于我的特定需求，我想编写一个UDAF，它只是简单地收集所有输入行。输入是两列行，双类型；返回的数据类型为ArrayList def inputSchemaArray(Stru

浏览 1提问于2017-02-21得票数 4

回答已采纳

1回答

如何编写用户定义的聚合函数？

、、

有一个叫做非类型化用户定义聚合函数的部分，它有一些我无法理解的示例代码。;import org.apache.spark.sql.types.DataType变量inputSchema和bufferSchema的意义是什么？我很惊讶它们的存在，因为它们从来没有被用来创建任何DataFrames。他们应该出现在每个UDF吗？如果是，那他们应该是完全相

浏览 8提问于2017-07-05得票数 1

回答已采纳

1回答

在Apache中，从用户定义的聚合函数返回多个数组

、、、、

我正在尝试使用Apache在Java中创建一个用户定义的聚合函数，该函数在完成时返回多个数组。我已经在网上搜索过了，找不到任何关于如何做到这一点的例子或建议。我能够返回一个数组，但无法知道如何在计算()方法中以正确的格式获取数据以返回多个数组。UserDefinedAggregateFunction customUDAF = new CustomUDAF(); DataFrame resultingDataFrame = dataFrame.groupBy，但是关键的方

浏览 4提问于2015-11-26得票数 9

回答已采纳

2回答

为什么可变地图在星火中的UserDefinedAggregateFunction中自动变为不可变

、、、

我正试图在星火中定义一个UserDefinedAggregateFunction(UDAF)，它计算组的一个列中每个唯一值的出现次数。: MutableAggregationBuffer, input:Row)方法中的buffer变量。它是传递给update方法的相同变量吗？buffer也是mutableAggregationBuffer，所以它应该是可变的，对吗？ 为什么我的mu

浏览 2提问于2016-04-14得票数 7

回答已采纳

3回答

在Scala中编写Spark UDAF以返回数组类型作为输出

、、

我有一个如下的数据框架-(1,"A",100),(1,"B",200),(2,"C",300),输出数

浏览 0提问于2018-04-05得票数 1

1回答

Spark SQL -聚合集合？

、

DF1可以在各行的列A中具有值{3，4，5}。在这一点上，我在结果数据帧中有了一个集合。有没有办法把这个集合和另一个集合聚合起来？基本上，如果我有2个来自第一次聚合的数据帧，我希望能够聚合它们的结果。

浏览 10提问于2017-08-04得票数 0

回答已采纳

1回答

将java函数包装在pyspark中

、、、

我正在尝试创建一个用户定义的聚合函数，我可以从python调用该函数。我试着跟踪问题的答案。;import org.apache.spark.sql.types.StructFieldorg.apache.spark.sql.types.DataTypes; public class MySum extends UserDef

浏览 2提问于2016-03-08得票数 7

回答已采纳

1回答

如何在PySpark中对组的每一行数据进行迭代。？

、、

我希望根据组上一行中列的值来设置列的值。然后，更新后的值将在下一行中使用。C栏是根据A栏和B栏导出的。还有一些其他的条件，但我正在为这个部分而奋斗。 WHEN A=1 AND B> 0 THEN prev +1 END AS ATable 这就是我为联非新议程所

浏览 1提问于2017-01-30得票数 4

回答已采纳

1回答

UDAF Spark中的多列输出

、、

我从我的mongodb中获得了一些数据，如下所示： | view | data | | xx我写了一个这样的UserDefinedAggregateFunction，因为我想在视图上分组。我知道这是一个懒惰的计算，这就是为什么我在df.show()中得到一个错误的原因。据我所知，它可以执行第一组并结束evaluate函数。因为第二种方法可以

浏览 18提问于2017-03-12得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

星星之火SQL(v2.0) Scala中的UDAF返回空字符串