腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
星星之火SQL(v2.0) Scala
中
的
UDAF返回空字符串
、
当我试图为我们这个复杂
的
问题创建一个联非新议程
的
时候,我决定从一个基本
的
非洲发展新议程开始,它返回原样
的
专栏。由于我刚开始使用Spark / Scala,有人能帮我指出我
的
错误吗?以下是守则:import org.apache.spark.sql.expressions.
UserDefinedAggregateFunction
in
浏览 1
提问于2016-11-14
得票数 2
回答已采纳
1
回答
为什么
UserDefinedAggregateFunction
中
的
MutableAggregationBuffer
需要
bufferSchema
?
、
、
、
、
我正在研究在spark
中
实现
UserDefinedAggregateFunction
,并且发现
需要
一个
bufferSchema
。我知道如何创建它,但我
的
问题是
为什么
它
需要
bufferSchema
?它不仅
需要
一个大小(聚合中使用
的
元素数量)、一个inputSchema和一个dataType?
bufferSchema
不是在sql
的
中间步骤中将其限制为UserDefinedTypes吗?
浏览 13
提问于2019-08-14
得票数 2
1
回答
用于Spark
的
累积产品UDF
、
、
我在其他文章
中
也看到过这样做是为了数据格式:Input data:| val|| 1 || 3 |如果我想取这个之和,我可以做一些简单
的
事情spark.sql("""Select SUM(table.val) from table""&
浏览 0
提问于2020-04-09
得票数 1
回答已采纳
1
回答
collect_set等效火花1.5UDAF方法验证
、
、
、
有人能告诉我火花1.5
中
collect_set
的
等效函数吗?class CollectSetFunction[T](val colType: DataType) extends
UserDefinedAggregateFunction
{def inputSchema: StructType = def
buffer
浏览 2
提问于2016-10-12
得票数 0
1
回答
创建具有相同Id: DataFrame
的
所有行
的
嵌套JSON
、
、
我有一个有三列
的
DataFrame df4 val df1 = Seq((1, "collect_list($"data").alias("data")).withColumn("executor_id", lit("e2")) DF4
的
内容类似|[{"n
浏览 0
提问于2019-02-13
得票数 1
2
回答
在GraphFrame上聚合AggregateMessages时,如何保留所有元素?
、
、
.我想运行一个聚合,以获取从目标顶点发送到源顶点
的
所有消息(而不仅仅是总和、第一个、最后一个等)。因此,我想要运行
的
命令类似于:|CCC| [1, 2]|+---+---------------+ 我可以将上面的函数与first或last一起使用,而
浏览 5
提问于2018-04-07
得票数 1
1
回答
在PySpark
中
连接列表
在我
的
Spark Dataframe
中
,有一列是字符串"1 1 1 1 0 0 0 0 0""1 1 1 1 0 0 0 0 0""1 1 1 1 0 0 0 0 0"我希望从这一列
的
每一行
中
收集字符串,并通过连接创建一个单独
的
列表。然后,拆
浏览 3
提问于2018-07-23
得票数 0
1
回答
火花窗口函数
的
求和值及条件
的
重新启动
、
、
如果某一列为'relative',则
需要
和值,如果为'absolute',则重新启动和值。这里我定义了我
的
dataFrame: (1, "2018-02-21", 'relative, 3.00), (1, "2018-02-
浏览 3
提问于2018-01-10
得票数 1
回答已采纳
1
回答
计算多列
的
模式
、
、
、
我想要在同一时间在星火中计算多列
的
模式,并使用这个计算值来推断DataFrame
中
的
缺失。我发现了如何计算平均值,但我认为模式更复杂。multiple_mean = df.na.fill(df.columns.zip().toMap) 我可以用蛮力
的
方式计算一个模式谢谢你
的
帮助。
浏览 0
提问于2017-10-14
得票数 0
回答已采纳
1
回答
Spark SQL:无法在窗口函数中使用聚合
、
、
如果用户处于非活动状态超过30分钟(30*60秒),则会分配一个新
的
session_id。我是Spark SQL
的
新手,正在尝试使用Spark SQL上下文复制相同
的
过程。但我遇到了一些错误。FROM ) 我尝试在Spark-Scala中使用相同
的
SQL在窗口函数
中
。
浏览 2
提问于2017-02-24
得票数 1
1
回答
火花数据格式
中
模式(最常见元素)
的
聚合
、
、
在Spark
中
,我使用
的
是一个库,我应该为它提供聚合,然后库进行一系列联接/群比,并在最后调用聚合。我试图避免违反封装(虽然我可以,如果必要的话),只需调用这个方法
的
聚合(传统
的
和或最小等)。
浏览 2
提问于2016-10-25
得票数 2
回答已采纳
1
回答
如何编写一个简单
的
行收集
的
Spark UDAF?
、
、
对于我
的
特定需求,我想编写一个UDAF,它只是简单地收集所有输入行。输入是两列行,双类型;返回
的
数据类型为ArrayList def inputSchemaArray(Stru
浏览 1
提问于2017-02-21
得票数 4
回答已采纳
1
回答
如何编写用户定义
的
聚合函数?
、
、
有一个叫做非类型化用户定义聚合函数
的
部分,它有一些我无法理解
的
示例代码。;import org.apache.spark.sql.types.DataType变量inputSchema和
bufferSchema
的
意义是什么?我很惊讶它们
的
存在,因为它们从来没有被用来创建任何DataFrames。他们应该出现在每个UDF吗?如果是,那他们应该是完全相
浏览 8
提问于2017-07-05
得票数 1
回答已采纳
1
回答
在Apache
中
,从用户定义
的
聚合函数返回多个数组
、
、
、
、
我正在尝试使用Apache在Java
中
创建一个用户定义
的
聚合函数,该函数在完成时返回多个数组。我已经在网上搜索过了,找不到任何关于如何做到这一点
的
例子或建议。我能够返回一个数组,但无法知道如何在计算()方法
中
以正确
的
格式获取数据以返回多个数组。
UserDefinedAggregateFunction
customUDAF = new CustomUDAF(); DataFrame resultingDataFrame = dataFrame.groupBy,但是关键
的
方
浏览 4
提问于2015-11-26
得票数 9
回答已采纳
2
回答
为什么
可变地图在星火中
的
UserDefinedAggregateFunction
中
自动变为不可变
、
、
、
我正试图在星火中定义一个
UserDefinedAggregateFunction
(UDAF),它计算组
的
一个列
中
每个唯一值
的
出现次数。:
MutableAggregationBuffer
, input:Row)方法
中
的
buffer变量。它是传递给update方法
的
相同变量吗?buffer也是
mutableAggregationBuffer
,所以它应该是可变
的
,对吗?
为什么
我
的
mu
浏览 2
提问于2016-04-14
得票数 7
回答已采纳
3
回答
在Scala
中
编写Spark UDAF以返回数组类型作为输出
、
、
我有一个如下
的
数据框架-(1,"A",100),(1,"B",200),(2,"C",300),输出数
浏览 0
提问于2018-04-05
得票数 1
1
回答
Spark SQL -聚合集合?
、
DF1可以在各行
的
列A
中
具有值{3,4,5}。在这一点上,我在结果数据帧中有了一个集合。有没有办法把这个集合和另一个集合聚合起来?基本上,如果我有2个来自第一次聚合
的
数据帧,我希望能够聚合它们
的
结果。
浏览 10
提问于2017-08-04
得票数 0
回答已采纳
1
回答
将java函数包装在pyspark
中
、
、
、
我正在尝试创建一个用户定义
的
聚合函数,我可以从python调用该函数。我试着跟踪问题
的
答案。;import org.apache.spark.sql.types.StructFieldorg.apache.spark.sql.types.DataTypes; public class MySum extends
UserDef
浏览 2
提问于2016-03-08
得票数 7
回答已采纳
1
回答
如何在PySpark
中
对组
的
每一行数据进行迭代。?
、
、
我希望根据组上一行
中
列
的
值来设置列
的
值。然后,更新后
的
值将在下一行中使用。C栏是根据A栏和B栏导出
的
。还有一些其他
的
条件,但我正在为这个部分而奋斗。 WHEN A=1 AND B> 0 THEN prev +1 END AS ATable 这就是我为联非新议程所
浏览 1
提问于2017-01-30
得票数 4
回答已采纳
1
回答
UDAF Spark
中
的
多列输出
、
、
我从我
的
mongodb
中
获得了一些数据,如下所示: | view | data | | xx我写了一个这样
的
UserDefinedAggregateFunction
,因为我想在视图上分组。我知道这是一个懒惰
的
计算,这就是
为什么
我在df.show()
中
得到一个错误
的
原因。 据我所知,它可以执行第一组并结束evaluate函数。因为第二种方法可以
浏览 18
提问于2017-03-12
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
区块链应用:Coinbank为什么需要搭建去中化的交易所?
为什么迫切需要一套直接可落地的中台开发框架
为什么需要Pandas的DataFrame类型
企业管理中为什么需要进销存软件吗?
为什么区块链需要争取在企业中获得牵引力?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券