腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4541)
视频
沙龙
1
回答
如
何在
Spark
中一
次
对
多
列
进行
聚合
、
我有一个有
多
列
的dataframe。我希望按其
中一
列
进行
分组,并一
次
性
聚合
所有其他
列
。假设表有4
列
,cust_id,f1,f2,f3,我想按cust_id分组,然后得到avg(f1),avg(f2)和avg(f3).The表将有很多
列
。有什么提示吗?下面的代码是一个很好的开始,但是因为我有很多
列
,所以手动编写它们可能不是一个好主意。
浏览 1
提问于2016-08-13
得票数 5
回答已采纳
1
回答
JDBCRDD或RDD中的
聚合
、
、
、
我是Sacla和
Spark
的新手,我正在尝试使用SqlServer创建一个使用jdbcRDD的
Spark
查询,并使用映射和
聚合
对
其
进行
一些转换。这就是我所拥有的,一个包含n个字符串列和m个数字
列
的表。我要寻找的是创建一个等级档案结构,
对
字符串
进行
分组,并
聚合
数字
列
,
如
|->A1|->A2B |-
浏览 4
提问于2015-10-01
得票数 0
回答已采纳
2
回答
Spark
SQL -如何避免使用字符串
聚合
列
进行
基于排序的
聚合
我使用的是
Spark
SQL 2.2.0。在执行查询时,
如
: from TB1 group by COL1").explain()在GROUP BY子句中指定字符串列不会强制基于排序的
聚合
。然而,与仅仅比较两个值相比,收集一组不同的值、
对
其
浏览 32
提问于2017-12-11
得票数 6
1
回答
在
spark
sql中选择数组类型
、
我在cassandra DB中有一个表,其
中一
列
包含ip地址列表,
如
{['10.100.164.33','10.100.164.36','10.100.164.37'}。现在我想通过
spark
sql
进行
查询,比如选择其
中一
个ip是10.100.164.36的行。如
何在
spark
sql中查询。
浏览 4
提问于2017-05-22
得票数 0
1
回答
使用
Spark
组
对
PairRDD
进行
高效的DataFrame操作
、
、
、
当涉及到
聚合
操作时,这个问题是关于DataFrame和RDD之间的二元性的。在
Spark
中,可以使用表生成UDF
进行
自定义
聚合
,但创建其
中一
个比使用RDDs可用的
聚合
函数
对
用户的友好性要低得多,特别是在不需要表输出的情况下。是否有一种有效的方法可以将对RDD操作(
如
aggregateByKey )应用于已使用组分组或使用ordered
进行
排序的DataFrame?
浏览 3
提问于2015-08-03
得票数 4
回答已采纳
1
回答
星火GroupBy和
聚合
字符串生成基于条件的字符串计数图
、
、
我有一个有两个
多
列
的dataframe,其中两个是id和label,如下所示。1| "abc"|| 2| "def"|+---+---+---++---+---+--+--+--+--+--+--+---+---
浏览 1
提问于2020-01-15
得票数 0
回答已采纳
1
回答
SSIS
聚合
转换
我需要做一个
聚合
,它对一个字段
进行
分组并
对
该字段
进行
计数, 我遇到的问题是
聚合
来自多播。我尝试从
多
播中
进行
排序,然后
进行
聚合
,但我丢失了所有其他
列
,我需要它们。我尝试添加另一个来自多播的排序,这样我就可以拥有所有
列
,并将所有转换合并到一个合并中,但包在来自多播的排序上挂起。
多
播也被路由到条件拆分中,其
中一
个拆分将具有一个
聚合
,该
聚合</e
浏览 12
提问于2017-07-19
得票数 0
2
回答
如
何在
DataFrame中跨组使用LinearRegression?
、
、
、
假设我的
spark
DataFrame (DF)看起来像----------------------------id | intercept| slope ----------------lr_object.intercept_, lr_ob
浏览 1
提问于2017-05-04
得票数 1
1
回答
当一个数据集涉及
聚合
时如何连接两个流数据集
、
、
、
、
我在下面的代码片段中出现了错误-.add("quantity", IntegerType)创建流源数据集.select(fr
浏览 3
提问于2020-02-18
得票数 0
1
回答
当sum()
列
时,我得到错误AttributeError:'DataFrame‘对象没有属性'sum’
、
、
count| country|| 12| Ireland|+-----+--------+ 当我添加sum()函数以获得第一
列
'
浏览 3
提问于2017-05-29
得票数 1
2
回答
在groupby子句中,错误的含义是什么不能处理非唯一的多个索引?
、
、
、
、
我有一个数据,它有三个级别的索引,我希望计算一个值偏离平均值有多大。但根据我的指数,对于不同的群体,我有不同的平均值。这就是我试过的:但是,我得到了一个错误,我在下面插入了堆栈跟踪。我不知道为何会有这样的问题。 <ipython-input-4-678992689ff2>
浏览 2
提问于2016-03-17
得票数 8
1
回答
MongoDB火花连接器-
聚合
速度慢
、
、
、
我正在运行相同的
聚合
管道与星火应用程序和Mongos控制台。在控制台上,数据是在眨眼之间获取的,只需要第二
次
使用"it“来检索所有预期的数据。
如
您所见,正在启动242项任务以获取结果。我不知道为什么会启动这么
多
的任务,而MongoDB
聚合
只返回40个文档。它看起来有一个很高的开销。/output"); 然后,我使用hdfs dfs -getmerge /user/
spark
/output/ output.csv并<em
浏览 0
提问于2016-11-04
得票数 5
回答已采纳
1
回答
在中查找10,000
列
的平均值和相关性
、
、
、
我有10K
列
和7000万行的DF。我要计算10K
列
的平均值和相关性。我做了下面的代码,但由于代码大小64K问题(),它无法工作。有谁试过有10K
列
的DF?是否有改善工作表现的建议?
浏览 3
提问于2016-10-14
得票数 4
1
回答
星火ML转换器-使用rangeBetween在窗口上
聚合
、
、
、
、
我想要创建自定义
Spark
转换器,它使用构造over window在滚动窗口中应用
聚合
功能。我希望能够在
Spark
管道中使用这个变压器。"cts", sum("someColumnName").over(w)) 窗口w包括当前事务和从当前事务到700 ms内
浏览 2
提问于2017-11-03
得票数 0
回答已采纳
3
回答
使用RDD从CSV文件中过滤数据
、
我
对
Spark
还不熟悉,并试图找出如
何在
具有多个条件的RDD中使用筛选器,并获得records.Scenario的计数如下: 有一个CSV文件,它有
多
列
标题,
如
ID,日期,描述,类型,年份等。
浏览 1
提问于2018-10-12
得票数 0
回答已采纳
1
回答
SQL -转置查询数据,并在
、
我再一
次
来寻求你的指导。我不知道这有
多
可能,但我只能希望。 我想知道现在是否有可能转换数据,以便每个日期有24个单独的每小时条目?因此,与其在2014-01-01年期间,在一个单独的
列
中每小时都有一个读数的单行,是否有可能对其
进行
修改,使之只有两
列</e
浏览 4
提问于2021-10-12
得票数 0
回答已采纳
1
回答
熊猫群的集合忽略空白或无值
、
、
我
对
蟒蛇和熊猫很陌生。如
何在
忽略空白/None/NaN值的
多
列上应用groupby和
聚合
?基本上,我希望按日期
对
列
进行
聚合
,并
对
其余的
列
进行
计数,忽略无/空/NaN值。None None NaN 2013-11-12我试图在这些值上应用groupby并计数增益函
浏览 3
提问于2015-09-14
得票数 2
2
回答
火花:在装载过程中分组
、
通常,我加载csv文件,然后运行不同类型的
聚合
,例如,使用
Spark
运行"group“。我想知道是否有可能在文件加载期间启动这种操作(通常是几百万行),而不是
对
它们
进行
顺序化,以及它是否值得(节省时间)。为了理解
Spark
的工作原理,groupBy (或aggregate)将被“推迟”到加载整个文件csv。如果这是正确的,那么加载和分组是否可以在“相同的”时间运行,而不是
对
这两个步骤
进行
排序?
浏览 2
提问于2016-08-21
得票数 3
回答已采纳
2
回答
Cassandra群和过滤结果
、
、
、
、
quantity) {'123': 33, '456': 14, '789': 15} 但是,通过映射值
进行
过滤似乎是不可能的,既不使用
聚合
的最终函数,也不使用单独的函数。
浏览 5
提问于2015-07-28
得票数 2
2
回答
ApacheSpark2.1-- Row对象的Scala长/重属性
、
、
、
我们已经用Scala2.11编写了一个
spark
应用程序,它运行在
Spark
2.1.0独立集群上。根据设计/要求,我们已经构造了具有很多直接
列
(
如
100 s)的row对象,并且很少有嵌套
列
,其
中一
些嵌套
列
也很重,比如有20k到30k的序列。也有匹配的案例类来使用星火数据集。02... column_151 = Seq, column_152 = Seq...column_160 = S
浏览 0
提问于2017-11-09
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
灵活强大:iObjects Java for Spark模块扩展开发
万亿级数据规模下的倾斜调优
深度对比Apache CarbonData、Hudi和Open Delta三大开源数据湖方案
Spark之数据倾斜
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券