腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
pyspark
:
collect_list
()
如何
存储
每行
组
中
剩余
元素
的
列表
我
的
数据集由两个变量组成:'customer‘和'sku’。使用
collect_list
()函数,我希望
每行
都
存储
一个变量,即该
组
中
还剩下多少行。我有这样
的
输出:| customer|Window.partitionBy('customer','sku').order
浏览 31
提问于2018-08-28
得票数 0
回答已采纳
2
回答
在没有自定义函数
的
情况下,
如何
在
PySpark
上将多个数组
的
交集处理成单个数组?
、
、
我有以下代码:('g1', 'a', 1), ('g1', 'a', 2), ('g1', 'b', 1), ('g1', 'b', 3),]
浏览 16
提问于2021-02-15
得票数 0
回答已采纳
4
回答
如何
使用
pyspark
collect_list
函数检索所有列
、
我有一个
pyspark
2.0.1。我正在尝试按我
的
数据框分组,并从我
的
数据框
中
检索所有字段
的
值。我发现将给我
的
国家和名称
的
属性和名称属性
的
值,它将给出
的
列标题为
collect_list
但是对于我
的
工作,我有大约15列
的
数据帧&
浏览 6
提问于2017-10-18
得票数 3
2
回答
PySpark
中
的
窗口函数和条件过滤器
、
、
是否有一种方法可以有条件地将筛选器应用于
pyspark
中
的
窗口函数?对于col1
中
的
每个
组
,我希望只保留在col2
中
有X
的
行。如果一个
组
在X
中
没有col2,我希望保留该
组
中
的
所有行。
浏览 2
提问于2019-11-20
得票数 0
回答已采纳
2
回答
PYSPARKSQL
中
的
枢轴
、
、
、
、
2 3 102 96,37 212,78 123,60我在下面的代码
中
尝试过
浏览 2
提问于2017-12-28
得票数 0
回答已采纳
2
回答
列表
上
的
Spark dataframe操作返回[Ljava.lang.Object;@]
、
、
、
我有一个
pyspark
数据帧,其中我已经将数据分组并使用列出。from
pyspark
.sql.functions import udf,
collect_list
| 1| b|+---+----+ df = df.groupBy(df.id).agg(
collect_list
+--------+ | id|colA
浏览 29
提问于2018-08-01
得票数 3
回答已采纳
2
回答
电火花码群函数
中
的
一个错误
、
、
、
、
format="csv", sep=",", inferSchema="true", header="true") 但在执行过程
中
,
浏览 12
提问于2022-08-09
得票数 0
2
回答
带有groupby
的
pyspark
collect_set或
collect_list
、
、
、
、
在groupby之后,
如何
在数据帧上使用collect_set或
collect_list
。例如:df.groupby('key').collect_set('values')。
浏览 2
提问于2016-06-02
得票数 62
回答已采纳
1
回答
火花放电
中
多个groupBy
的
链接
、
、
我
的
数据如下: ---------------------------------------------:现在,我想对每个
组
中
的
值进行持续时间分组,以获得如下内容: (
浏览 0
提问于2018-05-03
得票数 2
回答已采纳
1
回答
如何
在使用spark ml时以另一种方式索引分类特征
、
火花指数
中
的
VectorIndexer根据变量
的
频率来分类特征。但我想用另一种方式对分类特征进行索引。是否有任何可行
的
方法来实现这一点?
浏览 4
提问于2016-10-26
得票数 3
回答已采纳
1
回答
如何
在
PySpark
DataFrame
中
创建N个重复行?
、
、
我有下面的
PySpark
DataFrame df134 30 2016-,我需要将timestamp放到一个新
的
timestamp_start列
中
。因此,itemid
组
中
的
每一行都应该重复n时间,其中n是
组
中
的
记录数。希望我能解释清楚。这是我在
PySpark
中
的<
浏览 0
提问于2020-01-09
得票数 0
回答已采纳
10
回答
基于另一个变量保持顺序
的
collect_list
、
、
我试图使用现有列集上
的
groupby聚合来在
Pyspark
中
创建一个新
的
列表
列。| 1500id | value_list1 | [10, 5, 15, 20]
列表
中
的
值按日期排序我尝试使用
collect_list
,如下所示: from
pyspark
.sql import functions as
浏览 8
提问于2017-10-05
得票数 82
回答已采纳
1
回答
列
中
的
搜索值
、
、
import
pyspark
from
pyspark
.sql.types import * print('Yes') print('No')``` butwith
pyspark
I do
浏览 16
提问于2020-09-29
得票数 1
回答已采纳
1
回答
Pyspark
collect_list
奇怪
的
行为
、
、
我遇到了
collect_list
函数
的
奇怪行为。.head(1)[Row(uid='uid1', _c1=[Row(a='[a_string, 1, 10]', b=['another_string', 2, 20], c=Non
浏览 2
提问于2018-04-10
得票数 0
2
回答
执行
存储
在字符串变量
中
的
动态框架动作语句
、
、
我需要执行union语句,它是动态帧
的
,并
存储
在string变量
中
。我陷害了工会
的
声明,但最后还是执行了这一声明。有人知道
如何
执行
存储
在字符串变量
中
的
union语句吗?我在databricks笔记本里用
的
是电火花。).withColumn("dfs", concat(lit(".union(df"), col("iRuleid"), lit(")")))
浏览 10
提问于2022-10-26
得票数 0
1
回答
分裂时间序列数据
、
、
我有一个dataframe,其中有作为列
的
不同参数和每一行参数
的
时间戳。2017-01-01 00:00:06, a6, b6, c6变成这样
的
东西2017-01-01 00:00:04, 2017-01-01 00:00:06, a4, a5,
浏览 4
提问于2017-04-07
得票数 0
回答已采纳
3
回答
根据另一列
中
的
值将
PySpark
数据框列转换为Python
列表
、
、
、
我有一个包含2列
的
数据帧"dfClean“:|som| ano || 1 | 1 || 3 | 1 |我需要创建一个Python
列表
,在同一行
的
列"ano“中有1
的
值在"som”
中
。所以期望
的
输出是:pyLst = [1,3,4] 在Pandas
中
我使用过:pyLst = dfClean.som[dfClean.ano == 1].t
浏览 0
提问于2021-03-03
得票数 0
2
回答
将列名位于
列表
中
的
多列连接在一起。
、
、
、
我试图将多个列连接到一个列,但只有在列名在
列表
中
的
情况下。所以问题= {'a','b','c'}是我
的
列表
,需要将它作为问题列与;分隔符连接起来。返回无效语法错误
的
df_issue = df.withColumn('issue', lit(issue)) 返回无效语法错误
浏览 9
提问于2022-12-02
得票数 0
1
回答
如何
在
PySpark
中
对Spark大数据框
中
的
每个行子集执行映射操作
、
、
、
我使用
的
是
PySpark
,我想做
的
事情如下:
collect_list
, ) 其中"my_func“是一些主要做Spa
浏览 2
提问于2017-10-30
得票数 1
2
回答
是否使用Window()计算
PySpark
中
数组
的
滚动和?
、
、
、
我想计算给定unix时间戳
的
ArrayType列
的
滚动和,并以2秒为增量对其进行分组。输入/输出示例如下。我认为Window()函数会起作用,我对
PySpark
非常陌生,完全迷失了方向。任何意见都是非常感谢
的
!编辑:多个列可以有相同
的
时间戳/它们可能不连续。vars
的
长度也可以大于3。请寻找稍微通用
的
解决方案。
浏览 11
提问于2020-02-26
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在Python中如何修改列表中元素的类型
如何使用Python从列表中删除指定的元素
Python开源数据分析工具TOP 3!
PySpark,一个大数据处理利器的Python库!
燃烧我的列表
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券