pyspark groupBy案例

、

|B |2007-01-10 |1 |+-----------+-------+--------+---------+--------+---------+----+--------+ from pyspark.sql.functionsimport when, year, month, sum new_sdf = cat_sdf.groupBy

浏览 15提问于2021-10-19得票数 0

回答已采纳

1回答

PySpark: Groupby的案例

、、

--+#| A| 6| 1|#+---+-----+----------+valueWhenTrue = 1 "currentVersion

浏览 3提问于2022-05-31得票数 0

回答已采纳

1回答

火花工作者与致命的Python错误:无法到达的C代码路径崩溃。Python运行时状态:初始化

、、、

/groupby.py", line 1044 in <lambda>File "/usr/local/lib/python3.8/

浏览 6提问于2022-01-20得票数 0

回答已采纳

1回答

如何将变量传递给UDAF (自定义聚合函数)

、

import pandas as pdfrom pyspark.sql import SparkSessionfrom pyspark.sql.functions import PandasUDFType, pandas_udfimportprint(data_frame.schema) validation_period = reque

浏览 5提问于2020-09-21得票数 0

2回答

不带聚合或计数的Pyspark* groupBy DataFrame*

、、

它可以在没有聚合或计数的情况下遍历Pyspark groupBy数据帧吗？. Is there a difference in how to iterate groupby in Pyspark or have to use aggregation

浏览 54提问于2020-01-07得票数 3

回答已采纳

2回答

如何合并重复行并将所有False值更改为True，其中True是重复行中的值？

、、

所以我有一个数据帧，它有很多副本，但问题是它们是这样的- Color ID2 True 1234564 False 09870 987 True 1 123456 True 但我希望对每一列都这样做，而不是只针对一列(在本例中是Color)。

浏览 22提问于2019-12-25得票数 0

回答已采纳

3回答

将pyspark* groupedData对象转换为spark Dataframe*

我必须在pyspark数据帧上进行2级分组。我的试探性的：grouped_df.groupby(["C"]).count()'GroupedData' object has no attribute 'groupby' 我想我应该首先将分组的对象转换为pySpark DF。

浏览 2提问于2017-10-18得票数 7

回答已采纳

1回答

GroupBy in PySpark与群熊猫

、、

我找不到熊猫.groupby()和PySpark .groupBy()之间的区别(用在DataFrame上)。有什么不同吗？我也得到了同样的结果。如果有差异，我如何知道什么时候使用它，以防我同时处理PySpark。谢谢!

浏览 5提问于2022-07-05得票数 0

回答已采纳

1回答

PySpark中是否有相当于Pandas聚合函数的任何函数？

、、、

我想把下面的熊猫代码翻译成PySpark代码 newCol3 = ('colD', 'any')).reset_index()import p

浏览 5提问于2019-11-25得票数 0

回答已采纳

1回答

分组依据列表中的元素

、、

我是PySpark的新手。我创建了spark dataframe，并且我有一个" countries“列，其中包含国家列表。如何通过存在于国家/地区列表中的单个国家/地区来groupBy我的数据帧 +-----------------++-----------------+ | [

浏览 4提问于2019-10-09得票数 0

1回答

Pandas的MultiIndex操作是否等同于set_index()或un堆栈()？

、、、、

我有一个火花DataFrame，就像：| id| timeSlot| ratio||100| lunch| 0.2||100| dinner| 0.5||101| lunch| 0.2||102| lunch| 0.4||102| dinner| 0.3| +---

浏览 2提问于2020-06-22得票数 2

回答已采纳

2回答

如何从PySpark中的2列中获得一行序列字符串？

、、、、

例如，“新”栏如下：有使用PySpark的好方法吗？我使用PySpark尝试了以下udf代码，但它不起作用：from pyspark.sql.functions importarray_distinct create_transition = udf(lambda x:"->".join

浏览 13提问于2022-10-19得票数 1

回答已采纳

1回答

从Pandas groupBy到PySpark groupBy

、、

目标是对其执行groupBy操作，而不将其转换为Pandas DataFrame。等价的Pandas groupBy代码如下所示： return pd.Series({ 'col_1',]).apply(compute_metrics).reset_index() 我打算用PySpark来写这个。到目前为止，我

浏览 5提问于2017-03-14得票数 4

回答已采纳

1回答

映射函数在lambda函数中不可调用。

、、

import pyspark from pyspark.sql.types import MapType, StringTypefrom pyspark.sql.functions import col words

浏览 7提问于2022-07-19得票数 0

2回答

Pyspark将列列表放入聚合函数

、、、

我有一个关于Pyspark中的udf的问题和一个具体的案例。我正在尝试创建一个简单的、可重用的函数来聚合不同级别和组上的值。) df = dataframe.groupby(grouping).min(aggregation) df = dataframe.groupby(grouping).max(aggregation) elif functions == count:df =

浏览 60提问于2020-11-26得票数 0

回答已采纳

1回答

itertools.groupby在火花放电中的应用

、、

我使用itertools.groupby编写了一个映射函数来聚合数据，我所做的如下所示。pair_func_cnt(iterable))映射函数 from itertools import groupbyls = [[1,2,3],[1,2,5],[1,3,5],[2,4,6]] grp2 = [(k,g

浏览 2提问于2016-08-05得票数 0

1回答

在pyspark中的情况下的总和

、

我正在尝试将hql脚本转换为pyspark。我正在努力在groupby子句之后的聚合中实现case when语句的总和。例如： SUM(f.when((col1 == 'ABC' | col2 == 'XYZ'), 1).otherwise(0))) 在pyspark中是可能的吗？

浏览 0提问于2016-11-23得票数 1

回答已采纳

1回答

带点‘’的dataframe的pyspark访问列。

、、

包含点的pyspark数据帧(例如"id.orig_h")将不允许groupby by，除非首先由withColumnRenamed重命名。有解决方法吗？"`a.b`"似乎不能解决这个问题。

浏览 1提问于2016-05-16得票数 4

1回答

Dataframe中新列的PySpark* 1.5组和*

、、、、

我试图使用groupBy和sum (使用PySpark 1.5)在中创建一个新列(“PySpark”)。我的数字列已被转换为长列或双列。用来形成groupBy的列是字符串和时间戳。我的代码如下我对错误的追踪到了那一行

浏览 2提问于2016-03-07得票数 2

回答已采纳

3回答

向PySpark数据帧中添加组计数列

、、

我来自R和到PySpark，因为它的出色的火花处理，我正在努力从一个上下文映射到另一个特定的概念。在PySpark中，我可以做一些几乎同样简单的事情，如果我要查看，根据行数概括：from pyspark.sql.functionsimport col .groupBy

浏览 0提问于2018-02-14得票数 37

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PySpark: Groupby的案例

火花工作者与致命的Python错误:无法到达的C代码路径崩溃。Python运行时状态:初始化

如何将变量传递给UDAF (自定义聚合函数)

不带聚合或计数的Pyspark* groupBy DataFrame*

如何合并重复行并将所有False值更改为True，其中True是重复行中的值？

将pyspark* groupedData对象转换为spark Dataframe*

GroupBy in PySpark与群熊猫

PySpark中是否有相当于Pandas聚合函数的任何函数？

分组依据列表中的元素

Pandas的MultiIndex操作是否等同于set_index()或un堆栈()？

如何从PySpark中的2列中获得一行序列字符串？

从Pandas groupBy到PySpark groupBy

映射函数在lambda函数中不可调用。

Pyspark将列列表放入聚合函数

itertools.groupby在火花放电中的应用

在pyspark中的情况下的总和

带点‘’的dataframe的pyspark访问列。

Dataframe中新列的PySpark* 1.5组和*

向PySpark数据帧中添加组计数列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐