PySpark -按ID和日期分组，并按时间列求和(分钟)

PySpark是一个基于Python的Apache Spark的Python API。它提供了一种高效的方式来处理大规模数据处理和分析。

对于按ID和日期分组，并按时间列求和（分钟）的问题，可以使用PySpark的DataFrame API来实现。以下是一个示例代码：

from pyspark.sql import SparkSession
from pyspark.sql.functions import sum as spark_sum

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 读取数据，假设数据已经加载为一个DataFrame df
df = spark.read.csv("data.csv", header=True)

# 将时间列转换为时间戳类型
df = df.withColumn("timestamp", df["timestamp"].cast("timestamp"))

# 按ID和日期分组，并按时间列求和（分钟）
result = df.groupby("ID", "date").agg(spark_sum(df["time_in_minutes"]).alias("total_time"))

# 显示结果
result.show()

在这个示例代码中，首先使用SparkSession来创建一个Spark会话。然后使用spark.read.csv方法读取数据，假设数据已经加载为一个名为df的DataFrame对象。接下来，使用withColumn方法将时间列转换为时间戳类型。然后使用groupby方法按ID和日期进行分组，并使用agg方法和spark_sum函数对时间列求和，最后将结果命名为total_time。最后，使用show方法显示结果。

对于这个问题的应用场景，可以是对于某个业务系统中用户行为数据的分析，比如按照用户ID和日期进行分组，然后计算每个用户在每天内的总操作时间。

针对这个问题，腾讯云提供了一些相关产品，比如云数据仓库CDW、云分析数据仓库ADW和云原生数据仓库TSDB等，这些产品可以帮助用户高效地处理大规模数据，并进行数据分析和挖掘。您可以通过访问腾讯云官网了解更多产品信息和文档：

腾讯云数据仓库CDW：链接地址
腾讯云分析数据仓库ADW：链接地址
腾讯云原生数据仓库TSDB：链接地址

PySpark -按ID和日期分组，并按时间列求和(分钟)

、、

我在Spark中处理我的数据，问题类似，可以像我在SQL: SUM中所做的那样修复(DATEDIFF(MINUTE，'0:00:00'，targetcolumn) ) 但是，我想知道PySpark有没有这样做的方法，特别是只有一个时间列？-04-03| C |17:17:30.000000| | 2014-04-03| C |17:47:31.000000| 有没有可能，我可以像group by record_date，Tag，然后以分钟为单位汇总时间05| A |00:41:01.0

浏览 16提问于2021-08-06得票数 0

回答已采纳

2回答

对多列选择中的1列求和

、、

我试图对select查询中的数量字段求和()，并按日期值对它们进行分组，但是Sql总是给我错误，说我的GroupBy中没有对所有列进行分组，但我只想按日期对它们进行分组SELECTTotal, Tur, Tur_Name, Group, FROM Dish_Sales如何按日期</em

浏览 4提问于2016-11-11得票数 0

5回答

在多个小时内以分钟为单位获取mySQL行

、、、

我在mySQL中有几行，日期时间超过几个小时。我想返回这几个小时内每分钟间隔的计数。GROUP BY MINUTE(date)如何做到这一点？

浏览 1提问于2011-02-17得票数 22

回答已采纳

2回答

如何选择group by order by和desc？

、、

我想选择表中的数据，这样它就应该按用户in分组，除了该列中的一个值，并按日期、时间和描述排序。我得到的问题是，分组的项目没有按日期和时间排序，也没有按desc的方式排序。我的意思是分组的项目显示在前面的行。我怎么能做到这一点。这就是我所做的。SELECT * FROM `tbljobs`

浏览 1提问于2013-03-03得票数 1

回答已采纳

2回答

对dataframe中的一列求和，并以int形式返回结果

、、

我有一个包含一列数字(数量)的pyspark数据帧。我需要对该列(Amount)求和，然后将结果作为一个python变量中的int返回。数据集如下所示：1/1/2013,U2_P1,p@c.com,100,P_P 按总和进行日期分组和聚合。

浏览 2提问于2018-09-20得票数 1

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

、

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

1回答

Pandas按时间、ID和聚合分组

、、

数据可能是这样的： ID date payment 1 1/2/2020 11 2 1/9/2020 10 2 1/11/2020 9 2 1/12/2020 5 我将df日期转换为pay.date)

浏览 30提问于2021-01-13得票数 2

回答已采纳

1回答

SSRS在线格式化多条记录

、

我有一个员工数据库表，其中包含每个员工上班或休息的时间。该表包含员工每次登录或注销的记录，如下所示：约翰·西尔( john sil )|钟表会(ClockOut)|2020年10月11日下午5:00

浏览 1提问于2020-12-18得票数 0

2回答

每周一次的分组和总和

、、、、

我有一个数据格式，按日计算列的位置是这样的：1000 2000 3000 2我想要的是总结日期列并按周分组，比如week_1, week_2,...等等。是否有一种干净的方法来处理列呢？我知道我可以通过选择日期列并在轴上求和来对所有列</

浏览 1提问于2020-05-28得票数 0

回答已采纳

1回答

安卓SQLite精选

、、

我是一个android编程的初学者，现在我在互联网上搜索了很长一段时间，但我真的不知道如何解决我的问题。我很难从我的数据库中执行和理解select查询。我想从我的表利润中选择全部，并按降序按日期对价格列求和。我将日期作为整数保存在我的数据库中，我不知道下一步该做什么。如果date存储为整数值，如何按date对列求和_id | date |

浏览 1提问于2017-01-03得票数 0

1回答

在Pandas中，如何连接基于两列的df行？按照第三条的顺序？

、、、

我有一张列“Id”、“日期”、“小时”、“销售”的表。如果我按'Hour‘count()按df分组，则如下所示：有几个ID，有时有相同的日期，但是每个唯一的ID/日期有24行独特的“小时”。(每个<e

浏览 2提问于2022-07-19得票数 0

回答已采纳

1回答

数据合并后柱的俾斯卡姆和

、、、

在合并两个dataframe之后，如何对所有列进行求和？2022-01-10| 3| 4| b|+----------+------+------+------+ +----------+------+------+------+------+------+ | date|而且我没

浏览 4提问于2022-01-10得票数 0

回答已采纳

1回答

时间循环平均值

、、

我有一个包含17,000条记录的表，该表按15分钟间隔的时间间隔排序。时间值每24小时循环一次，例如，我可能有100条记录都在凌晨1点，只是在不同的日期。

浏览 2提问于2016-10-19得票数 0

1回答

Python按时间(秒数)对数据进行分组&绘图

我有一个数据‘量’和‘价格’的交易，从上午11时至下午3时，在30天，我想平均值的数据，并按时间分组。编辑:与其按“小时”、“分钟”和“第二”分组，我如何将它们合并为一列<

浏览 5提问于2017-09-12得票数 0

回答已采纳

1回答

mySql按日期获取注册用户总数

、

我有一个表，它输入像这样的新注册用户+----+---------------------+------++------------------+------++----+---------------------+------+ 我想按日期组织用户总数当我对日期进行硬编码时，这个方法就能工作了。SELECT * FROM mytable WHERE time

浏览 5提问于2014-06-03得票数 0

回答已采纳

1回答

如何将本报告分组

、、、、

我想知道是否有办法将这份报告分组。这是我的报告。该报告按"Merchant“和"ConfirmationID”两列分组，并按“日期”和“时间”列排序。如您所见，由于分组，商人被重复了两次。我想知道是否有一种方法可以将这篇专栏“商人”以这种方式显示出来：我试图在列商人中再添加一个父组，但是输出与我想要的不同，因为它将所有的列</em

浏览 1提问于2021-06-01得票数 0

回答已采纳

1回答

基于日期范围和时间的MySQL总和

、

我每15分钟收集一次大量数据。我正在尝试选择某个时间段之间的数据，然后在该时间段内将其除以另一个日期间隔。并且在这些间隔内在某一时间段内求和。例如，我希望能够选择介于01/01/2009和01/01/2010之间的数据以及group by日期范围01/01/2009 - 05/01/2009、05/02/2009 - 11/01/20

浏览 4提问于2010-08-04得票数 1

回答已采纳

1回答

如何计算火花放电中的搅动

、

其目标是创建一个名为“搅动”的列，并使用它来通知当Id在“使用”列中连续超过30天保持为" false“时，它是否正确或错误。我已经尝试过使用窗口功能，但没有成功。

浏览 3提问于2022-11-25得票数 0

回答已采纳

1回答

如何根据时间戳列的日期部分对行进行分组？

、

有一个包含时间戳列的表： create table histodureeconnexion ( id serial primary key, iduser int, connexion timestamp, deconnexion timestamp, duree_seconde integer ); 我希望获得所有行以及基于duree_seconde列的日期部分的duree_seconde列的总和；这意味着我希望对每一天的所有column列值求和，例

浏览 15提问于2021-10-21得票数 1

回答已采纳

1回答

PySpark:如何使用窗口函数按固定日期范围和另一列来计算值列的和？

、、、、

我有一个星火DataFrame，由三列组成：Date、Item和Value，类型分别是Date、String和Double。我想按日期范围分组(其中每个范围的持续时间从数据中的第一个日期开始起为7天)和项，并计算由日期范围(实际周号)和项定义的每个此类组的值的总和。我怀疑PySpark的窗口函数在某些时候应该被用于日期范围，但是在这种情况下无法找到实现它们的方法。

浏览 1提问于2019-03-27得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PySpark -按ID和日期分组，并按时间列求和(分钟)

相关·内容

PySpark -按ID和日期分组，并按时间列求和(分钟)

对多列选择中的1列求和

在多个小时内以分钟为单位获取mySQL行

如何选择group by order by和desc？

对dataframe中的一列求和，并以int形式返回结果

pyspark是否支持窗口函数(例如first、last、lag、lead)？

Pandas按时间、ID和聚合分组

SSRS在线格式化多条记录

每周一次的分组和总和

安卓SQLite精选

在Pandas中，如何连接基于两列的df行？按照第三条的顺序？

数据合并后柱的俾斯卡姆和

时间循环平均值

Python按时间(秒数)对数据进行分组&绘图

mySql按日期获取注册用户总数

如何将本报告分组

基于日期范围和时间的MySQL总和

如何计算火花放电中的搅动

如何根据时间戳列的日期部分对行进行分组？

PySpark:如何使用窗口函数按固定日期范围和另一列来计算值列的和？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐