在Pyspark中替换groupby提高Pyspark代码的性能

、、

我的Pyspark数据框如下所示。我必须从pyspark代码中删除group by函数，以提高代码的性能。我必须对10万个数据执行操作。0.10']),(1, ['4', '5', '6']), (2, ['8', '98'

浏览 42提问于2020-12-29得票数 0

2回答

为什么groupBy()比pyspark中的distinct()快得多？

当我用groupBy()替换spark数据帧上的distinct()时，我在我的pyspark代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从数据帧中删除行级重复项。我尝试在谷歌上搜索groupBy()和distinct()在pyspark中的实现，但没有找到。有没有人能给

浏览 0提问于2018-09-11得票数 6

2回答

如何根据行和列的值更改PySpark数据帧的大小和分布？

、、、、

我有一个很大的PySpark DataFrame，我想在下面的例子中操作它。我认为想象它比描述它更容易。series列中包含的三个唯一值(即ID1、ID2和ID3)中的每一个都有相应的值(在values列下)同时出现(即timestamp列中的相同条目)。在这个DataFrame中，我希望有一个转换，最终得到下面的DataFrame，命名为results。t3 | val

浏览 12提问于2021-01-03得票数 1

回答已采纳

1回答

是否将pyspak sql数据写入磁盘并再次读取将加快进一步的处理？

、

Scenario1使用coaelesce将此数据存储在磁盘上，并读取数据again.Improves，这大大提高了进一步转换的性能。问题为什么会出现这种性能改进？

浏览 2提问于2021-07-12得票数 1

回答已采纳

1回答

无法从spark dataframe导出数据

、

使用from pyspark.sql.types import StringType File "C:\spark\spark-3.1.2-bin-hadoop3.2\python\lib\pyspark.zip\pyspark\worker.py", line 584, in main File "

浏览 7提问于2021-07-29得票数 1

1回答

在pyspark上运行python库的速度会加快吗？

、、

当我运行python库如pandas或scikit learn时，我试着通读并理解spark中的加速是从哪里来的，但我没有看到任何特别有用的东西。如果我可以在不使用pyspark数据帧的情况下获得相同的加速比，我可以只使用pandas部署代码，它的性能大致相同吗？我想我的问题是：如果我有可用的pandas代码，为了提高效率，我

浏览 2提问于2018-06-22得票数 0

5回答

如何计算火花放电中groupBy后的唯一ID

、、

我每年都会使用下面的代码来提高学生的年龄。目的是了解每年的学生总数。from pyspark.sql.functions import colgr = Df2.groupby(['Year'])gr.agg(fn.count(col('Student_ID')).alias('total_student_by_year&#

浏览 2提问于2017-09-26得票数 62

回答已采纳

2回答

Python代码优化( for -循环和If-for)建议，以加快计算时间

、、、、

需要减少以下python代码的计算量，该代码包含多个if else语句。代码运行在一个DataBricks上，所以我也对开放。目前，该代码运行时间超过1小时。因此，任何帮助都将不胜感激。unique_list_code：concat_df['C_Code']列中用于过滤包含代码的数据行的唯一代码列表。else: Not

浏览 4提问于2021-11-02得票数 0

2回答

带滤波优化速度的电火花群

、

我有数以十亿计的行要用Pyspark来处理。我需要运行两个groupby操作:一个在flag==1的行上运行，另一个在所有行上运行。目前，我正在这样做：frame',how='left') 到目前为止，这段代码

浏览 0提问于2019-11-06得票数 1

回答已采纳

1回答

如何在Scala中将DataFrame转换为DynamicFrame对象

、、

我正在尝试将一些pySpark代码转换为Scala，以提高性能。在AWS (它使用Apache )中，会自动为您生成一个脚本，它通常使用DynamicFrame对象加载、转换和写入数据。但是，DynamicFrame类并不具有与DataFrame类相同的所有功能，有时您必须将其转换回DataFrame对象，反之亦然，以执行某些操作。下面是我如何在DataFrame中将DynamicFrame对象转换为pySpark对象： //

浏览 1提问于2018-05-17得票数 3

回答已采纳

1回答

我必须遵守pyspark sql中的命令顺序吗？

、

我正在学习pyspark sql，我不确定函数的顺序是否必须是下一个？groupby() agg() join() select() .agg(f.max('value').alias('value'year','value'])\ .select(['year','station','

浏览 2提问于2019-09-18得票数 0

1回答

PySpark中是否有相当于Pandas聚合函数的任何函数？

、、、

我想把下面的熊猫代码翻译成PySpark代码 newCol3 = ('colD', 'any')).reset_index() 等效的Py

浏览 5提问于2019-11-25得票数 0

回答已采纳

2回答

不带聚合或计数的Pyspark* groupBy DataFrame*

、、

它可以在没有聚合或计数的情况下遍历Pyspark groupBy数据帧吗？例如Pandas中的代码： for i, d in df2:Is there a difference in howto iterate groupby in Pyspark or have to use aggregation and count?

浏览 54提问于2020-01-07得票数 3

回答已采纳

1回答

带点‘’的dataframe的pyspark访问列。

、、

包含点的pyspark数据帧(例如"id.orig_h")将不允许groupby by，除非首先由withColumnRenamed重命名。有解决方法吗？"`a.b`"似乎不能解决这个问题。

浏览 1提问于2016-05-16得票数 4

3回答

在星火上运行Pandas有什么用？

、

这周我刚开始使用PySpark，我已经安装了access 2的实例已经安装了Pandas。但是在星火上拥有熊猫有什么用呢？在PySpark上运行脚本不就是为了克服像Pandas这样的软件包的局限性吗？如果Pandas在星火上运行，它的性能会提高吗？它与星火的RDD兼容吗？

浏览 0提问于2017-01-13得票数 4

1回答

我的apache火花使用是对的吗？

、、

我正在做的计算，在8G平原csv。每次我取结果都要花7分钟。我有5台服务器，每个服务器有20G内存。如何缩短执行时间？hdfs://10.10.10.11:8020/sparkfiles/alarmfiles/export.csv")from datetime import datetimefrom pyspark.sql.types import DateType

浏览 2提问于2016-08-19得票数 2

回答已采纳

1回答

PySpark窗口函数的改进

、、、

我需要替换以前的记录值，所以我使用窗口函数实现了这一点，但我想提高性能。你能告诉我有没有其他的方法吗？from pyspark.sql import SparkSession, Window, DataFramefrom pyspark.sql

浏览 9提问于2021-02-02得票数 1

回答已采纳

1回答

组合的转换会影响PySpark中的操作执行时间吗？

、、、

我有一个PySpark代码，它接受多个输入数据，并生成一个数据作为输出。我执行许多火花转换(地图，过滤器，连接，还原键.)但没有火花行动。我执行的唯一操作是在代码的末尾(输出df的count())。代码太长，不能放在这里，但是看起来如下所示：df2 = HiveContext.sql("selecttransformatio

浏览 3提问于2017-07-27得票数 0

回答已采纳

2回答

如何从PySpark中的2列中获得一行序列字符串？

、、、、

我有以下数据结构：列"s“和"d”表示"x“列中对象的转换。我想要做的是获取"x“列中的每个对象的转换字符串。例如，“新”栏如下：有使用PySpark的好方法吗？我使用PySpark尝试了以下udf代码，但它不起作用：from pyspark

浏览 13提问于2022-10-19得票数 1

回答已采纳

1回答

火花源中agg(sqlmax)与agg(max)的差异

、、

在pyspark程序中，我阅读了下面这行代码。这行代码到底想要达到什么目的？在pyspark中，sqlmax和max有什么不同？df.groupBy('groupId').agg(sqlmax('Time').alias('MaxTime')).withColumnRenamed('groupid1','groupid2')

浏览 9提问于2021-04-05得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么groupBy()比pyspark中的distinct()快得多？

如何根据行和列的值更改PySpark数据帧的大小和分布？

是否将pyspak sql数据写入磁盘并再次读取将加快进一步的处理？

无法从spark dataframe导出数据

在pyspark上运行python库的速度会加快吗？

如何计算火花放电中groupBy后的唯一ID

Python代码优化( for -循环和If-for)建议，以加快计算时间

带滤波优化速度的电火花群

如何在Scala中将DataFrame转换为DynamicFrame对象

我必须遵守pyspark sql中的命令顺序吗？

PySpark中是否有相当于Pandas聚合函数的任何函数？

不带聚合或计数的Pyspark* groupBy DataFrame*

带点‘’的dataframe的pyspark访问列。

在星火上运行Pandas有什么用？

我的apache火花使用是对的吗？

PySpark窗口函数的改进

组合的转换会影响PySpark中的操作执行时间吗？

如何从PySpark中的2列中获得一行序列字符串？

火花源中agg(sqlmax)与agg(max)的差异

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐