我们如何将窗口函数(例如dense_rank)与dataframe API一起使用，而不是在pyspark中使用SQL？

文章/答案/技术大牛

发布

1回答

apache-spark、pyspark、apache-spark-sql

如何使用data frame API编写以下查询？SELECT * FROM (SELECT c1, c2, value, dense_rank() OVER (PARTITION BY c1 ORDER BY value ASC) as rank/api/pyspark.sql.Window.html?highlight=window#pyspark.sql.Window 和 https://spark.a

浏览 11提问于2021-07-25得票数 0

1回答

如何将行合并成火花放电？

pyspark

在PySpark中，有coalesce(colA, colB, ...)的概念，它将在每一行中从这些列中获得它遇到的第一个非空值。但是，我想要coalesce(rowA, rowB, ...)我希望将一组或多个行中的所有行合并起来。例如，给定以下数据集，我希望合并每个类别的行并按日期排序。

浏览 1提问于2020-11-12得票数 2

2回答

Spark中的重新分区

apache-spark、apache-spark-sql

我们使用Spark的SQL 对集群上的Hive表执行查询。如何对查询中的列执行REPARTITION ( SQL-API )？请注意，我们不使用Dataframe，而是使用SQL (例如，SELECT * from table WHERE col = 1)。我理解PySpark在Dataframe API中提供

浏览 1提问于2020-06-23得票数 1

回答已采纳

1回答

udf来自SparkSession和udf来自pyspark.sql.functions有什么区别？

apache-spark、pyspark、apache-spark-sql、user-defined-functions

我有两种方法来使用udf：spark = pyspark.sql.SparkSession.builder.getOrCreate()output:print(udf)<function pyspark

浏览 4提问于2021-12-20得票数 0

回答已采纳

1回答

PySpark数据帧-为相同值的序列指定ID

python、apache-spark、dataframe、pyspark、apache-spark-sql

我在pyspark作业中有一个数据集，看起来有点像这样：1 False 3例如，我想要的输出如下所示：1 False 14 True 2 5

浏览 1提问于2016-07-28得票数 0

2回答

在databricks SQL中选择describe表或显示列的结果

pyspark、apache-spark-sql、databricks、azure-databricks

我只能使用Databricks SQL。是否有方法在SELECT语句中访问SHOW COLUMNS或DESCRIBE TABLE的结果？在这里可以看到错误： 

浏览 8提问于2022-04-08得票数 -1

1回答

将Dataframe激发到StringType

json、apache-spark、pyspark、apache-kafka

在PySpark中，如何将Dataframe转换为普通字符串？我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。这些变量为带有字符串的Dataframe类型。当我将dataframe传递给Pyspark连接细节

浏览 0提问于2021-03-05得票数 0

2回答

pyspark.pandas和熊猫有什么区别？

pandas、pyspark

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

1回答

pyspark.sql.functions -计数以考虑空值：

python、pyspark

我试图让pyspark.sql.functions.count()函数或pyspark.sql.functions.count_distinct()函数在计算列中不同元素的数量时考虑null值。从我的研究来看，这似乎与count_distinct()以与相同的方式工作有关。| 4| 4| 4

浏览 12提问于2022-06-07得票数 0

1回答

Spark dataframe的udf()的Python包中的函数

python、apache-spark、pyspark

对于通过pyspark的Spark dataframe，我们可以使用pyspark.sql.functions.udf来创建一个user defined function (UDF)。我想知道我是否可以在udf()中使用Python包中的任何函数，例如来自numpy的np.random.normal？

浏览 0提问于2015-04-07得票数 8

1回答

在将pyspark.rdd.PipelinedRDD对象转换为Pyspark时获得空值

python、apache-spark、pyspark、apache-spark-sql、rdd

我以这种方式使用lambda函数：其中event1是我的星星之火的名字在打印e1时，我得到以下内容：[0, 0, 0, 0, 0] 所以我认为lambda函数正常工作。

浏览 2提问于2021-03-22得票数 0

回答已采纳

6回答

在PySpark中按降序排序

python、apache-spark、dataframe、pyspark、apache-spark-sql

我使用的是PySpark (Python2.7.9/Spark1.3.1)，并且有一个GroupObject，我需要按降序对其进行筛选和排序。试图通过这段代码来实现它。group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) 但是它会抛出以下错误。

浏览 19提问于2015-12-29得票数 129

回答已采纳

2回答

spark中密集秩和行数的差异

apache-spark

我试着理解密集秩和行number.Each新窗口分区都是从1开始的，难道行的秩不总是从1开始吗？任何帮助都将不胜感激

浏览 0提问于2017-07-07得票数 34

回答已采纳

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

apache-spark、pyspark

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

1回答

pyspark对每个目标变量的类进行过采样

python、pyspark、sampling、apache-spark-ml、oversampling

我想知道是否有任何方法可以使用pyspark对数据进行过采样。我有10个类的目标变量的数据集。more_rows=transformed_03.sample(True,16.3,9) transformed_02_more_rows=transformed_03.sample(True,12,9) 最后，使用联合我想知道在pyspark中有没有像SMOTE这样的自动化方法。我看到了下面的链接，Oversampling or SMOTE in Pyspark 它说我的目标类必须只有两个

浏览 121提问于2020-07-03得票数 0

1回答

星星之火:用read.csv读取许多文件

apache-spark、pyspark、apache-spark-sql、spark-dataframe

我想从位于同一个目录中的许多小文件创建一个DataFrame。我计划使用来自pyspark.sql的pyspark.sql。我已经了解到，在RDD世界中，textFile函数是为读取少量的大文件而设计的，而wholeTextFiles函数是为读取大量的小文件而设计的(例如，参见)。read.csv 使用 textFile 还是 wholeText

浏览 0提问于2018-03-21得票数 0

1回答

如何将udf添加到sqlContext中

python、apache-spark、user-defined-functions

我知道我可以注册一个UDFand函数，因为它可以在SQL查询中使用： return len(s)spark.sql("SELECT example_udf(col) FROM data")from) data.s

浏览 1提问于2018-04-13得票数 0

回答已采纳

3回答

在的窗口上创建一个组id

apache-spark、pyspark、apache-spark-sql、window-functions

我有一个数据文件，我想在每个窗口分区中给出id。例如，我有1 | a |3 | b |5 | c |id | group |1 | 1 |3 | 2 |5 | 3 | 我想使用一个窗口函数，但无论如何我都找不到为每个窗口分配一个Id。(我不能简单地使用<

浏览 0提问于2018-05-08得票数 5

回答已采纳

5回答

如何解析来自Python SDK的嵌套FB API响应

python、json、facebook、facebook-graph-api

我正在使用Facebook Python SDK查询Insights端点，并且很难得到使用Python以及随后的pandas的响应。00:00 - 00:59:59", "spend": 60 .... 在将不包括actionsdata的数据放入pandas DataFrame中时，我没有设法适当

浏览 3提问于2015-12-04得票数 8

2回答

如何基于具有相同id的另一行更新行

apache-spark-sql

使用，我希望基于具有相同id的其他行更新一个行值。例如，我有下面的记录，1,101,null2,null我想得到下面的结果1,101,102,202,20 总之，在某些行中，value列为null，如果另有一个具有相同id且具有有效值的行，我希望更新它们。在sql中，我只需编写一个内部联接的更新语句，但在Spark中却找不到相同的方法。更新com

浏览 1提问于2018-12-24得票数 1

回答已采纳

点击加载更多