Spark Dataframe的count() API的替代方案

文章/答案/技术大牛

发布

4回答

、、、、

我正在使用Spark和Java连接器来处理我的数据。此外，由于系统的要求，我不想使用df.rdd().countApprox()接口，因为我们需要确切的计数。谁能给我一个建议，任何替代方案，返回与df.count()完全相同的结果，更快的</em

浏览 59提问于2017-08-30得票数 3

1回答

火花放电MLlib还保持开发吗？

、、

我2017年出版的“学习火种”一书可以读到：所以我想知道是否有任何关于情况的最新情况。MLlib还在维护吗？

浏览 0提问于2020-05-29得票数 0

回答已采纳

1回答

我试图使用Spark2.1.0javaAPI将DataFrame (行数据集)作为一个Hive表持久化。我尝试在saveAsTable类中使用DataFrameWriter方法。我的代码看起来像：df.write(appendMode).saveAsTable("tablename"); 目前还不支持我的Hive表中的org.apache.spark.sql.AnalysisException请使用insertInt

浏览 3提问于2017-12-15得票数 1

2回答

Spark dataframe上连接的替代方案

、、

我有两个Spark数据帧，分别为5.39亿行和4列。我在50节点集群和8 GB的executor内存上尝试了DF1.join(DF2，，"fullouter")。它会自动终止群集，并显示内存不足的错误消息。有没有比df.join()更有效的连接rdds或数据集的替代方案？

浏览 0提问于2018-04-04得票数 0

3回答

Pyspark计数包括Nulls

举一个简单的例子-deptColumns = ["dept_name","dept_id"]df = rdd.toDF(deptColumns) print('countthe dept_id,

浏览 1提问于2021-05-08得票数 2

1回答

Spark在IDE中创建数据帧(使用databricks-connect)

、、、、

我正在尝试使用databrick connect在IDE中运行我的databricks笔记本中的一些代码。我似乎想不出如何创建一个简单的数据帧。<and> (rowRDD: org.apache.spark.api</

浏览 69提问于2021-09-14得票数 0

2回答

Dataframe:如何在Scala中groupBy/count然后按count排序

、

我有一个包含数千行的数据帧，我正在寻找的是分组和计数列，然后按输出排序:我做的事情如下所示：import sqlContext.implicits._ val df = objHive.sql("select * from db.tb") val df_count=df.groupBy("id").<em

浏览 3提问于2018-08-07得票数 5

回答已采纳

2回答

类型错配；已发现:所需单位: Array[org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]]

、、

为什么下面的代码在返回语句中有编译错误， val res = spark.read.formatregisterTempTable("") }type mismatch; found : Unit required: Array[org.apache.spark.sql.Dataset[org.apache.spark.sql.Row]] Scala版本2.1

浏览 0提问于2018-05-15得票数 0

回答已采纳

2回答

如何使用scala API在spark* sql中写入大于1的特定列的计数*

我有以下SQL查询：我想使用Spark SQL的DataFrame API将其转换为Spark。

浏览 4提问于2016-05-10得票数 3

1回答

将UDF函数应用于星火窗口，其中输入参数是范围内所有列值的列表

、

我想在窗口的每一行上建立一个移动平均线。比方说-10排。但是，如果可用行少于10行，我希望在结果行->新列中插入0。因此，我尝试实现的是在聚合窗口中使用具有输入参数List() (或任何超类)的UDF，它具有所有可用行的值。下面是一个不起作用的代码示例：dfRetail2.withColumn("test", udftestf(dfRetail2(&q

浏览 0提问于2019-03-27得票数 1

1回答

Pyspark、Spark* SQL和toPandas().shape中计数不一致的原因是什么？*

、、、、

此外，我已经检查了我的Spark DataFrame不包含null或NaN值。我在Pandas中也做了同样的检查。#train is spark dataframe-- Spark SQL -- cou

浏览 27提问于2019-07-25得票数 2

1回答

创建空的dataframe Java Spark

、、

关于如何使用Spark Scala/Python创建空的dataframe/Dataset，有很多示例。但是我想知道如何在Java Spark中创建一个空的dataframe/Dataset。我必须创建一个空的dataframe，其中只有一列，标题为Column_1，类型为String。

浏览 27提问于2020-07-14得票数 0

回答已采纳

1回答

从Pandas groupBy到PySpark groupBy

、、

考虑一下星火DataFrame，在这里我们有很少的列。目标是对其执行groupBy操作，而不将其转换为Pandas DataFrame。等价的Pandas groupBy代码如下所示： return pd.Series({ 'a': x['a'].values[0]我曾想过使用来自from pyspark.sql import functions的from pyspark.sql import

浏览 5提问于2017-03-14得票数 4

回答已采纳

1回答

如何在DataFrame* Spark1.6中加载特定的Hive分区？*

、、

按照官方的，我们不能向DataFrame添加特定的单元分区DataFrame df = hiveContext.read如果给出如下所示的基路径，它不包含我希望在DataFrame中包含的实体列，如下所示- DataFrame df = hiveContext.read().format("orc").lo

浏览 3提问于2016-01-07得票数 7

回答已采纳

1回答

java.lang.ArrayIndexOutOfBoundsException: 1在Scala中保存数据帧

、、、

在EMR中，我们使用Salesforce批量API调用从salesforce对象获取记录。对于其中一个对象(任务)数据帧，同时保存到拼板，得到以下错误。(rows.scala:174) at org.apache.spark.sql.catalyst.expressions.GenericRow.apply:169) at org.apache.spark.sched

浏览 2提问于2021-11-23得票数 0

1回答

Spark作业在本地运行时工作，但在独立模式下不工作

、、

我有一个简单的Spark代码，在本地运行时运行得很好，但是当我尝试在Docker上使用Spark独立集群运行它时，它奇怪地失败了。在地图之后，我不能调用任何Spark的行动。$$anonfun$toScalaFunction$1.fun$1 of

浏览 9提问于2018-12-20得票数 1

1回答

AttributeError：'SparkSession‘对象没有属性’序列化程序‘

、

我使用的是火花器2.0.1 print(l.b_appid) mrdd = sqlC.read.parquet("hdfs:/

浏览 3提问于2017-02-21得票数 1

4回答

如何在结构化流式传输中将数据帧转换为rdds？

、

我使用pyspark流从kafka获取数据，结果是一个dataframe，当我将dataframe转换为rdd时，它出错了： Traceback (most recent call last):File "/home/softspyspark.sql.utils

浏览 56提问于2020-01-06得票数 3

2回答

如何计算pyspark数据帧中每个不同值的计数？

、、

我有一个列，其中填充了一堆州的首字母作为字符串。我的目标是如何在这样的列表中计算每个状态的数量。例如:当"TX"和"NJ"出现两次时，输出应该是(("TX":3),("NJ":2))。

浏览 1提问于2017-02-25得票数 41

回答已采纳

1回答

如何在不注册视图的情况下将Scala DataFrame引入Python，反之亦然？

、、、

我有一个用Scala编写的库，它具有从许多测量数据格式加载数据和进行一些计算的一些功能。这些函数都是在DataFrame的Scala版本上运行的。sdf = spark._jvm.com.mycompa

浏览 0提问于2018-09-13得票数 1

回答已采纳

点击加载更多