将最新行保留在groupBy scala spark之后

、

1 | SPAIN|我想通过ID和DATE来groupBy这个dataFrame，然后只想在TIME列中保留最近的行： df.groupBy(col("ID")，col(“DATE”)).agg(min(col(“TIME”)也许它可以工作，但我有很多其他列，

浏览 12提问于2019-10-30得票数 2

1回答

按聚合(求和)双进行分组在spark中产生不一致的结果

、、、、

我在Scala和Spark2.0中看到了一些不一致的行为，它们聚集双倍，然后根据聚合值进行分组。这只发生在集群模式下，我相信这与双数相加产生一个稍微不同的数字的顺序有关。有时看到1行，有时根据小数点20位左右的值，看到2行。> val grouped = df.groupBy("a", "b").agg(sum("c").as("c")) grouped: org.apache.spark.sql.Da

浏览 3提问于2017-03-07得票数 0

回答已采纳

1回答

吡火花流和实用程序导入问题

、、

我试图运行以下代码findspark.init('/opt/spark')os.environ['PYSPARK_SUBMIT_ARGS'] ='--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.3.0 pyspark-shell' import> (file:/opt/spa

浏览 1提问于2021-10-18得票数 0

回答已采纳

1回答

用农业火花和scala进行选择

、、

result = \.groupby('time_window') \result.show() 我想让它在scala语言中运行，我做了这个，我得到了，我错了，我没有取消错误，因为&quo

浏览 0提问于2017-02-27得票数 0

2回答

为什么隐式类中的函数不可用？

、

我正在尝试教自己Scala，并使用IntelliJ的想法作为我的IDE。我已经启动IntelliJ的shell，运行console，然后输入以下内容：import org.apache.spark.sql(new SparkConf().setMaster("local[*]")).enableHiveSupport().getOrCreate()val, asAt)) 它在最后一<

浏览 1提问于2018-05-22得票数 1

回答已采纳

1回答

如何在执行DataFrame操作后从spark* GroupBy列收集字符串列表？*

、、

如果列有一个字符串列表而不是一个字符串，而我想在GroupBy(其他列)之后将所有这样的列表收集到一个列表中呢？我正在使用Spark1.6并尝试使用线程"main“org.apache.spark.sql.AnalysisException中的异常:未定义函数collect_list；at org.apache.<em

浏览 2提问于2016-02-10得票数 5

回答已采纳

2回答

SparkSQL -在联接和groupBy之后获得重复行

、、

注意:列uid不是，而不是唯一的键，并且在dataframes中有重复的具有相同uid的行。val df1 = spark.read.parquet(args(0)).drop("sv")我认为groupBy操作符会像select distinct hid, pid fro

浏览 0提问于2018-01-27得票数 3

回答已采纳

2回答

在spark* Dataframe中应用groupBy后筛选的列的百分比*

、、、

Spark Dataframe包含一个包含2列的表:状态、类别。Status has values----'y' and 'n'如何在spark (Scala)中找到每个类别中状态'y‘的百分比df.groupBy("category").agg(count("*")) df.filter(col(

浏览 4提问于2017-10-24得票数 1

2回答

如何在scala中聚合+ group by？

我有以下数据： val Cars_tmp = List("Cars|10|Paris|5|Type|New|3", "Cars|15|Paris|3|Type|New|5", "Cars|20|London|10|Type|New|2", "Cars|40|London|40|Type|New|1") 我想计算一下每个城市的平均汽车数量。注意: Cars_tmp.split('|')(6) =汽车数量，Cars_tmp(2).split('|')(2) =城市我试过这个： v

浏览 23提问于2020-10-08得票数 0

回答已采纳

1回答

火花例外: org.apache.spark.streaming.api.java.JavaStreamingContext :java.io.NotSerializableException

、、、、

一旦我将实现更改为使用groupBy/函数，它就会出现可序列化的异常。(RDD.scala:693) at org.apache.spark.rdd.RDD(RDD.scala:358) at org.apache.spark.rdd.RDD.groupBy<

浏览 8提问于2016-09-25得票数 2

1回答

在scala中省略带有默认值的参数时获取“不正确的参数数”

、

= new SparkContext("localhost", "GroupBy Test", System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_EXAMPLES_JAR, appName: String, sparkHome: String, jars: Seq[String], environment: scala.collection.Map[String,String])spa

浏览 3提问于2014-01-06得票数 2

回答已采纳

1回答

Scala Spark中的groupBy函数需要Lzocodec吗？

、、

org.apache.spark.rdd.RDD$$anonfun$groupBy$1.apply(RDD.scala:687) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala(RDD.sc

浏览 0提问于2018-01-31得票数 0

5回答

重写scala代码使其更加实用

我试着教自己Scala，同时尝试编写函数式语言的惯用代码，即编写更好、更优雅、更实用的代码。我有以下代码可以运行：import org.apache.spark.sql.val asAt = LocalDate.now() val dataFrames = Seq(df.featuresGroup1(groupBy, asAt),df.featuresGroup2(groupBy) => org.apache.spark<

浏览 2提问于2018-05-23得票数 2

回答已采纳

1回答

“`sbt”在添加依赖项后编译时会导致错误

、、、

我向built.sbt添加了以下依赖项，在终端中运行sbt run之后，得到了以下错误：[info] welcome to sbt 1.5.5 (Private Build Java/localorg.apache.spark/spark-streaming/3.1.2/ivys/ivy.xml [error] not found: https://repo1.maven.org/maven2/org/apache&

浏览 1提问于2021-09-16得票数 3

回答已采纳

2回答

如何使用Dataset API (如SQL的“按1分组”或“按2排序”)使用序数？

、、

我能够在Spark‘文字’查询中使用序数(在GROUP BY和ORDER BY之后的这些整数)：但是对于DataFrames/DataSet，我必须始终使用列名：df.select($"ProfileN

浏览 3提问于2017-07-19得票数 2

回答已采纳

2回答

在Apache Spark中解析/查询异构CSV数据的最佳方法？

、

但是，每一行的列取决于它是什么类型的行，由特定的列指示。高效地解析这些散布的数据的最佳方法，这样我就可以查询数据集，潜在地连接各种行类型。当所有行都相同时，我可以将CSV数据加载到结构化模式中，但是这些文件中行的异构性让我感到困惑。我考虑过我可以使用Spark来读取文本形式的数据，然后在“groupBy”列上执行某种类型的操作，这样我就可以单独解析每个组，但我还无法制定代码来做到这一点，因为DataFrames的语义似乎与标准的Scala集合非常不同，例如:据我所知，<

浏览 1提问于2018-08-22得票数 1

3回答

什么是火花-scala的解决方案来对分组数据中的非键非整数列中的数据进行排序？

、、

如果将product_price保持为字符串，则排序不正确。product_category_id，但在groupBy之后，sortBy或orderBy无法工作。> prdDF.groupBy("product_category_id") scala> prdDF.<e

浏览 1提问于2019-08-12得票数 1

3回答

如何枢轴流数据集？

、、

有人能确认在结构化流(Spark2.0)中确实不支持旋转吗？$.org$apache$spark$sql$catalyst$analysis$UnsupportedOperationChecker$$throwError(UnsupportedOperationChecker.scala(UnsupportedOperationChecker.scala:36)，org.apache.spark.sql.catalyst.analysis.UnsupportedOperationChecker$$anon

浏览 9提问于2017-12-01得票数 8

回答已采纳

1回答

Spark Scala透视后多个聚合列按名称选择列

、、、、

在Scala Spark 2.0.1中，我试图在透视之后聚合多个列：df: org.apache.spark.sql.DataFrame = [a: int, b: int ... 2 more fields] scala> df

浏览 3提问于2017-01-23得票数 3

回答已采纳

5回答

星火升级问题:密钥未找到：_PYSPARK_DRIVER_CONN_INFO_PATH

、

下载了最新的Spark版本，因为 at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala

浏览 0提问于2018-06-15得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

按聚合(求和)双进行分组在spark中产生不一致的结果

吡火花流和实用程序导入问题

用农业火花和scala进行选择

为什么隐式类中的函数不可用？

如何在执行DataFrame操作后从spark* GroupBy列收集字符串列表？*

SparkSQL -在联接和groupBy之后获得重复行

在spark* Dataframe中应用groupBy后筛选的列的百分比*

如何在scala中聚合+ group by？

火花例外: org.apache.spark.streaming.api.java.JavaStreamingContext :java.io.NotSerializableException

在scala中省略带有默认值的参数时获取“不正确的参数数”

Scala Spark中的groupBy函数需要Lzocodec吗？

重写scala代码使其更加实用

“`sbt”在添加依赖项后编译时会导致错误

如何使用Dataset API (如SQL的“按1分组”或“按2排序”)使用序数？

在Apache Spark中解析/查询异构CSV数据的最佳方法？

什么是火花-scala的解决方案来对分组数据中的非键非整数列中的数据进行排序？

如何枢轴流数据集？

Spark Scala透视后多个聚合列按名称选择列

星火升级问题:密钥未找到：_PYSPARK_DRIVER_CONN_INFO_PATH

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐