Scala-Spark: Filter DataFrame性能和优化

、

到目前为止，我可以通过以下两种方法来实现： // first methodval dfTransformedOne = df.filter($"id".isin(dfList:_*)) // second methodval dfI

浏览 21提问于2019-04-18得票数 1

回答已采纳

1回答

pyspark列中的访问名

、、、、

浏览 17提问于2021-09-08得票数 0

回答已采纳

2回答

如何在不使用databricks CSV api的情况下将csv文件直接读入spark DataFrames？

、、、

如何在不使用databricks CSV api的情况下将csv文件直接读入spark DataFrames？我知道有case类可以使用，并根据cols(0)位置映射cols，但问题是我有超过22列，因此我不能使用case类，因为在case类中，我们只能使用22列。我知道有structtype来定义模式，但我觉得在structtype中定义40列的代码会非常冗长。我正在寻找一些东西，以读取到数据帧使用读取方法，但在火花，我们没有直接支持csv文件，我们需要解析它？但是，如果我们有40个以上的cols呢？

浏览 2提问于2016-07-05得票数 1

1回答

spark dataframe到rdd的转换需要很长时间

、、

我正在将一个社交网络的json文件读入spark。我从这些数据中得到一个数据帧，我将其分解以获得对。这个过程运行得很完美。稍后，我想将其转换为RDD (用于GraphX)，但RDD的创建需要很长时间。val exploded_network = social_network. withColumn("id_follower",

浏览 1提问于2017-03-20得票数 3

2回答

Spark DataFrame对sqlContext

、、

为了便于比较，假设我们有一个表"T“，表中有两列"A”、"B“。我们还在一些HDFS数据库中运行了一个hiveContext。我们建立了一个数据框架：sqlContext.sql("SELECT A,SUM(B) FROM T GROUP BY A")df.groupBy("A").sum("B")

浏览 0提问于2016-07-21得票数 3

回答已采纳

1回答

从蜂巢到地板时火花的表现

、、、

假设在日期分区的顶部有一个外部单元表，那么使用v/s在阅读了dataframe之后，将进行一系列的转换和聚合。火花

浏览 3提问于2021-06-21得票数 1

回答已采纳

1回答

火花:星星之火中的CBO是否只适用于SPARK，还是也适用于Dataframe和Dataset API？

、

Does中的基于成本的优化器主要问题: CBO (基于成本的优化器)是否仅适用于sql，还是也适用于Dataframe和Dataset API？与之间的区别在于，了解以上三个主题的详细情况有助于提高性能？我们真的能控制和调整背后的内部吗？如果是，请指导如何使用并分享一些参考链接。(我发现许多解释概念的文章，但很少实际解释如何利用这些信息来提高性能)

浏览 0提问于2019-11-24得票数 0

1回答

在加入之前，猪优化器是否会过滤空值？

、、

我被pig的性能文档搞糊涂了，关于跨输入连接空值的问题。正如文档正确声明的那样：“来自A和B的空值不会被收集在一起”，因此优化器在连接之前对它们进行过滤是非常有意义的：B1 = filterB by x is not null;pig优化器会自动执行此操作吗？我问的原因是我们有许多性能问题，而根本原因就是:(

浏览 1提问于2015-08-19得票数 2

3回答

Dataframe API与Spark.sql [重复]

、、

这个问题在这里已经有答案了：在Spark SQL中编写SQL与使用Dataframe API(4个答案) 4天前就关门了。用Dataframe API格式而不是Spark.sql查询编写代码有什么显著的优势吗？我想知道催化剂优化器是否也会对spark.sql查询起作用。

浏览 103提问于2021-02-25得票数 0

回答已采纳

1回答

pyspark:计算数据帧中所有元素的总和

、

sum_all_elements_pyspark(df): return res 但是显然rdd函数比dataframe

浏览 24提问于2020-05-07得票数 0

1回答

为什么在类型化Dataset API (vs非类型化DataFrame API)中没有使用谓词下推？

、、、

我一直认为dataset/dataframe是相同的。唯一的区别是dataset API将为您提供编译时的安全性。对吧？ playersDs.filter('birthYear === 1999).explain()== Physical Plan == *(1) Filter <

浏览 0提问于2018-05-02得票数 13

回答已采纳

1回答

Swift会使用filter，map，reduce而不是for循环来做一些性能优化吗？

Swift会使用filter，map，reduce而不是for循环来做一些性能优化吗？也许在多线程或编译器优化级别，会有一些优雅的优势？我不知道，有人知道吗？谢谢

浏览 2提问于2019-07-08得票数 0

1回答

Spark-scala更改dataframe中列的数据类型

、、

我有一个dataframe，其中所有列的数据类型都是一个字符串，所以我尝试以这样的方式更新它们的数据类型： import org.apache.spark.sql.functions._ df = df.withColumn(x, col(x).cast(DoubleType)) }df.printSchema() 在scala-spark中是否可以更优雅、更高效地(在性能方面)做到这一点？

浏览 143提问于2020-06-27得票数 1

2回答

当使用ORM时，我什么时候应该为了方便而牺牲性能？

、、、、

但是，我的“勤奋程序员”经常担心优化和查询的性能，更担心我的应用程序在这些查询方面的性能。方便 users = User.query.filter_by(some_column=True).all() # list of Userusers = session.query(User.name, User.

浏览 0提问于2018-10-02得票数 1

回答已采纳

2回答

DataSet javaRDD()性能

、、、、

是否有一些参数需要调整以增强这次的性能？

浏览 1提问于2017-08-19得票数 0

1回答

中间作业顺序

、

调用中间函数的顺序对流的性能有影响吗？例1)myList.stream().filter(Item::isGreen).distinct()...相比较 myList.stream().distinct().filter(Item::isGreen)...但是第二次和第三次我不确定什么是最好的

浏览 0提问于2021-05-31得票数 0

回答已采纳

2回答

RDD对混合DataFrame API的UDF性能的影响

、、、、

虽然Spark鼓励在可能的情况下使用DataFrame API，但如果DataFrame API不够，通常是选择回到RDD还是使用UDF。这两种选择之间是否存在内在的性能差异？RDD和UDF相似，因为它们都不能从催化剂和钨的优化中获益。是否还有其他开销，如果存在，这两种方法之间是否有区别？为了给出一个具体的例子，假设我有一个DataFrame，它包含一列具有自定义格式的文本数据(不适于regexp匹配)。我需要解析该列并添加一个新的向量列，该列包含结果标记。

浏览 2提问于2016-08-09得票数 9

3回答

哪个更快spark.sql或df.filter("").select("")。使用scala

、、

table.createOrReplaceTempView("table")spark.sql("SELECT column1 from TABLE where column2 = 'VALUE'")TABLE.filter(TABLE("column2") === "value").select(col("column1")) 那么，哪个查询要快得多，普通的spark.sql还是使用过滤器和选择？

浏览 1提问于2018-09-07得票数 3

回答已采纳

1回答