如何在Spark Scala中根据其他数据帧中的多个列匹配来过滤数据帧 - 腾讯云开发者社区

文章/答案/技术大牛

发布

3回答

字符串列包含通过spark scala进行精确匹配的单词

scala、apache-spark、apache-spark-sql

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中</e

浏览 1提问于2021-02-12得票数 0

2回答

如何在Spark* Scala中根据其他数据帧中的多个列匹配来过滤数据帧*

scala、apache-spark

假设我有三个数据帧，如下： val df1 = Seq(("steve","Run","Run"),("mike","Swim","Swim"),("bob","Fish","Fish")).toDF我只想将df2过滤到sport1和sport2组合是df1的有效行的那些行。例如，由于在df1，sport1 -> Ru

浏览 19提问于2020-10-28得票数 0

1回答

单元测试中的Spark* Dataframe比较以检查功能*

scala、dataframe、unit-testing、apache-spark、apache-spark-sql

我已经创建了一些方法来将数据帧转换为所需的格式，并根据错误规则过滤多个错误检查和更新数据帧。我是一个在intelliJ上用scala编写单元测试的新手。我必须编写单元测试来将实际数据帧与预期结果进行比较。下面是我为数据帧的pivot功能编写的单元测试用例。类似地，我必须将

浏览 4提问于2021-09-13得票数 1

3回答

删除spark数据帧中重复的所有记录

scala、apache-spark、duplicates、apache-spark-sql、spark-dataframe

我有一个包含多个列的spark数据帧。我想找出并删除列中有重复值的行(其他列可以是不同的)。我尝试使用dropDuplicates(col_name)，但它只删除重复的条目，但仍然在数据帧中保留一条记录。我需要的是删除所有最初包含重复条目的条目。我使用的是Spark 1.6和Scala

浏览 4提问于2018-04-10得票数 5

回答已采纳

1回答

将1列中的空值替换为另一列中的数据

scala、apache-spark

我正在尝试用可能在count_2列中的数据替换count_1列中的所有空数据。下面是给定输入的预期输出。我如何在Spark Scala中做到这一点？输入数据帧 name count_1 count_2Python null 20000 Scala 30000

浏览 23提问于2021-09-05得票数 1

回答已采纳

1回答

在spark/scala中寻找计算数据帧频率分布的方法

scala、apache-spark

我想使用spark和scala计算数据帧的频率分布(返回每列中最常见的元素以及它出现的次数)。我尝试过使用DataFrameStatFunctions库，但在我只过滤了数字类型列的数据帧之后，我无法应用该库中的任何函数。创建UDF的最佳方式是什么？

浏览 0提问于2016-07-02得票数 2

2回答

如何在Apache Spark中根据分隔符将单字符串列转换为多列

apache-spark、pyspark、apache-spark-sql

我有一个包含字符串列的数据框，我想在其中创建多个列。我想从它创建多个列。字符串的格式是相同的- col1:value1 col2:value2 col3:value3 ... colN:valueN。在输出中，我需要多个列- col1 to colN，值作为每列<em

浏览 23提问于2021-06-02得票数 0

回答已采纳

1回答

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

scala、pandas、apache-spark、apache-spark-sql、jupyter-notebook

几天后，数据带来了大量的功能。为了获得简短的数据摘要，人们将数据加载到数据框中，并使用head()方法显示数据。使用Jupyter Notebook( Toree for scala)进行实验是很常见的。Spark (scala)很适合处理大量数据，但是它的head()方法不能在水平滚动的notebook中显示

浏览 3提问于2018-06-13得票数 2

2回答

Spark SQL过滤多个相似字段

apache-spark、apache-spark-sql

有没有更好的方法在spark数据帧上编写多个条件的过滤器，这些条件在本质上是相似的。假设df是具有时间戳列t1、t2、t3、t4的spark数据帧。current_date()-expr("INTERVAL 30 DAYS")) || col("t4").lt(current_date()-expr("INTERVAL 30 DA

浏览 43提问于2019-01-19得票数 0

1回答

DataFrame na()填充方法和不明确引用的问题

apache-spark、dataframe

我使用的是Spark 1.3.1，其中连接两个数据帧会重复连接的列。我在外部连接两个数据帧，希望将结果数据帧发送到na().fill()方法，以便根据列的数据类型将空值转换为已知值。我看到有一个dataFrame.withColumnRenamed方法，但我只能重命名一列。我有涉及多个列<em

浏览 4提问于2016-02-28得票数 3

1回答

如何在一个spark* dataframe的多个列上旋转？*

java、scala、apache-spark、apache-spark-sql、pivot

我们如何在一个数据帧中的多个列上进行透视。例如，这里提到的例子，https://spark.apache.org/docs/latest/sql-ref-syntax-qry-select-pivot.html SELECT * FROM person我们不能在Spark scala的pivot方法中传递多个参数，

浏览 11提问于2021-01-17得票数 0

回答已采纳

0回答

使用Spark中的列进行简化

python、scala、apache-spark

我在Spark中有一个数据帧，我已经在这个数据帧上应用了一些过滤器。根据通过这些过滤器的记录，我在dataframe中添加了一个新列。("14721"), "rule2").otherwise(""))

浏览 8提问于2017-06-16得票数 1

1回答

在spark/scala中的另一个数据框中查找多个列值

scala、dataframe、apache-spark、lookup

我有两个数据帧A和B。A有30列- reason1,reason2.......reason30现在，我需要在B中查找所有以reason*开头的列，并在数据帧A的一列中获取相应的值。因此，最终的数据帧将具有reason1,reason2.......reason30,

浏览 9提问于2021-05-17得票数 0

1回答

如何在spark中使用pandas split-apply-combine风格策略和scala* api？*

pandas、scala、apache-spark、split-apply-combine

我有一个scala函数，它接受一个spark dataframe并返回一个单值，也就是说两个值。这个函数很复杂，使用在DataFrame类中定义的聚合，调用其他java库，并且不能用SQL表达。它需要整个数据帧的内容来进行计算，它不能一次添加一行并建立一个结果。我有一个大的dataframe，其中包含一个列，我想用它将dataframe分成小块，并对每个小块执行上述计算。然后，我想返回一个新<em

浏览 28提问于2020-04-22得票数 0

2回答

有没有办法在pyspark中根据索引对数据帧进行切片？

apache-spark、pyspark、apache-spark-sql

在python或R中，可以使用索引对DataFrame进行切片。df.iloc[5:10,:] 在pyspark中有没有类似的方式来根据行的位置对数据进行切片？

浏览 3提问于2018-10-13得票数 4

回答已采纳

1回答

Apache Spark多个聚合

scala、apache-spark、apache-spark-sql

例如，我在Scala中使用Apache spark对数据帧中的多个列运行聚合selectcolumn2, sum(1) as count from df group by column2 实际的聚合比sum(1)复杂得多，但它超出了要点。上面的例子这样的查询字符串是为我想要聚合的每个变

浏览 1提问于2015-10-30得票数 0

1回答

Spark Dataframe的过滤操作

apache-spark、apache-spark-sql

我有一个Spark，我希望根据一个特定列的匹配值从它们中选择几个行/记录。我想我可以使用过滤器操作或在映射转换中选择操作来实现这一点。但是，我想针对那些在应用过滤器时没有选择的行/记录更新一个status列。那么，如何知道和更新未被选中的<

浏览 0提问于2018-07-25得票数 1

3回答

在Spark* UDF中操作数据帧*

apache-spark、dataframe、apache-spark-sql、spark-dataframe

我有一个从dataframe过滤和选择值的UDF，但它遇到了"object not serializable“错误。详情见下文。我想要根据来自另一个dataframe df2的匹配的"ID“和"Value”对"Y“列的子集求和。(class: org.apache.spark.sql.Column, value: Y1) 我查了一下，发现Spark列是不可序列

浏览 20提问于2018-02-21得票数 3

回答已采纳

2回答

在PySpark中使用列对象而不是字符串有什么优点

python、dataframe、apache-spark、select、pyspark

在PySpark中，可以使用列对象和字符串来选择列。这两种方法返回相同的结果。有什么不同吗？什么时候应该使用列对象而不是字符串？col_name')))df.select(F.lower(df['col_name']))df.select(F.lower(df.col_name))df.select(F.lower('col_name&#x

浏览 0提问于2020-11-09得票数 0

4回答

在每次传递时间列进行转换时遍历Dataframe

scala、dataframe、apache-spark、apache-spark-sql

我有一个有100列和列名的数据帧，比如col1、col2、col3……我想根据条件匹配对列的值应用特定的转换。我可以将列名存储在字符串数组中。并在withColumn中传递数组的每个元素的值，并且基于When条件我可以垂直转换列的值。但问题是，由于数据帧是不可变的，所以每个更

浏览 23提问于2020-07-10得票数 0

回答已采纳

点击加载更多

字符串列包含通过spark scala进行精确匹配的单词

如何在Spark* Scala中根据其他数据帧中的多个列匹配来过滤数据帧*

单元测试中的Spark* Dataframe比较以检查功能*

删除spark数据帧中重复的所有记录

将1列中的空值替换为另一列中的数据

在spark/scala中寻找计算数据帧频率分布的方法

如何在Apache Spark中根据分隔符将单字符串列转换为多列

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

Spark SQL过滤多个相似字段

DataFrame na()填充方法和不明确引用的问题

如何在一个spark* dataframe的多个列上旋转？*

使用Spark中的列进行简化

在spark/scala中的另一个数据框中查找多个列值

如何在spark中使用pandas split-apply-combine风格策略和scala* api？*

有没有办法在pyspark中根据索引对数据帧进行切片？

Apache Spark多个聚合

Spark Dataframe的过滤操作

在Spark* UDF中操作数据帧*

在PySpark中使用列对象而不是字符串有什么优点

在每次传递时间列进行转换时遍历Dataframe

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐