为什么外连接在scala spark中的数据帧连接之后没有保留所有提到的列？

、、

我有两个数据帧，我在它们上执行外部连接。数据帧1数据集如下所示下面是两个数据帧的模式 |-- Source_organizationId: long (nullable = true) |-- Source_sourceId: inte

浏览 3提问于2017-12-08得票数 0

回答已采纳

3回答

Spark异常“无法广播大于8 8GB的表”，'spark.sql.autoBroadcastJoinThreshold'：'-1‘不工作

、、、、

在我们的一个Pyspark作业中，我们有一个场景，我们在一个大的数据帧和相对较小的数据帧之间进行连接，我相信spark正在使用广播连接，我们遇到了以下错误 org.apache.spark.SparkException'：'-1‘设置为spark submit的一部分来禁用广播加入 /usr/bin

浏览 752提问于2020-04-22得票数 0

3回答

在Spark scala上优化where请求

、

我是Apache Spark (和Scala)的新手，我想在读取csv文件后立即应用一个简单的sql请求，并将其加载到DF上，而不需要创建额外的数据帧或临时视图或表。这是初始请求： SELECT DISTINCT city from citiesAND year IN ("2017", "2018") 这是我在Scala上

浏览 15提问于2018-12-25得票数 0

1回答

连接过程中的意外行为(仅在将列'year‘重命名为'year’时起作用)否则会失败，并显示"package.TreeNodeException: execute tree“

、、

我有一个spark数据帧，经过多次转换后，它需要与其父数据帧之一连接。除非我将列'year‘重命名为'year’，否则此连接将失败。我以前也遇到过这样的行为，在6-7次转换之后，需要将数据帧与第三次转换的输出连接起来。我不明白为什么会发生这种情况，所以我尝试了一些随机的东西，比如持久化，尝试

浏览 25提问于2019-08-17得票数 0

回答已采纳

1回答

如何在Spark中连接其他数据帧时从其中一个数据帧中选择结果列？

、、、

"value")为了避免在最终输出中出现重复的列，我尝试使用但在结果中，我看到了来自df1的

浏览 0提问于2021-04-14得票数 0

2回答

Spark -如何在列的基础上以最小的混洗重新划分数据帧？

、

我们有多个数据帧。其中一个数据帧是主数据帧，它使用左-外连接与其他数据帧连接。所有这些数据帧都连接在4列上(比如col1、col2、col3、col4)。为了减少数据混洗，目前我们正在对4个连接列上的所有数据帧<

浏览 2提问于2019-02-08得票数 2

1回答

在运行数据库连接时调用collectToPython时的StackOverflowError

、、

我使用DataBricks连接在远程群集上运行PySpark应用程序。当我试图检索一个列的最小值时，当另一个列有一个特定值时，我会遇到一个问题。类似地，Python堆栈跟踪只指向它失败的那一行，并且不提供任何有用的信息。我看到了，并按照建议更改了maxRes

浏览 18提问于2021-11-26得票数 0

1回答

在spark/scala中的另一个数据框中查找多个列值

、、、

我有两个数据帧A和B。A有30列- reason1,reason2.......reason30现在，我需要在B中查找所有以reason*开头的列，并在数据帧A的一列中获取相应的值。因此，最终的数据帧将具有reason1,reason2.......r

浏览 9提问于2021-05-17得票数 0

1回答

下面是AWS Glue的简单脚本。我有一个带有空单元格的文本文件和一个接受空值的表。当我运行胶水作业时，它会失败，例外情况是“不知道如何将NullType保存为REDSHIFT”。如何处理此问题，或者通过Glue在RedShift中不支持空插入？我没有任何空字符就重新生成了我的文件，我也有同样的问题。我添加了这行代码。df = DropNullFields.apply(frame = resolvechoice4, transformation_ctx = "

浏览 4提问于2017-11-28得票数 5

1回答

Spark Join:分析异常引用不明确

、、、

您好，我正在尝试连接spark中的两个数据帧，并收到以下错误：could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源的说法，当您尝试将两个不同的数据帧连接在</e

浏览 8提问于2017-02-14得票数 1

回答已采纳

3回答

如何连接具有相同列的数据集并选择一个？

、、、

我有两个Spark数据帧，之后我会加入并选择它们。我想选择其中一个数据帧的特定列。但是在另一个中存在相同的列名。因此，我得到了一个二义列的异常。

浏览 0提问于2017-12-28得票数 5

回答已采纳

1回答

大数据结构

还要解释两个join语句要实现的目标。empColumns = ["emp_id"，"name"，"superior_emp_id"，"year_joined"，\模式= spark.createDataFrame”，10)，\ (&

浏览 2提问于2021-10-28得票数 0

1回答

将dataframe转换为dataset会保留额外的列

、、、

在Spark 2.11中，当将Dataframe转换为Dataset时，spark会保留甚至在dataset的类中都没有引用的额外列。scala> case class F(x: String, y: String)import spark.implicits._ <e

浏览 32提问于2021-07-02得票数 1

1回答

如何避免“任务大小太大”？

、

我的问题是，在使用Spark将表还原为更大的表时，任务大小太大了。这里是情况：我创建了一个scala对象，并在主体中从它们的</em

浏览 0提问于2017-03-06得票数 2

2回答

使用SQL表达式删除Spark中的重复列

、、

我认为这个问题类似于其他一些问题，但它没有被问到。select a.* from a select b.* from b在这种情况下，如何删除重复的列我知道我们可以在Spark中使用其他步骤，比如提供遗憾或重命名列，但是有没有一种更快的<

浏览 8提问于2017-09-10得票数 1

2回答

火花红键连接器将数据写入红宝石的特定索引。

、、、、

我试图从Cassandra读取数据，并将特定索引写入Redis。假设Redis DB 5。我可以将数据保存到没有表名的Redis中吗？实际上，我只想将所有数据保存到Redis索引5中，没有表名，可以吗？我已经看过了火花红宝石连接器的文档，我没有看到任何与此相关的<

浏览 6提问于2020-07-08得票数 4

2回答

Spark数据帧上的多个联接重复记录

、、、

我正在尝试对两个Spark数据帧进行两次连接，之后我希望保留第二个数据帧中的条目，并且只保留第一个数据帧中匹配的结果。join(data,$"MODULESN" === $"ModuleSerialNumber" && $"DEVICEID" === &

浏览 0提问于2018-06-13得票数 0

1回答

Pyspark:将dataframe作为数组类型列连接到另一个dataframe

、、、、

我尝试在pyspark中连接两个数据帧，但是将一个表作为数组列连接到另一个表中。例如，对于这些表： from pyspark.sql import Row Row(a = 1, b = 'C', c = 26,), Row(a =

浏览 26提问于2021-11-08得票数 0

回答已采纳

1回答

使用类似(但略有不同)的joins避免火花洗牌

、

假设我有一系列连接在一起的数据帧，它们的列集略有不同.join(df3, Seq("order_id"))所有的连接都包含order_id，但有些连接也包含其他列。现在，如果order_id比其他列的基数高得多，那么有意义

浏览 0提问于2021-09-03得票数 0

1回答

Apache Spark* join操作的弱伸缩性差*

、、、

我在Apache Spark上运行"join“操作，发现没有弱可伸缩性。如果有人能解释这一点，我将不胜感激。我创建了两个数据帧("a"，"b")和("a"，"c")，并通过第一列连接这两个数据帧。我为“一对一”连接生成数据帧值。此外，我使用相同的分割器来避免混洗。数据<em

浏览 0提问于2017-10-04得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark异常“无法广播大于8 8GB的表”，'spark.sql.autoBroadcastJoinThreshold'：'-1‘不工作

在Spark scala上优化where请求

连接过程中的意外行为(仅在将列'year‘重命名为'year’时起作用)否则会失败，并显示"package.TreeNodeException: execute tree“

如何在Spark中连接其他数据帧时从其中一个数据帧中选择结果列？

Spark -如何在列的基础上以最小的混洗重新划分数据帧？

在运行数据库连接时调用collectToPython时的StackOverflowError

在spark/scala中的另一个数据框中查找多个列值

AWS胶-不知道如何将NullType保存为红移

Spark Join:分析异常引用不明确

如何连接具有相同列的数据集并选择一个？

大数据结构

将dataframe转换为dataset会保留额外的列

如何避免“任务大小太大”？

使用SQL表达式删除Spark中的重复列

火花红键连接器将数据写入红宝石的特定索引。

Spark数据帧上的多个联接重复记录

Pyspark:将dataframe作为数组类型列连接到另一个dataframe

使用类似(但略有不同)的joins避免火花洗牌

Apache Spark* join操作的弱伸缩性差*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐