重命名Spark DataFrame的重复列？

、、

关于管理来自连接的数据帧的重复列，有几个很好的答案，例如(How to avoid duplicate columns after join?)，但是如果我只看到一个包含重复列的DataFrame，我必须处理它怎么办。在此之前，我无法控制流程。1,2),(3,4)).toDF("a","a")| a| a|| 1| 2|+---+---

浏览 18提问于2021-11-04得票数 0

回答已采纳

2回答

如何阻止火花放电自动重命名重复列

、

我有一个包含重复列的csv文件。当我用spark.read.format("CSV").load()阅读时。它会自动重命名列，并在列名的最后一个中追加索引值。""df=spark.read.format('csv').option('header',True).load('desktop/csv/2.csv')""

浏览 12提问于2022-06-29得票数 -1

2回答

使用SQL表达式删除Spark中的重复列

、、

在Spark中，我们如何在删除重复列的情况下运行SQL查询？例如，在spark上运行的SQL查询left outer joinon a.id = b.id 在这种情况下，如何删除重复的列我知道我们可以在Spark中使用其他步骤，比如提供遗憾或重命名列，但是有没有一种更快的方法来简单地通过编写SQL查询来删除重复的列？

浏览 8提问于2017-09-10得票数 1

3回答

如何删除PySpark DataFrame中的列复制而不声明列名

、、

这是我在熊猫身上做的事如何在PySpark中做到这一点？我找到了，但是代码的数量太不一样了

浏览 3提问于2021-09-30得票数 2

回答已采纳

1回答

在加载csv时删除重复列，使用java spark

我试图连接两个表，其中一个表包含重复的列。问题是，这些列被重命名为尾数，因此dropDuplicates()函数无法工作。以下是代码： .load(path);

浏览 0提问于2018-04-08得票数 0

3回答

在将运行时7.3LTS(Spark3.0.1)升级到9.1LTS(Spark3.1.2)后创建PySpark数据库时json文件中的重复列抛出错误

、、、、

问题陈述:在升级Databricks运行时版本时，复制列在创建dataframe时抛出错误。在较低的运行时，会创建dataframe，并且由于下游不需要重复列，因此它只是在select中被排除在外。在阅读了dataframe之后，我们选择了所需的列。无论如何，我们不需要这个重复的tags。以前，我们在Databricks运行时7.3LTS(Spark3.0.1)上运行，在那里它创建了包含重复列的datafra

浏览 1提问于2021-11-16得票数 2

回答已采纳

3回答

Spark Dataframe中的重复列

、、、、

我在hadoop集群中有一个10 in的csv文件，其中包含重复的列。我尝试用SparkR分析它，所以我使用spark-csv包将它解析为DataFrame sqlContext, source= "com.databricks.spark.csv", mode = "DROPMALFORMED"但是由

浏览 0提问于2015-11-20得票数 7

回答已采纳

1回答

循环产生许多列名。

、

我有下面的代码来重命名多个dataframe的列，它工作得很好，但是它输出的是堆叠的重复列。

浏览 2提问于2022-06-02得票数 0

回答已采纳

1回答

如何从case类值重命名现有的spark数据

、、

现在，我想重命名这些列和数据类型，就像案例类MyData中提到的那样。name: String, loc: String) val inputDF=spark.read.csvcase类中给定的模式，重命名列以及修改数据类型。是否可以将inputDF的列和数据类型重命名为case类中给定的列和数据类型。_c0重命名为id，_c

浏览 2提问于2022-05-02得票数 0

回答已采纳

3回答

需要将重复的列从pyspark中的数据中移除。

、、、

我有一个432列的dataframe和24个重复的列。 : org.apache.spark.sql.catalyst.errors.package$TreeNodeException: execute, tree: HashAggregate(keys

浏览 0提问于2019-05-31得票数 0

回答已采纳

2回答

重命名写入的CSV文件Spark

、、、

我运行的是spark 2.1，我想把结果写成一个csv到亚马逊S3。在重新分区后，csv文件有一个很长的加密名称，我想将其更改为一个特定的文件名。 .repartition(1) .format("com.databricks.spark.csv") .save(&

浏览 1提问于2017-06-26得票数 3

回答已采纳

1回答

[ spark* -cassandra-connector]如何在spark 2.3.1中将scala隐式支持的代码转换为java*

、、、

我正在尝试将spark-cassandra使用的项目从scala_2.11重构为java_1.8。我使用的是spark-sql_2.11-2..3.1和spark-cassandra-connector_2.11-2.3.1。现在我正在尝试将代码重构到java 1.8中。我有一些隐含和DataFrame被使用。import com.datastax.spark.connector._

浏览 7提问于2019-04-17得票数 0

回答已采纳

1回答

在scala中重命名数据rename的多列

、

我想重命名我在Seq中提供的dataframe中的一些列。我正在使用以下方法： for (column <- dataframe.columns){ <em

浏览 4提问于2022-11-29得票数 0

3回答

我可以将pandas数据帧转换为spark* rdd吗？*

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。

浏览 0提问于2015-04-15得票数 4

3回答

在集群模式下，log4j在哪里写入日志？

、、、

log4j.appender.rolling.Append=true集群驱动程序日志log4j:将文件/tmp/cc/abc.log.1重命名为/tmp/cc/abc.log.2 log4j:将文件/tmp/cc/abc.log重命名

浏览 0提问于2019-02-15得票数 0

1回答

合并spark* dataframe中的重复列*

、、

浏览 4提问于2018-01-05得票数 3

回答已采纳

1回答

Spark/Scala -重命名List生成的列

、、

如何在Spark/Scala中将_1，_2重命名为有意义的列名？

浏览 0提问于2017-09-04得票数 0

4回答

用相同的名称连接dataframes并重命名结果列

、

缩短的例子： (2, "b"), columns1 = ["id","name"] ]df2 = spark.c

浏览 3提问于2022-08-17得票数 7

回答已采纳

2回答

熊猫在创建中与合并栏连接()

、、

我正在尝试创建一个非常大的dataframe，它由许多较小的dataframe (重命名为dataframe名称)组成的一列组成。我使用CONCAT()和循环遍历表示dataframes的字典值，并在索引值上循环创建大型dataframe。CONCAT() join_axes是所有数据格式的公共索引。这很好，但是我有重复的列名。我必须能够在指定的窗口上循环索引，这是我最后创建数据

浏览 9提问于2016-11-03得票数 0

回答已采纳

3回答

我怎样才能用Scala来“拉皮条我的库”呢？

、、、

作为一个例子，我有一个类似于在星火DataFrame上定义的方法 def deduplicate如果我稍后升级到定义DataFrame#deduplicate方法的Spark的新版本，会发生什么？客户端代码将悄悄切换到新的实现，这可能会导致微妙的错误(或明显的错误，这是较少的问题)。使用反射，

浏览 1提问于2018-05-14得票数 11

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何阻止火花放电自动重命名重复列

使用SQL表达式删除Spark中的重复列

如何删除PySpark DataFrame中的列复制而不声明列名

在加载csv时删除重复列，使用java spark

在将运行时7.3LTS(Spark3.0.1)升级到9.1LTS(Spark3.1.2)后创建PySpark数据库时json文件中的重复列抛出错误

Spark Dataframe中的重复列

循环产生许多列名。

如何从case类值重命名现有的spark数据

需要将重复的列从pyspark中的数据中移除。

重命名写入的CSV文件Spark

[ spark* -cassandra-connector]如何在spark 2.3.1中将scala隐式支持的代码转换为java*

在scala中重命名数据rename的多列

我可以将pandas数据帧转换为spark* rdd吗？*

在集群模式下，log4j在哪里写入日志？

合并spark* dataframe中的重复列*

Spark/Scala -重命名List生成的列

用相同的名称连接dataframes并重命名结果列

熊猫在创建中与合并栏连接()

我怎样才能用Scala来“拉皮条我的库”呢？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐