腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
重命名
Spark
DataFrame
的
重
复列
?
、
、
关于管理来自连接
的
数据帧
的
重
复列
,有几个很好
的
答案,例如(How to avoid duplicate columns after join?),但是如果我只看到一个包含重
复列
的
DataFrame
,我必须处理它怎么办。在此之前,我无法控制流程。1,2),(3,4)).toDF("a","a")| a| a|| 1| 2|+---+---
浏览 18
提问于2021-11-04
得票数 0
回答已采纳
2
回答
如何阻止火花放电自动
重命名
重
复列
、
我有一个包含重
复列
的
csv文件。当我用
spark
.read.format("CSV").load()阅读时。它会自动
重命名
列,并在列名
的
最后一个中追加索引值。""df=
spark
.read.format('csv').option('header',True).load('desktop/csv/2.csv')""
浏览 12
提问于2022-06-29
得票数 -1
2
回答
使用SQL表达式删除
Spark
中
的
重
复列
、
、
在
Spark
中,我们如何在删除重
复列
的
情况下运行SQL查询?例如,在
spark
上运行
的
SQL查询left outer joinon a.id = b.id 在这种情况下,如何删除重复
的
列我知道我们可以在
Spark
中使用其他步骤,比如提供遗憾或
重命名
列,但是有没有一种更快
的
方法来简单地通过编写SQL查询来删除重复
的
列?
浏览 8
提问于2017-09-10
得票数 1
3
回答
如何删除PySpark
DataFrame
中
的
列复制而不声明列名
、
、
这是我在熊猫身上做
的
事如何在PySpark中做到这一点? 我找到了,但是代码
的
数量太不一样了
浏览 3
提问于2021-09-30
得票数 2
回答已采纳
1
回答
在加载csv时删除重
复列
,使用java
spark
我试图连接两个表,其中一个表包含重复
的
列。问题是,这些列被
重命名
为尾数,因此dropDuplicates()函数无法工作。以下是代码: .load(path);
浏览 0
提问于2018-04-08
得票数 0
3
回答
在将运行时7.3LTS(
Spark
3.0.1)升级到9.1LTS(
Spark
3.1.2)后创建PySpark数据库时json文件中
的
重
复列
抛出错误
、
、
、
、
问题陈述:在升级Databricks运行时版本时,复制列在创建
dataframe
时抛出错误。在较低
的
运行时,会创建
dataframe
,并且由于下游不需要重
复列
,因此它只是在select中被排除在外。在阅读了
dataframe
之后,我们选择了所需
的
列。无论如何,我们不需要这个重复
的
tags。以前,我们在Databricks运行时7.3LTS(
Spark
3.0.1)上运行,在那里它创建了包含重
复列
的
datafra
浏览 1
提问于2021-11-16
得票数 2
回答已采纳
3
回答
Spark
Dataframe
中
的
重
复列
、
、
、
、
我在hadoop集群中有一个10 in
的
csv文件,其中包含重复
的
列。我尝试用SparkR分析它,所以我使用
spark
-csv包将它解析为
DataFrame
sqlContext, source= "com.databricks.
spark
.csv", mode = "DROPMALFORMED"但是由
浏览 0
提问于2015-11-20
得票数 7
回答已采纳
1
回答
循环产生许多列名。
、
我有下面的代码来
重命名
多个
dataframe
的
列,它工作得很好,但是它输出
的
是堆叠
的
重
复列
。
浏览 2
提问于2022-06-02
得票数 0
回答已采纳
1
回答
如何从case类值
重命名
现有的
spark
数据
、
、
现在,我想
重命名
这些列和数据类型,就像案例类MyData中提到
的
那样。name: String, loc: String) val inputDF=
spark
.read.csvcase类中给定
的
模式,
重命名
列以及修改数据类型。是否可以将inputDF
的
列和数据类型
重命名
为case类中给定
的
列和数据类型。_c0
重命名
为id,_c
浏览 2
提问于2022-05-02
得票数 0
回答已采纳
3
回答
需要将重复
的
列从pyspark中
的
数据中移除。
、
、
、
我有一个432列
的
dataframe
和24个重复
的
列。 : org.apache.
spark
.sql.catalyst.errors.package$TreeNodeException: execute, tree: HashAggregate(keys
浏览 0
提问于2019-05-31
得票数 0
回答已采纳
2
回答
重命名
写入
的
CSV文件
Spark
、
、
、
我运行
的
是
spark
2.1,我想把结果写成一个csv到亚马逊S3。在重新分区后,csv文件有一个很长
的
加密名称,我想将其更改为一个特定
的
文件名。 .repartition(1) .format("com.databricks.
spark
.csv") .save(&
浏览 1
提问于2017-06-26
得票数 3
回答已采纳
1
回答
[
spark
-cassandra-connector]如何在
spark
2.3.1中将scala隐式支持
的
代码转换为java
、
、
、
我正在尝试将
spark
-cassandra使用
的
项目从scala_2.11
重
构为java_1.8。我使用
的
是
spark
-sql_2.11-2..3.1和
spark
-cassandra-connector_2.11-2.3.1。现在我正在尝试将代码重构到java 1.8中。我有一些隐含和
DataFrame
被使用。import com.datastax.
spark
.connector._
浏览 7
提问于2019-04-17
得票数 0
回答已采纳
1
回答
在scala中
重命名
数据rename
的
多列
、
我想
重命名
我在Seq中提供
的
dataframe
中
的
一些列。我正在使用以下方法: for (column <-
dataframe
.columns){ <em
浏览 4
提问于2022-11-29
得票数 0
3
回答
我可以将pandas数据帧转换为
spark
rdd吗?
Pbm: a)读取一个本地文件到Panda
dataframe
中,比如PD_DF。b)操纵/海量PD_DF并添加列到
dataframe
中。c)需要使用
spark
将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
3
回答
在集群模式下,log4j在哪里写入日志?
、
、
、
log4j.appender.rolling.Append=true集群驱动程序日志log4j:将文件/tmp/cc/abc.log.1
重命名
为/tmp/cc/abc.log.2 log4j:将文件/tmp/cc/abc.log
重命名
浏览 0
提问于2019-02-15
得票数 0
1
回答
合并
spark
dataframe
中
的
重
复列
、
、
我有一个
spark
数据框,它可以有重复
的
列,具有不同
的
行值,是否可以合并这些重复
的
列,并获得没有任何重
复列
的
数据帧|name |upload| name| upload1| | null|
浏览 4
提问于2018-01-05
得票数 3
回答已采纳
1
回答
Spark
/Scala -
重命名
List生成
的
列
、
、
如何在
Spark
/Scala中将_1,_2
重命名
为有意义
的
列名?
浏览 0
提问于2017-09-04
得票数 0
4
回答
用相同
的
名称连接dataframes并
重命名
结果列
、
缩短
的
例子: (2, "b"), columns1 = ["id","name"] ]df2 =
spark
.c
浏览 3
提问于2022-08-17
得票数 7
回答已采纳
2
回答
熊猫在创建中与合并栏连接()
、
、
我正在尝试创建一个非常大
的
dataframe
,它由许多较小
的
dataframe
(
重命名
为
dataframe
名称)组成
的
一列组成。我使用CONCAT()和循环遍历表示dataframes
的
字典值,并在索引值上循环创建大型
dataframe
。CONCAT() join_axes是所有数据格式
的
公共索引。这很好,但是我有重复
的
列名。 我必须能够在指定
的
窗口上循环索引,这是我最后创建数据
浏览 9
提问于2016-11-03
得票数 0
回答已采纳
3
回答
我怎样才能用Scala来“拉皮条我
的
库”呢?
、
、
、
作为一个例子,我有一个类似于在星火
DataFrame
上定义
的
方法 def deduplicate如果我稍后升级到定义
DataFrame
#deduplicate方法
的
Spark
的
新版本,会发生什么?客户端代码将悄悄切换到新
的
实现,这可能会导致微妙
的
错误(或明显
的
错误,这是较少
的
问题)。使用反射,
浏览 1
提问于2018-05-14
得票数 11
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Spark将本地文件读取并封装为DataFrame的完整指南
大数据有道之spark筛选去重
大数据有道之spark选择去重
WIN10重命名、删除、复制、移动文件时总是卡在99%的解决方法
第八篇|Spark SQL百万级数据批量读写入MySQL
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券