腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
scala
中
连接
列
和
df
列
、
、
我有一个这样的
df
col1 col2 col33 fe file2 现在我需要将col3与;分隔符
连接
起来file1;file23 fe file2 我用过concat_ws(";",collect_set(col3)) 但在col3
中
,
浏览 31
提问于2020-08-25
得票数 0
2
回答
使用SQL表达式删除Spark
中
的重复列
、
、
在
Spark
中
,我们如何在删除重复列的情况下运行SQL查询?例如,
在
spark上运行的SQL查询left outer joinon a.id = b.id 在这种情况下,如何删除重复的
列
我知道我们可以
在
Spark中使用其他步骤,比如提供遗憾或重命名列,但是有没有一种更快的方法来简单地通过编写SQL查询来删除重复的
列
?
浏览 8
提问于2017-09-10
得票数 1
3
回答
join后如何重命名重复的
列
?
、
、
我想对3个数据帧使用join,但是有一些
列
我们不需要,或者与其他数据帧有一些重复的名称,所以我想删除一些
列
,如下所示: .join(cc_
df
, 'id', 'left')请注
浏览 0
提问于2018-05-11
得票数 9
回答已采纳
1
回答
DataFrame na()填充方法
和
不明确引用的问题
、
我使用的是Spark 1.3.1,其中
连接
两个数据帧会重复
连接
的
列
。我在外部
连接
两个数据帧,希望将结果数据帧发送到na().fill()方法,以便根据
列
的数据类型将空值转换为已知值。我看到有一个dataFrame.withColumnRenamed方法,但我只能重命名一
列
。我有涉及多个
列
的
连接
。我是否只需要确保存在一组惟一的列名,而不管我应用na().fill()方法的dataFrame
中
的表别名是什么?给定:
scala</
浏览 4
提问于2016-02-28
得票数 3
1
回答
DataFrame错误:“使用替代项筛选重载方法值”
、
、
我正在尝试通过使用以下代码过滤掉null或空字符串的行来创建一个新的数据框: cannot be applied to (Boolean) val
df
1=
df
.filter(
df
("fieldA") !
浏览 0
提问于2016-05-20
得票数 24
回答已采纳
1
回答
使用大量
列
保存数据的Pyspark故障
、
、
、
、
当我们
在
Hortonworks集群上通过木星笔记本处理以下步骤时,我们遇到了一个奇怪的情况:
在
大表pivoted_<e
浏览 2
提问于2018-08-06
得票数 1
3
回答
在
星火中
连接
两个数据中心
、
、
当我试图
连接
两个数据帧时,使用 DataFrame joindf = dataFrame.join(
df
,
df
.col(joinCol)); //.equalTo(dataFrame.col(joinCol
浏览 4
提问于2016-02-19
得票数 3
1
回答
在
spark
scala
中
强制转换为decima
、
我需要在spark
Scala
中将其转换为Decimal。请帮我看一下cast(DecimalType)语句。
浏览 1
提问于2020-06-02
得票数 0
7
回答
如何在spark的数据
中
“负选择”
列
、
、
、
这个
df
有"A“、"B”
和
"C“
列
。现在假设我有一个Array,它包含这个
df
列
的名称:我想以这样的方式来做一个
df
.select(),这样我就可以指定哪些
列
不能选择。例如:假设我不想选择
列
"B“。我试过了
df
.select(column_names.filter(
浏览 21
提问于2015-07-15
得票数 22
回答已采纳
1
回答
在
Spark
中
,根据映射表,有没有办法将字符串数组转换为相应的整数数组
、
、
在
Spark
中
,根据映射表(String -> Integer),有没有办法将字符串数组转换为相应的整数数组?例如:
在
Spark
中
,有5亿个数组, Array String 1 : ['TOM','White','Black'] Array String 2 : ['BCD','TTTT','Black']
浏览 25
提问于2019-09-02
得票数 1
1
回答
spark:只拆分dataframe
中
的一
列
,并保持其余
列
不变
、
、
我正在读取spark dataframe
中
的文件。
在
第一
列
中
,我将获得两个用"_“
连接
的值。我需要将第一
列
拆分为两
列
,并保持其余
列
不变。我正在使用
Scala
和
Spark 例如: col1 col2 col3 a 1
浏览 32
提问于2019-05-01
得票数 0
1
回答
Spark处理具有数百
列
的json数据
、
、
、
我正在为
scala
在
本地模式下的Spark应用程序做一个POC。我需要处理一个json数据集,它有300
列
,但只有很少的记录。我们使用的是Spark SQL,我们的程序对于数据集中的30 - 40
列
运行得非常好。我们
在
Where子句中使用Spark SQL
和
其他条件进行内部
连接
和
外部
连接
。问题是SQL没有为300
列
连接
执行,它只是卡住了。不确定如何分析SQL。这个问题有没有解决方案,而不必
在
浏览 0
提问于2019-11-05
得票数 0
1
回答
火花:如何在不使用任何联接的情况下过滤行?
、
、
、
假设我有两个数据处理程序,
df
1
和
df
2。
df
1
和
df
2都包含"id“
列
。我想过滤
df
1,这样得到的
df
,
df
1prime 不用任何
连接
。我该怎么做?回到RDDs而不是DFs会有帮助吗?火星雨
和</e
浏览 1
提问于2017-02-22
得票数 0
5
回答
DataFrame对象没有属性“col”
在
“火花:最终指南”
中
,它说:
df
.col("count")
df</em
浏览 2
提问于2018-08-12
得票数 9
2
回答
Scala
筛选出任何column2与column1匹配的行。
、
、
、
、
嗨斯塔克沃夫,
浏览 2
提问于2020-06-04
得票数 0
回答已采纳
3
回答
连接
-仅在第一次数据中选择数据
、
我有两个数据格式:
DF
1
和
DF
2。我的任务是选择只存在于
DF
1
中
而不存在于
DF
2
中
的数据。any1能帮忙吗?我用的是Spark1.6shell。
浏览 6
提问于2017-03-06
得票数 0
回答已采纳
10
回答
如何避免join后的重复列?
、
、
我有两个数据帧,包含以下列:// Array(ts, id, X1, X2)
df
2.columns
在
我做完之后最后,我得到了以下专栏:Array(ts, id, X1, X2, ts, id, Y1, Y2)。我可以预期公共
列
将被删除。有什
浏览 17
提问于2016-02-08
得票数 64
2
回答
如何在
Scala
Spark中使用另一
列
的withColumn值组成列名
、
、
我正在尝试向DataFrame
中
添加一个新
列
。此列的值是另一
列
的值,该
列
的名称依赖于同一DataFrame
中
的其他
列
。源
列
A_1的名称来自于
连接
列
A
和
列
B的值。我知道我可以添加一个基于另一个
列
和
一个常量的新
列
,如下所示:我还知道<
浏览 1
提问于2018-01-10
得票数 5
1
回答
N
列
m行的动态数据帧
、
示例数据帧:import spark.implicits._ (1, "ABC")>
DF
.show|id | word|| 1| ABC|| 3| GHIJ|要求:
列
数
和
名称可以是
浏览 6
提问于2020-06-04
得票数 0
回答已采纳
3
回答
如何将转换后的
列
与原始的DataFrame合并?
、
、
、
这只返回转换后的
列
。def test_concat(
df
: sd.DataFrame, col_names: list) -> sd.DataFrame:如何在原始
DF
中用转换一次的转换替换现有
列
并返回整个
DF
?)], ['id', 'metric', 'score&
浏览 1
提问于2020-07-07
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在df的一列中 有None和Nan 我想把这些空值都填充为-1 应该怎么操作呢
Excel如何查找一列数据是否在另一列数据中
在Power BI中优化Power Query合并的性能:删除列
4种方法,在Word里面的已有表格中插入新的行和列
如何快速调整Excel表格中的行高和列宽?
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券