腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
0
回答
为什么
外
连接在
scala
spark
中
的
数据
帧
连接
之后
没有
保留
所有
提到
的
列
?
、
、
我有两个
数据
帧
,我在它们上执行外部
连接
。
数据
帧
1
数据
集如下所示下面是两个
数据
帧
的
模式 |-- Source_organizationId: long (nullable = true) |-- Source_sourceId: inte
浏览 3
提问于2017-12-08
得票数 0
回答已采纳
3
回答
Spark
异常“无法广播大于8 8GB
的
表”,'
spark
.sql.autoBroadcastJoinThreshold':'-1‘不工作
、
、
、
、
在我们
的
一个Pyspark作业
中
,我们有一个场景,我们在一个大
的
数据
帧
和相对较小
的
数据
帧
之间进行
连接
,我相信
spark
正在使用广播
连接
,我们遇到了以下错误 org.apache.
spark
.SparkException':'-1‘设置为
spark
submit
的
一部分来禁用广播加入 /usr/bin
浏览 752
提问于2020-04-22
得票数 0
3
回答
在
Spark
scala
上优化where请求
、
我是Apache
Spark
(和
Scala
)
的
新手,我想在读取csv文件后立即应用一个简单
的
sql请求,并将其加载到DF上,而不需要创建额外
的
数据
帧
或临时视图或表。这是初始请求: SELECT DISTINCT city from citiesAND year IN ("2017", "2018") 这是我在
Scala
上
浏览 15
提问于2018-12-25
得票数 0
1
回答
连接
过程
中
的
意外行为(仅在将
列
'year‘重命名为'year’时起作用)否则会失败,并显示"package.TreeNodeException: execute tree“
、
、
我有一个
spark
数据
帧
,经过多次转换后,它需要与其父
数据
帧
之一
连接
。除非我将
列
'year‘重命名为'year’,否则此
连接
将失败。我以前也遇到过这样
的
行为,在6-7次转换
之后
,需要将
数据
帧
与第三次转换
的
输出
连接
起来。我不明白
为什么
会发生这种情况,所以我尝试了一些随机
的
东西,比如持久化,尝试
浏览 25
提问于2019-08-17
得票数 0
回答已采纳
1
回答
如何在
Spark
中
连接
其他
数据
帧
时从其中一个
数据
帧
中选择结果
列
?
、
、
、
"value")为了避免在最终输出中出现重复
的
列
,我尝试使用但在结果
中
,我看到了来自df1
的
浏览 0
提问于2021-04-14
得票数 0
2
回答
Spark
-如何在
列
的
基础上以最小
的
混洗重新划分
数据
帧
?
、
我们有多个
数据
帧
。 其中一个
数据
帧
是主
数据
帧
,它使用左-
外
连接
与其他
数据
帧
连接
。
所有
这些
数据
帧
都
连接在
4
列
上(比如col1、col2、col3、col4)。为了减少
数据
混洗,目前我们正在对4个
连接
列上
的
所有
数据
帧<
浏览 2
提问于2019-02-08
得票数 2
1
回答
在运行
数据
库
连接
时调用collectToPython时
的
StackOverflowError
、
、
我使用DataBricks
连接在
远程群集上运行PySpark应用程序。当我试图检索一个
列
的
最小值时,当另一个列有一个特定值时,我会遇到一个问题。类似地,Python堆栈跟踪只指向它失败
的
那一行,并且不提供任何有用
的
信息。我看到了,并按照建议更改了maxRes
浏览 18
提问于2021-11-26
得票数 0
1
回答
在
spark
/
scala
中
的
另一个
数据
框
中
查找多个
列
值
、
、
、
我有两个
数据
帧
A和B。A有30
列
- reason1,reason2.......reason30现在,我需要在B
中
查找
所有
以reason*开头
的
列
,并在
数据
帧
A
的
一
列
中
获取相应
的
值。因此,最终
的
数据
帧
将具有reason1,reason2.......r
浏览 9
提问于2021-05-17
得票数 0
1
回答
AWS胶-不知道如何将NullType保存为红移
、
、
、
下面是AWS Glue
的
简单脚本。我有一个带有空单元格
的
文本文件和一个接受空值
的
表。当我运行胶水作业时,它会失败,例外情况是“不知道如何将NullType保存为REDSHIFT”。如何处理此问题,或者通过Glue在RedShift
中
不支持空插入?我
没有
任何空字符就重新生成了我
的
文件,我也有同样
的
问题。 我添加了这行代码。df = DropNullFields.apply(frame = resolvechoice4, transformation_ctx = "
浏览 4
提问于2017-11-28
得票数 5
1
回答
Spark
Join:分析异常引用不明确
、
、
、
您好,我正在尝试
连接
spark
中
的
两个
数据
帧
,并收到以下错误:could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源
的
说法,当您尝试将两个不同
的
数据
帧
连接在</e
浏览 8
提问于2017-02-14
得票数 1
回答已采纳
3
回答
如何
连接
具有相同
列
的
数据
集并选择一个?
、
、
、
我有两个
Spark
数据
帧
,
之后
我会加入并选择它们。我想选择其中一个
数据
帧
的
特定
列
。但是在另一个
中
存在相同
的
列名。因此,我得到了一个二义
列
的
异常。
浏览 0
提问于2017-12-28
得票数 5
回答已采纳
1
回答
大
数据
结构
还要解释两个join语句要实现
的
目标。empColumns = ["emp_id","name","superior_emp_id","year_joined",\模式=
spark
.createDataFrame”,10),\ (&
浏览 2
提问于2021-10-28
得票数 0
1
回答
将dataframe转换为dataset会
保留
额外
的
列
、
、
、
在
Spark
2.11
中
,当将Dataframe转换为Dataset时,
spark
会
保留
甚至在dataset
的
类中都
没有
引用
的
额外
列
。
scala
> case class F(x: String, y: String)import
spark
.implicits._ <e
浏览 32
提问于2021-07-02
得票数 1
1
回答
如何避免“任务大小太大”?
、
我
的
问题是,在使用
Spark
将表还原为更大
的
表时,任务大小太大了。这里是情况: 我创建了一个
scala
对象,并在主体
中
从它们
的</em
浏览 0
提问于2017-03-06
得票数 2
2
回答
使用SQL表达式删除
Spark
中
的
重复列
、
、
我认为这个问题类似于其他一些问题,但它
没有
被问到。select a.* from a select b.* from b在这种情况下,如何删除重复
的
列
我知道我们可以在
Spark
中使用其他步骤,比如提供遗憾或重命名列,但是有
没有
一种更快
的<
浏览 8
提问于2017-09-10
得票数 1
2
回答
火花红键
连接
器将
数据
写入红宝石
的
特定索引。
、
、
、
、
我试图从Cassandra读取
数据
,并将特定索引写入Redis。假设Redis DB 5。我可以将
数据
保存到
没有
表名
的
Redis
中
吗?实际上,我只想将
所有
数据
保存到Redis索引5
中
,
没有
表名,可以吗?我已经看过了火花红宝石
连接
器
的
文档,我
没有
看到任何与此相关
的<
浏览 6
提问于2020-07-08
得票数 4
2
回答
Spark
数据
帧
上
的
多个联接重复记录
、
、
、
我正在尝试对两个
Spark
数据
帧
进行两次
连接
,
之后
我希望
保留
第二个
数据
帧
中
的
条目,并且只
保留
第一个
数据
帧
中
匹配
的
结果。join(data,$"MODULESN" === $"ModuleSerialNumber" && $"DEVICEID" === &
浏览 0
提问于2018-06-13
得票数 0
1
回答
Pyspark:将dataframe作为数组类型
列
连接
到另一个dataframe
、
、
、
、
我尝试在pyspark
中
连接
两个
数据
帧
,但是将一个表作为数组
列
连接
到另一个表
中
。例如,对于这些表: from pyspark.sql import Row Row(a = 1, b = 'C', c = 26,), Row(a =
浏览 26
提问于2021-11-08
得票数 0
回答已采纳
1
回答
使用类似(但略有不同)
的
joins避免火花洗牌
、
假设我有一系列
连接在
一起
的
数据
帧
,它们
的
列
集略有不同.join(df3, Seq("order_id"))
所有
的
连接
都包含order_id,但有些
连接
也包含其他
列
。现在,如果order_id比其他
列
的
基数高得多,那么有意义
浏览 0
提问于2021-09-03
得票数 0
1
回答
Apache
Spark
join操作
的
弱伸缩性差
、
、
、
我在Apache
Spark
上运行"join“操作,发现
没有
弱可伸缩性。如果有人能解释这一点,我将不胜感激。 我创建了两个
数据
帧
("a","b")和("a","c"),并通过第一
列
连接
这两个
数据
帧
。我为“一对一”
连接
生成
数据
帧
值。此外,我使用相同
的
分割器来避免混洗。
数据
<em
浏览 0
提问于2017-10-04
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
pandas系列学习(五):数据连接
大数据学习路线图
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
2018年数据科学前15名的Scala库
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券