腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
spark
scala
数据
帧
中
某些
特定
列
的
最大值
、
、
我有一个这样
的
数据
帧
。在这里,在使用_.ie拆分之后,所有
列
(c2和c3)都必须使用_拆分,然后获取
最大值
。 在实际场景
中
,我有50
列
,即c2,c3....c50,并需要从中取
最大值
。
浏览 20
提问于2020-01-02
得票数 1
回答已采纳
7
回答
从
spark
dataframe获取
特定
行
、
scala
spark
数据
帧
中有没有df[100, c("column")]
的
替代品?我想从
spark
data frame
的
一
列
中选择
特定
的
行。例如,上述R等效代码
中
的
100th行
浏览 613
提问于2016-02-07
得票数 45
回答已采纳
1
回答
spark
vs pandas dataframe (具有大
列
) jupyter笔记本
中
的
head(n)
、
、
、
、
几天后,
数据
带来了大量
的
功能。为了获得简短
的
数据
摘要,人们将
数据
加载到
数据
框
中
,并使用head()方法显示
数据
。使用Jupyter Notebook( Toree for
scala
)进行实验是很常见
的
。
Spark
(
scala
)很适合处理大量
数据
,但是它
的
head()方法不能在水平滚动
的
notebook
中
显示
浏览 3
提问于2018-06-13
得票数 2
3
回答
检查
spark
dataframe
中
的
每一
列
是否具有
特定
值
、
、
、
我们是否可以使用
Spark
-SQL或
scala
检查
spark
数据
帧
中
的
每一
列
是否都包含
特定
的
字符串(例如"Y")? 我已经尝试了以下方法,但我认为它不能正常工作。
浏览 0
提问于2017-09-09
得票数 2
回答已采纳
1
回答
如何处理
spark
scala
中
withcolumn和continue剩余记录异常
、
、
我正在尝试使用
scala
中
的
withColumn向
spark
数据
帧
中
添加一
列
,我正在尝试用try-catch编写这段代码,这样我就可以捕获异常并记录这些错误记录,然后继续剩余
的
记录。在
spark
-
scala
中有没有一种方法来处理withColumn中发生<em
浏览 2
提问于2020-03-04
得票数 0
1
回答
获取Apache
Spark
Dataframe (
Scala
)
中
列
的
最大值
、
我正在尝试获取
列
中
的
最大值
,并编写了以下代码。val max = df.withColumn("max", lit(df.agg(max($"id")).as[Int].first))error: recursivetype我真的不明白这个错误
浏览 24
提问于2020-03-03
得票数 0
回答已采纳
1
回答
如何将VectorAssembler与
Spark
关联工具一起使用?
、
、
我试图在
spark
scala
中
关联两
列
数据
帧
,方法是将原始
数据
帧
的
列
通过管道传输到VectorAssembler
中
,然后是关联实用程序。由于
某些
原因,Vector汇编程序似乎生成了空向量,如下所示。这是我到目前为止所掌握
的
。at
scala
.sys.package$.error(package.
scala
:27) at
浏览 17
提问于2020-07-29
得票数 0
3
回答
如何连接具有相同
列
的
数据
集并选择一个?
、
、
、
我有两个
Spark
数据
帧
,之后我会加入并选择它们。我想选择其中一个
数据
帧
的
特定
列
。但是在另一个
中
存在相同
的
列名。因此,我得到了一个二义
列
的
异常。
浏览 0
提问于2017-12-28
得票数 5
回答已采纳
3
回答
字符串列包含通过
spark
scala
进行精确匹配
的
单词
、
、
我有两个
数据
帧
,第一个
数据
帧
包含实际
数据
(从CSV文件读取),第二个
数据
帧
包含一个具有多个关键字
的
列
。即下面的Dataframe-1外观相似(我们必须搜索
的
地方):
数据
帧
-2:我想要
的
输出:我在这里使用
spark
scala
。我想要一个与dataframe-1
中
的</
浏览 1
提问于2021-02-12
得票数 0
1
回答
如何删除星火(
SCALA
)
中
的
整个
数据
帧
?
有一些函数可以删除
Spark
(
SCALA
)
中
的
列
和行,但是却找不到任何函数来删除整个
数据
frame.Is,有一种方法可以删除
Spark
(
SCALA
)
中
的
数据
帧
吗?
浏览 0
提问于2016-10-15
得票数 3
4
回答
如何使用collect作为key,col作为value,以map
的
形式收集
spark
数据
帧
我正在寻找一种整洁
的
方法来找到每一
列
的
最大值
,并收集在地图中作为{col name:max value of col}。下面是我在一个玩具示例中所取得
的
进展。在我
的
完整
数据
中有数百
列
,所以手动转换每一
列
是不可行
的
。
scala
> import
spark
.implicits._
scala
&
浏览 49
提问于2020-06-12
得票数 0
回答已采纳
1
回答
将1
列
中
的
空值替换为另一
列
中
的
数据
、
我正在尝试用可能在count_2
列
中
的
数据
替换count_1
列
中
的
所有空
数据
。下面是给定输入
的
预期输出。我如何在
Spark
Scala
中
做到这一点?输入
数据
帧
name count_1 count_2Python null 20000R
浏览 23
提问于2021-09-05
得票数 1
回答已采纳
2
回答
如何在
Spark
(2.4) SQL -
Scala
2.11
中
避免ArrayType
的
自动转换
、
、
、
给定
Spark
2.4和
scala
2.11
中
的
代码 val df =
spark
.sql("""select array(45, "something", 45)""") 如果我使用df.printSchema()打印模式,我会看到
spark
自动转换为字符串CAST(45 AS STRING)。array (nullable = false) | |-- element: string (conta
浏览 30
提问于2020-01-21
得票数 3
1
回答
df.select()和df.agg()有什么区别?
、
、
、
我有一个
数据
帧
,我想从其中提取
最大值
、最小值并计算其中
的
记录数。
数据
帧
是:df: org.apache.
spark
.sql.Dataset[Long] = [id: bigint]
scala
> df.select(min("id"),
浏览 3
提问于2017-06-19
得票数 1
回答已采纳
1
回答
如何在
Spark
中
连接其他
数据
帧
时从其中一个
数据
帧
中选择结果
列
?
、
、
、
我有两个
数据
帧
:当我在外部连接
中
连接这两个
数据
帧
之后,我得到了下面的
数据
帧
。-+ 为了避免在最终输出中出现重复<
浏览 0
提问于2021-04-14
得票数 0
1
回答
N
列
m行
的
动态
数据
帧
、
从json(动态模式)读取
数据
,并将其加载到dataframe。示例
数据
帧
:import
spark
.implicits._ (1, "ABC")ABC|| 3| GHIJ|要求:
列
数和名称可以是任何值。我想在循环中读取行,以逐个获
浏览 6
提问于2020-06-04
得票数 0
回答已采纳
2
回答
当表已经存在时,使用
spark
dataframe覆盖表失败
、
、
、
由于
某些
原因,即使当我指定postgres时,我也会得到一个relation already exists postgres错误。为什么我
的
代码不能像预期
的
那样覆盖
数据
库
中
的
数据
?而且里面也有
数据
。怎么了?这会不会是内存问题?会不会是queryTimeout?(commands.
scala
:68) at org.apache.
spark
.sql.execution.command.ExecutedComman
浏览 2
提问于2019-12-13
得票数 1
3
回答
删除
spark
数据
帧
中
重复
的
所有记录
、
、
、
、
我有一个包含多个
列
的
spark
数据
帧
。我想找出并删除
列
中有重复值
的
行(其他
列
可以是不同
的
)。我尝试使用dropDuplicates(col_name),但它只删除重复
的
条目,但仍然在
数据
帧
中保留一条记录。我需要
的
是删除所有最初包含重复条目的条目。我使用
的
是
Spark
1.6和
Scala
2.10。
浏览 4
提问于2018-04-10
得票数 5
回答已采纳
1
回答
Spark
中
多个
数据
帧
上
的
大量转换
、
我有一个基于
spark
的
转换引擎,它是元
数据
驱动
的
。我在
Scala
MapString DataFrame
中
对内存
中
存储
的
多个
数据
帧
执行一组转换。我遇到一种情况,我使用84种转换生成
数据
帧
,包括(withColumn、Join、union等)。在这些之后,输出
数据
帧
被用作另一组转换
的
输入。如果我在前84次转换后写入中间转换结果,
浏览 11
提问于2020-06-27
得票数 0
3
回答
如何将
数据
集写入Kafka主题?
、
、
、
我使用
的
是
Spark
2.1.0和Kafka 0.9.0。有没有人知道这样
的
事情是否可行?我用
的
是
spark
shell:
spark
-shell --packages org.apac
浏览 3
提问于2018-04-06
得票数 6
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
2018年数据科学前15名的Scala库
数据质量和验证检查
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
GitHub标星2400,Netflix开源笔记本工具Polynote
Spark SQL DataFrame与RDD交互
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券