腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
字符串列包含通过
spark
scala
进行精确
匹配
的
单词
scala
、
apache-spark
、
apache-spark-sql
我有两个
数据
帧
,第一个
数据
帧
包含实际
数据
(从CSV文件读取),第二个
数据
帧
包含一个具有
多个
关键字
的
列
。即下面的Dataframe-1外观相似(我们必须搜索
的
地方):
数据
帧
-2:我想要
的
输出:我在这里使用
spark
scala
。我想要一个与dataframe-1
中</e
浏览 1
提问于2021-02-12
得票数 0
2
回答
如
何在
Spark
Scala
中
根据
其他
数据
帧
中
的
多个
列
匹配
来
过滤
数据
帧
scala
、
apache-spark
假设我有三个
数据
帧
,如下: val df1 = Seq(("steve","Run","Run"),("mike","Swim","Swim"),("bob","Fish","Fish")).toDF我只想将df2
过滤
到sport1和sport2组合是df1
的
有效行
的
那些行。例如,由于在df1,sport1 -> Ru
浏览 19
提问于2020-10-28
得票数 0
1
回答
单元测试
中
的
Spark
Dataframe比较以检查功能
scala
、
dataframe
、
unit-testing
、
apache-spark
、
apache-spark-sql
我已经创建了一些方法
来
将
数据
帧
转换为所需
的
格式,并
根据
错误规则
过滤
多个
错误检查和更新
数据
帧
。 我是一个在intelliJ上用
scala
编写单元测试
的
新手。我必须编写单元测试
来
将实际
数据
帧
与预期结果进行比较。 下面是我为
数据
帧
的
pivot功能编写
的
单元测试用例。类似地,我必须将
浏览 4
提问于2021-09-13
得票数 1
3
回答
删除
spark
数据
帧
中
重复
的
所有记录
scala
、
apache-spark
、
duplicates
、
apache-spark-sql
、
spark-dataframe
我有一个包含
多个
列
的
spark
数据
帧
。我想找出并删除
列
中有重复值
的
行(
其他
列
可以是不同
的
)。我尝试使用dropDuplicates(col_name),但它只删除重复
的
条目,但仍然在
数据
帧
中保留一条记录。我需要
的
是删除所有最初包含重复条目的条目。我使用
的
是
Spark
1.6和
Scala
浏览 4
提问于2018-04-10
得票数 5
回答已采纳
1
回答
将1
列
中
的
空值替换为另一
列
中
的
数据
scala
、
apache-spark
我正在尝试用可能在count_2
列
中
的
数据
替换count_1
列
中
的
所有空
数据
。下面是给定输入
的
预期输出。我如
何在
Spark
Scala
中
做到这一点?输入
数据
帧
name count_1 count_2Python null 20000
Scala
30000
浏览 23
提问于2021-09-05
得票数 1
回答已采纳
1
回答
在
spark
/
scala
中
寻找计算
数据
帧频率分布
的
方法
scala
、
apache-spark
我想使用
spark
和
scala
计算
数据
帧
的
频率分布(返回每
列
中最常见
的
元素以及它出现
的
次数)。我尝试过使用DataFrameStatFunctions库,但在我只
过滤
了数字类型
列
的
数据
帧
之后,我无法应用该库
中
的
任何函数。创建UDF
的
最佳方式是什么?
浏览 0
提问于2016-07-02
得票数 2
2
回答
如
何在
Apache
Spark
中
根据
分隔符将单字符串列转换为多
列
apache-spark
、
pyspark
、
apache-spark-sql
我有一个包含字符串列
的
数据
框,我想在其中创建
多个
列
。 我想从它创建
多个
列
。字符串
的
格式是相同
的
- col1:value1 col2:value2 col3:value3 ... colN:valueN。在输出
中
,我需要
多个
列
- col1 to colN,值作为每
列
<em
浏览 23
提问于2021-06-02
得票数 0
回答已采纳
1
回答
spark
vs pandas dataframe (具有大
列
) jupyter笔记本
中
的
head(n)
scala
、
pandas
、
apache-spark
、
apache-spark-sql
、
jupyter-notebook
几天后,
数据
带来了大量
的
功能。为了获得简短
的
数据
摘要,人们将
数据
加载到
数据
框
中
,并使用head()方法显示
数据
。使用Jupyter Notebook( Toree for
scala
)进行实验是很常见
的
。
Spark
(
scala
)很适合处理大量
数据
,但是它
的
head()方法不能在水平滚动
的
notebook
中
显示
浏览 3
提问于2018-06-13
得票数 2
2
回答
Spark
SQL
过滤
多个
相似字段
apache-spark
、
apache-spark-sql
有没有更好
的
方法在
spark
数据
帧
上编写
多个
条件
的
过滤
器,这些条件在本质上是相似的。 假设df是具有时间戳
列
t1、t2、t3、t4
的
spark
数据
帧
。current_date()-expr("INTERVAL 30 DAYS")) || col("t4").lt(current_date()-expr("INTERVAL 30 DA
浏览 43
提问于2019-01-19
得票数 0
1
回答
DataFrame na()填充方法和不明确引用
的
问题
apache-spark
、
dataframe
我使用
的
是
Spark
1.3.1,其中连接两个
数据
帧
会重复连接
的
列
。我在外部连接两个
数据
帧
,希望将结果
数据
帧
发送到na().fill()方法,以便
根据
列
的
数据
类型将空值转换为已知值。我看到有一个dataFrame.withColumnRenamed方法,但我只能重命名一
列
。我有涉及
多个
列
<em
浏览 4
提问于2016-02-28
得票数 3
1
回答
如
何在
一个
spark
dataframe
的
多个
列上旋转?
java
、
scala
、
apache-spark
、
apache-spark-sql
、
pivot
我们如
何在
一个
数据
帧
中
的
多个
列上进行透视。例如,这里提到
的
例子,https://
spark
.apache.org/docs/latest/sql-ref-syntax-qry-select-pivot.html SELECT * FROM person我们不能在
Spark
scala
的
pivot方法
中
传递
多个
参数,
浏览 11
提问于2021-01-17
得票数 0
回答已采纳
0
回答
使用
Spark
中
的
列
进行简化
python
、
scala
、
apache-spark
我在
Spark
中有一个
数据
帧
,我已经在这个
数据
帧
上应用了一些
过滤
器。
根据
通过这些
过滤
器
的
记录,我在dataframe
中
添加了一个新
列
。("14721"), "rule2").otherwise(""))
浏览 8
提问于2017-06-16
得票数 1
1
回答
在
spark
/
scala
中
的
另一个
数据
框
中
查找
多个
列
值
scala
、
dataframe
、
apache-spark
、
lookup
我有两个
数据
帧
A和B。A有30
列
- reason1,reason2.......reason30现在,我需要在B
中
查找所有以reason*开头
的
列
,并在
数据
帧
A
的
一
列
中
获取相应
的
值。因此,最终
的
数据
帧
将具有reason1,reason2.......reason30,
浏览 9
提问于2021-05-17
得票数 0
1
回答
如
何在
spark
中使用pandas split-apply-combine风格策略和
scala
api?
pandas
、
scala
、
apache-spark
、
split-apply-combine
我有一个
scala
函数,它接受一个
spark
dataframe并返回一个单值,也就是说两个值。这个函数很复杂,使用在DataFrame类
中
定义
的
聚合,调用
其他
java库,并且不能用SQL表达。它需要整个
数据
帧
的
内容
来
进行计算,它不能一次添加一行并建立一个结果。 我有一个大
的
dataframe,其中包含一个
列
,我想用它将dataframe分成小块,并对每个小块执行上述计算。然后,我想返回一个新<em
浏览 28
提问于2020-04-22
得票数 0
2
回答
有没有办法在pyspark
中
根据
索引对
数据
帧
进行切片?
apache-spark
、
pyspark
、
apache-spark-sql
在python或R
中
,可以使用索引对DataFrame进行切片。df.iloc[5:10,:] 在pyspark中有没有类似的方式
来
根据
行
的
位置对
数据
进行切片?
浏览 3
提问于2018-10-13
得票数 4
回答已采纳
1
回答
Apache
Spark
多个
聚合
scala
、
apache-spark
、
apache-spark-sql
例如,我在
Scala
中使用Apache
spark
对
数据
帧
中
的
多个
列
运行聚合selectcolumn2, sum(1) as count from df group by column2 实际
的
聚合比sum(1)复杂得多,但它超出了要点。上面的例子这样
的
查询字符串是为我想要聚合
的
每个变
浏览 1
提问于2015-10-30
得票数 0
1
回答
Spark
Dataframe
的
过滤
操作
apache-spark
、
apache-spark-sql
我有一个
Spark
,我希望
根据
一个特定
列
的
匹配
值从它们中选择几个行/记录。我想我可以使用
过滤
器操作或在映射转换中选择操作
来
实现这一点。但是,我想针对那些在应用
过滤
器时没有选择
的
行/记录更新一个status
列
。那么,如何知道和更新未被选中
的<
浏览 0
提问于2018-07-25
得票数 1
3
回答
在
Spark
UDF
中
操作
数据
帧
apache-spark
、
dataframe
、
apache-spark-sql
、
spark-dataframe
我有一个从dataframe
过滤
和选择值
的
UDF,但它遇到了"object not serializable“错误。详情见下文。我想要
根据
来自另一个dataframe df2
的
匹配
的
"ID“和"Value”对"Y“
列
的
子集求和。(class: org.apache.
spark
.sql.Column, value: Y1) 我查了一下,发现
Spark
列
是不可序列
浏览 20
提问于2018-02-21
得票数 3
回答已采纳
2
回答
在PySpark中使用
列
对象而不是字符串有什么优点
python
、
dataframe
、
apache-spark
、
select
、
pyspark
在PySpark
中
,可以使用
列
对象和字符串
来
选择
列
。这两种方法返回相同
的
结果。有什么不同吗?什么时候应该使用
列
对象而不是字符串?col_name')))df.select(F.lower(df['col_name']))df.select(F.lower(df.col_name))df.select(F.lower('col_name
浏览 0
提问于2020-11-09
得票数 0
4
回答
在每次传递时间
列
进行转换时遍历Dataframe
scala
、
dataframe
、
apache-spark
、
apache-spark-sql
我有一个有100
列
和列名
的
数据
帧
,比如col1、col2、col3……我想
根据
条件
匹配
对
列
的
值应用特定
的
转换。我可以将列名存储在字符串数组
中
。并在withColumn
中
传递数组
的
每个元素
的
值,并且基于When条件我可以垂直转换
列
的
值。但问题是,由于
数据
帧
是不可变
的
,所以每个更
浏览 23
提问于2020-07-10
得票数 0
回答已采纳
点击加载更多
相关
资讯
2018年数据科学前15名的Scala库
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
一文读懂PySpark数据框
一文读懂 PySpark 数据框
用这8种开源工具,机器学习超轻松
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券