腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将列有
条件
地添加到
数据
帧
中
、
、
、
、
我在
PySpark
中有一个
数据
帧
。我想有
条件
地在
数据
框架
中
添加一
列
。 如果
数据
帧
没有
列
,那么添加一个带有null
值
的
列
。如果
列
存在,则不执行任何操作,并返回与新
数据
帧
相同
的
数据
帧
。
如何
在
PySpark
中
传
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
1
回答
如何
根据
同一
列
的
条件
更改
PySpark
数据
帧
中
的
值
?
、
、
考虑一个
数据
帧
示例: df = | tech|state|| 70|wa ||| 50|mo || 90|wi || 50|ca | +-------+-----+ 我想要
更改
'tech‘
列
,以便将任何
值
50
更改
为1,而所有其他
值
都等于0。|
浏览 29
提问于2019-04-22
得票数 0
回答已采纳
0
回答
PySpark
数据
帧
:
根据
条件
同时
更改
两
列
、
、
我想知道是否有一种方法可以同时
更改
PySpark
数据
帧
的
两
列
(或更多
列
)。现在我正在使用withColumn,但我不知道这是否意味着
条件
将被检查两次(对于大型
数据
帧
来说,这可能太昂贵了)。这段代码主要是检查其他两
列
(对于
同一
行)
中
的
值
,并在此基础上将两
列
更改
为None/null。
浏览 2
提问于2017-06-21
得票数 1
回答已采纳
2
回答
要为每行
pyspark
dataframe计算多个if elif
条件
、
、
、
我需要帮助在
pyspark
数据
帧
主题。我有一个
数据
框架,比如1000+
列
和100000+ rows.Also,我有10000+ if elif
条件
,在每个if else
条件
下,只有很少
的
全局变量被一些
值
递增。现在我
的
问题是,我
如何
才能仅在
pyspark
中
实现这一点。我读到了过滤器和where函数,它们
根据
条件
返回行,我需要检查这
浏览 0
提问于2017-07-25
得票数 0
1
回答
如何
对每个
列
值
使用不同
的
窗口规格?
、
、
这是我
的
partitionBy
条件
,需要
根据
数据
框
中
的
列
值
进行
更改
。val windowSpec = Window.partitionBy("col1", "clo2","clo3").orderBy($"Col5".desc) 现在,如果
数据
帧
中
的
一
列
(col6)
浏览 1
提问于2017-11-20
得票数 1
1
回答
pyspark
.sql.utils.IllegalArgumentException:‘字段’features‘不存在
、
、
我正在尝试通过SparkNLP对文本
数据
进行主题建模和情感分析。我已经对
数据
集执行了所有预处理步骤,但在LDA
中
遇到错误。Error 程序是: from
pyspark
.ml import Pipelinefrom
pyspark
.sql.types imp
浏览 187
提问于2021-04-22
得票数 1
回答已采纳
1
回答
在
pyspark
中
,将
值
随机
更改
为空
值
的
最有效方法是什么?
、
、
尝试弄清楚
如何
用空
值
随机替换
Pyspark
中
的
特定
列
。因此,像这样
更改
数据
帧
: | A | B || 1 | 2 || 5 | 6 || 9 | 10 | | 11| 12 | 并将
列
'B‘
中
25%
的
值
随机
更改
为空
值
: | A
浏览 29
提问于2020-09-18
得票数 2
回答已采纳
1
回答
访问
PySpark
数据
帧
中
的
特定项目
、
、
如何
访问
PySpark
数据
帧
中
某
列
的
某个索引处
的
值
?例如,我想访问一个名为"Category“
的
列
的
索引5处
的
值
。我
如何
在
PySpark
语法
中
做到这一点呢?
浏览 2
提问于2018-03-07
得票数 10
回答已采纳
2
回答
如何
从
pyspark
中
的
dataframe创建临时dataframe?
、
我需要
根据
pyspark
中
的
某些
条件
从dataframe创建临时dataframe。你能教我怎么做吗?示例:id Name last_name102 Shyam Naresh我想
根据
id
值
创建临时
数据
帧
。
浏览 2
提问于2020-12-01
得票数 0
1
回答
从
PySpark
运行大量配置单元查询
、
、
、
我想要执行大量
的
配置单元查询,并将结果存储在
数据
帧
中
。我有一个非常大
的
数据
集,结构如下:| visid_high,它使用每一行作为二级查询
的
输入:for session in sessions.collect()[:100]: query = "SELECT pr
浏览 5
提问于2018-07-23
得票数 0
2
回答
如何
扩展spark dataframe
中
的
数据
子集
、
、
、
我有一个包含多个
列
的
spark dataframe,重要
的
是一
列
带有日期时间戳,另一
列
带有
值
。如果
值
对应于某个特定时间之前
的
日期时间,我希望将value
列
中
的
所有
值
按一个常量进行缩放。只有
值
列
中
的
值
应该
更改
,其余
的
数据
帧
应
浏览 23
提问于2021-04-21
得票数 0
回答已采纳
2
回答
如何
检查来自不同
数据
帧
的
列
值
?
、
、
、
我有两个
pyspark
数据
帧
,我想检查第一个
数据
帧
列
值
是否存在于第二
列
dataframe.If第一个
数据
帧
列
值
不存在于第二个
数据
帧
列
中
,我需要确定这些
值
并将其写入list.Is有没有更好
的
方法来使用
pyspark
感谢您
的
回复。 df[Nam
浏览 37
提问于2020-09-03
得票数 0
回答已采纳
2
回答
在
中
过滤数组
、
、
、
、
火花版本: 2.3.0 Array Col['strawberry', 'raspberry'] ['apple', 'pineapple', &
浏览 3
提问于2021-10-01
得票数 1
回答已采纳
3
回答
根据
另一
列
中
的
值
将
PySpark
数据
框
列
转换为Python列表
、
、
、
我有一个包含2
列
的
数据
帧
"dfClean“:|som| ano || 1 | 1 || 3 | 1 |我需要创建一个Python列表,在
同一
行
的
列
"ano“中有1
的
值
在"som”
中
。所以期望
的
输出是:pyLst = [1,3,4] 在Pandas
中</em
浏览 0
提问于2021-03-03
得票数 0
1
回答
Pyspark
数据
帧
过滤语法错误
、
我正在使用
Pyspark
版本1.6处理
Pyspark
数据
帧
。在将此
数据
框导出到.CSV文件之前,我需要
根据
特定
条件
对特定
列
使用LIKE和OR运算符过滤
数据
。为了向您介绍我到目前为止所做
的
工作,我从多个.JSON文件创建了初始
数据
帧
。此
数据
框已子集,因此仅包含所需
的
列
。然后创建了一个sqlContext临时表。到目前为止,我已经尝
浏览 0
提问于2017-07-27
得票数 0
回答已采纳
1
回答
根据
条件
向
pyspark
dataframe添加
列
、
、
、
、
我
的
data.csv文件有三
列
,如下所示。我已经将这个文件转换为python spark dataframe。A B C| 2 | 0 | 5 |我想在spark dataframe
中
添加另一
列
D,
值
为Yes或No,
条件
是如果B
列
中
的
相应
值
大于A B C D| 2 | 0 | 5 |
浏览 0
提问于2019-02-23
得票数 3
回答已采纳
4
回答
如何
在python dataframe中找到
列
的
最大
值
、
、
我在
pyspark
中有一个
数据
帧
。在这个
数据
框架
中
,我有一个名为id
的
列
,它是唯一
的
。df['id'].max()TypeError: 'Column' object is not callable 请告诉我
如何
在
数据</
浏览 3
提问于2017-05-11
得票数 14
回答已采纳
1
回答
R
中
数据
行中值
的
特定聚合
、
、
这似乎是一项非常容易
的
任务,但我正在寻找一种智能解决方案,
根据
数据
帧
同一
行
中
其他四
列
(a、b、c、d)
的
值
计算
列
aggr。d=c(1,2,3,3,3), aggr=c(1,2,1,3,2)) 如果
同一
行
中
的
四个
值</e
浏览 5
提问于2015-08-26
得票数 1
回答已采纳
2
回答
pyspark
数据
帧
中所有
列
的
总计数为零
、
、
我需要找出
pyspark
dataframe中所有
列
中
0
的
百分比。
如何
在
数据
帧
中找到每一
列
的
零计数? 附言:我尝试过将
数据
帧
转换为pandas
数据
帧
,并使用了value_counts。但是,对于大型
数据
集来说,推断它
的
观察
值
是不可能
的
。
浏览 0
提问于2018-08-20
得票数 4
1
回答
动态创建spark
中
的
多
列
、
、
、
、
对于每个子段,过滤
条件
可在底层字典中用于子段,即a,b,c,d,f。此外,子段字典键
的
筛选
条件
也是
pyspark
dataframe
的
列名。我想要为每个段一次创建吡火花
数据
帧
中
的
子段
列
,当满足筛选
条件
时,每个子段
列
的
值
为1,否则0,类似于,
pyspark
_dataframe
浏览 4
提问于2017-09-11
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何设置某一列的值为默认值且不可更改
使用Python更改数据框中的指定列
Excel综合应用:如何显著标记出两列数据中的不同值?
如何在Excel表格中快速的进行两列数据的互换?
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券