腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
PySpark
的
数据
帧
中
的
前
N
列
、
、
、
如何选择
数据
框
中
的
前
N
列
并使其成为另一个
数据
框? 有一个包含180
列
的
DF,我想创建另一个包含
前
105
列
的
DF,不在脚本
中
隐式提及列名。
浏览 42
提问于2021-02-20
得票数 0
回答已采纳
0
回答
减去Pandas或
Pyspark
Dataframe
中
的
连续
列
、
、
、
、
我想在pandas或
pyspark
数据
帧
中
执行以下操作,但我仍然没有找到解决方案。我描述
的
操作可以在下图中看到。 请记住,输出
数据
帧
在第一
列
上不会有任何值,因为输入表
中
的
第一
列
不能被
前
一
列
减去,因为它不存在。
浏览 1
提问于2016-07-12
得票数 4
回答已采纳
1
回答
Pyspark
将数组
列
分解为带滑动窗口
的
子列表
、
、
、
我在
PySpark
中有一个行,我想在给定一个
列
中
的
一个值
的
情况下将其分成几个较小
的
行。生成
的
df将如下所示: output_df = spark.createDataFrame([| 2|[1, 2]| 3|| 2|[3, 4]| 5| +---+------+------+ 关于如何拆分列表以使指
浏览 44
提问于2021-08-16
得票数 1
回答已采纳
1
回答
将列有条件地添加到
数据
帧
中
、
、
、
、
我在
PySpark
中有一个
数据
帧
。我想有条件地在
数据
框架
中
添加一
列
。 如果
数据
帧
没有
列
,那么添加一个带有null值
的
列
。如果
列
存在,则不执行任何操作,并返回与新
数据
帧
相同
的
数据
帧
。如何在
PySpark
中
传递条件语句
浏览 6
提问于2017-01-20
得票数 0
回答已采纳
2
回答
PySpark
列
向绑定
在
PySpark
中有什么特定
的
方法可以像我们在r
中
那样绑定两个
数据
帧
吗? 我需要在
PySpark
中
同时绑定
数据
帧
和作为一个
数据
帧
。
浏览 1
提问于2017-08-30
得票数 3
1
回答
Spark
使用
前
一行
中
的
值向dataframe添加新
列
、
、
、
、
我想知道如何在Spark (
Pyspark
)
中
实现以下内容+--+---++--+---++--+---++--+---++--+---++--+---++--+---+-------++--+---+-------++--+---+-------+ |3 |7.0|
浏览 50
提问于2015-12-16
得票数 38
回答已采纳
1
回答
无法在
PySpark
SQLContext DataFrame
中
显示
列
、
、
如果我输入: df[['avg_wind_speed_9am']].head() 它返回: Row(avg_wind_speed_9am=2.080354199999768) 我不明白,通常它应该打印一
列
。下面是我导入
数据
帧
的
方式: from
pyspark
.sql import SQLContextdf = sqlContext.read.loadbig-data-4/daily_weather.csv',
浏览 15
提问于2020-11-09
得票数 0
1
回答
将多个
PySpark
DataFrames与MergeSchema合并
、
、
我想将多个
PySpark
数据
帧
合并到一个
PySpark
数据
帧
中
。它们都来自相同
的
模式,但是它们可能会有所不同,因为有时会缺少一些
列
(例如,模式通常包含200个具有已定义
数据
类型
的
列
,其中dataFrame A有120
列
,dataFrame B有60
列
)。是否有可能在不写入和读取所有
数据
帧
的
情况
浏览 2
提问于2020-06-22
得票数 0
2
回答
如何
使用
PySpark
将这些多个csv文件(大约130,000个)有效地合并为一个大型
数据
集?
、
、
、
、
我之前发布了这个问题,并得到了一些
使用
PySpark
的
建议。 下面的压缩文件()包含一个名为data
的
文件夹,其中包含大约130,000个csv文件。我想把它们合并到一个单独
的
数据
帧
中
。我有16 of
的
RAM,当我访问
前
几百个文件时,我一直在耗尽RAM。这些文件
的
总大小只有300-400MB
的
数据
。所以现在我改用
PySpark
,但是我不知道连接
浏览 14
提问于2020-02-17
得票数 2
回答已采纳
2
回答
如何检查来自不同
数据
帧
的
列
值?
、
、
、
我有两个
pyspark
数据
帧
,我想检查第一个
数据
帧
列
值是否存在于第二
列
dataframe.If第一个
数据
帧
列
值不存在于第二个
数据
帧
列
中
,我需要确定这些值并将其写入list.Is有没有更好
的
方法来
使用
pyspark
感谢您
的
回复。 df[Name].show()Ora
浏览 37
提问于2020-09-03
得票数 0
回答已采纳
1
回答
在火花中
使用
循环连接不同
的
DataFrames
、
我在一个文件中有5个CSV文件,并希望将它们连接到
Pyspark
中
的
一个
数据
框架
中
:我
使用
代码()下面的代码for
n
inname_file:
浏览 0
提问于2022-02-06
得票数 1
回答已采纳
1
回答
Pyspark
:在groupBy之后删除
列
条件
中
的
行
、
这是我
的
输入
数据
帧
:1 Y2 a3
N
id val 2 a 3
N
我想在val
中
同时包含Y和
N
的
列
id上进行分组,然后删除val
列
包含"
N
“
的
行。请帮我解决这个问题,因为我是
pyspark
的
初学者。
浏览 7
提问于2018-09-06
得票数 2
回答已采纳
1
回答
Python spark从dataframe中提取字符
、
、
我在spark中有一个
数据
帧
,大概是这样
的
:------ | ----2 | SOMEOTHERCHARACTERS3 | ANOTHERSTRING我想要做
的
是从
列
中提取
前
5个字符加上第8个字符,并创建一个新
列
,如下所示:1 | ST
浏览 0
提问于2016-12-02
得票数 13
回答已采纳
3
回答
我可以将pandas
数据
帧
转换为spark rdd吗?
Pbm: a)读取一个本地文件到Panda dataframe
中
,比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe
中
。c)需要
使用
spark将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
1
回答
pyspark
将数组类型
的
列
拆分成多
列
、
在对
数据
集运行
pyspark
中
的
ALS算法后,我遇到了一个最终
的
数据
帧
,如下所示 ? 推荐
的
列
是数组类型,现在我想拆分这一
列
,我
的
最终
数据
帧
应该如下所示 ? 谁能建议我,哪个
pyspark
函数可以用来形成这个
数据
帧
?
数据
帧
的
模式 root |
浏览 61
提问于2021-07-11
得票数 0
回答已采纳
1
回答
如何在
Pyspark
Dataframe
中
训练和测试拆分
的
时间序列
数据
、
、
、
我想对排序后
的
Pyspark
数据
帧
进行基于时间
的
训练测试拆分。假设
前
300行将在训练集中,下200行将在测试拆分
中
。我可以用以下命令选择
前
300行: train = df.show(300) 但是如何从
Pyspark
dataframe中选择最后200行呢?
浏览 14
提问于2019-03-13
得票数 1
1
回答
Spark 2.0.2 Data Frame -如何添加由现有
列
的
前
两个字符组成
的
新
列
?
、
、
我来自熊猫
的
背景,在一个简单
的
操作上,我正在与Spark 2.0.2 (
PySpark
)作斗争。如何向现有
数据
框添加新
列
,该
数据
框包含现有
列
的
前
两个字符。Diana", 6, "Singapore", 4)], ["FirstName", "Sales", "State", "Cost"])尝试#1 fr
浏览 3
提问于2016-11-20
得票数 0
1
回答
pySpark
3.0如何裁剪所有
列
的
空格[复制]
、
、
这个问题在这里已经有答案了 : 在
Pyspark
Dataframe
中
修剪 (3个答案) 3天
前
就关门了。 对于此
数据
帧
:如何修剪循环中每
列
的
所有前导空格和尾随空格?, ) df.show(5) 我知道如何通过如下方式指定每一
列
,但需要对循环中
的
浏览 19
提问于2021-02-26
得票数 0
回答已采纳
1
回答
windowPartitionBy和
pyspark
中
的
重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么
的
吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
1
回答
如何遍历
PySpark
数据
帧
并打印
前
5次迭代?
、
、
、
我有一个由一
列
和十行组成
的
pyspark
数据
帧
。我在上面的代码
中
删除了其他
列
。它看起来是这样
的
: +--------------------++--------------------+|Shattered Image (...|+-------------------
浏览 17
提问于2020-11-08
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel定位求和方法:如何对一列数据中前N个数据汇总
使用Python更改数据框中的指定列
逐帧动画在H5中的使用浅析
tcp/ip模型中,帧是第几层的数据单元?
如何快速解决Excel表格中的#N/A数据?
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券