腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
PySpark
将
列
拆
分到
具有
应用
架构
的
新
数据
帧
、
、
、
如何通过逗号
将
字符串列拆分为
具有
应用
模式
的
新
数据
帧
?作为示例,下面是一个包含两
列
(id和value)
的
pyspark
DataFrame df = sc.parallelize([(1, "200,201,hello"), (2, "23,24,hi")]).toDF(["id", "value"]) 我希望获取value
列</e
浏览 18
提问于2021-11-10
得票数 1
1
回答
将
numpy中
的
不同数组添加到
数据
帧
的
每一行
、
、
、
我有一个SparkSQL
数据
帧
和2Dnumpy矩阵。它们
具有
相同
的
行数。我打算
将
numpy矩阵中
的
每个不同数组作为
新
列
添加到现有的
PySpark
数据
帧
中。这样,添加到每一行
的
列表是不同
的
。例如,
PySpark
数据
帧
如下所示 | Id | Name || 1
浏览 16
提问于2019-10-05
得票数 0
3
回答
如何在
pyspark
数据
框中将字符串类型
的
列
转换为int形式?
、
、
我在
pyspark
有
数据
帧
。它
的
一些数字
列
包含'nan‘,所以当我读取
数据
并检查dataframe
的
模式时,这些
列
将
具有
'string’类型。如何将它们更改为int类型。我
将
'nan‘值替换为0,并再次检查了
架构
,但同时也显示了这些
列
的
字符串类型。=True, inferSchema="true"
浏览 2
提问于2017-10-26
得票数 64
1
回答
pySpark
jdbc写入错误:调用o43.jdbc时出错。:scala.MatchError:空
、
、
、
我正在尝试使用
pySpark
将
简单
的
spark
数据
帧
写入db2
数据
库。Dataframe只有一个
数据
类型为double
的
列
。这是只有一行和一
列
的
数据
帧
: 这是
数据
帧
架构
: 当我尝试使用以下语法将此
数据
帧
写入db2表时: dataframe.write.mode(&
浏览 0
提问于2018-03-21
得票数 1
1
回答
Spark使用前一行中
的
值向dataframe添加
新
列
、
、
、
、
我想知道如何在Spark (
Pyspark
)中实现以下内容+--+---++--+---++--+---++--+---++--+---++--+---++--+---+-------++--+---+-------++--+---+-------++--+---+
浏览 50
提问于2015-12-16
得票数 38
回答已采纳
1
回答
如何使用
pyspark
和自定义python函数处理均匀
的
to流
、
、
我当前
的
设置是:我使用作为如何读取
数据
的
示例,但是:获取
浏览 52
提问于2018-03-19
得票数 3
1
回答
Pyspark
轮函数
的
问题
、
、
、
、
在运行
pyspark
中
的
round函数时遇到了一些问题-我有下面的代码块,我试图
将
new_bid
列
舍入到两个小数位,然后将该
列
重命名为bid -我正在导入
pyspark
.sql.functions ASfunc以供参考,并使用其中包含
的
round函数: col("part&quo
浏览 1
提问于2017-11-01
得票数 20
回答已采纳
1
回答
如何
将
所有的日期格式转换为日期
列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在
将
csv文件读取为
具有
2个日期
列
的
PySpark
数据
帧
。但是,当我尝试打印模式时,两
列
都被填充为字符串类型。 ? ? 上面附加
的
屏幕截图是Dataframe和Dataframe模式。 如何使用
pyspark
将
date
列
中
的
行值转换为时间戳格式?我已经尝试了很多东西,但所
浏览 16
提问于2020-12-30
得票数 2
1
回答
雪花:从美国AWS到澳大利亚AWS
的
数据
分离
、
、
、
在美国AWS地区
的
雪花
数据
库中有10 db
的
数据
。要求
将
列
中带有某些标志
的
数据
子集拆
分到
AWS澳大利亚区域。1.
将
整个
数据
库从A复制到B。然后在中断复制之前暂停
应用
浏览 3
提问于2020-02-14
得票数 1
2
回答
如何使用monotonically_increasing_id连接两个没有公共
列
的
pyspark
数据
帧
?
、
、
、
我有两个相同行数
的
pyspark
dataframe,但它们没有任何公共
列
。因此,我使用monotonically_increasing_id()
将
新
列
添加到这两个
列
中 from
pyspark
.sql.functions import monotonically_increasing_idcont_data = cont_data.join(df1,df1.match_id==cont_data.match_id, 'inner'
浏览 2
提问于2017-06-03
得票数 1
1
回答
如何对
pyspark
dataframe
列
应用
函数
、
、
我正在尝试将我
的
pandas代码转换为
pyspark
dataframe,并尝试在dataframe
的
一
列
上
应用
函数。我在pandas dataframe中做了一些如下
的
事情。在操作了几个
列
值之后,
将
新
列
添加到pandas
数据
帧
中,如下所示。return USD_amount salesData['Sales (INR)'] = salesData.apply
浏览 15
提问于2020-01-03
得票数 1
回答已采纳
1
回答
如何使用
PySpark
更新hive表中
的
记录?
、
我们正在使用spark来处理大型
数据
,并且最近获得了
新
的
用例,我们需要使用spark更新Hive表中
的
数据
。下面是一个简单
的
例子:
数据
驻留在Hive表中,
应用
程序使用
PySpark
读取
数据
帧
(比如
PySpark
)。例句:
数据
帧
在
列
下面。例如:加5 Add 30 32000
应用</
浏览 1
提问于2019-03-29
得票数 2
2
回答
从
pyspark
中
的
字典
列
创建
数据
帧
、
、
、
、
我想从
pyspark
中现有的dataframe创建一个
新
的
dataframe。
数据
帧
"df“包含一个名为"data”
的
列
,该
列
具有
字典行,并
具有
字符串形式
的
模式。并且每个字典
的
键都不是fixed.For,例如,name和address是第一个行字典
的
键,但对于其他行来说情况并非如此,它们可能不同。如何转换为包含单个
列
的
浏览 2
提问于2018-11-09
得票数 1
1
回答
删除
PySpark
数据
帧
中
具有
无效多边形值
的
行?
、
、
、
、
我们在
数据
帧
上使用
PySpark
函数,这会引发错误。错误很可能是由于
数据
帧
中
的
错误行造成
的
。
数据
帧
的
架构
如下:|-- geo_name: string (nullable = true)|--中
的
"geometry_polygon“
列
转换为几何类型
浏览 14
提问于2022-10-18
得票数 1
回答已采纳
1
回答
windowPartitionBy和
pyspark
中
的
重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么
的
吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
1
回答
Pyspark
数据
框架操作
的
单元测试用例
、
、
、
我已经用python写了一些带有sql上下文
的
代码,即
pyspark
,通过
将
csv转换为
pyspark
dataframe来对csv执行一些操作(df操作,如预处理、重命名列名、创建
新
列
并将其附加到相同
的
我没有在
数据
帧
上编写单元测试用例
的
想法。有谁能帮我在
pyspark
的
dataframe上写单元测试用例吗?或者给我一些
数据
帧
上
的</em
浏览 1
提问于2016-04-14
得票数 3
1
回答
比较
数据
帧
的
两个字符串列,其值为"PO“、"GO”等,并创建第三个值为"High“、"Low”和"No Change“
的
列
、
、
、
我在一个
数据
帧
中有两
列
。第一
列
被命名为previous_code,第二
列
被命名为New_code.These
列
,这些
列
具有
"PO“、"GO”、"RO“等值。这些代码
具有
优先级例如"PO”比“GO”
具有
更高
的
优先级.I想要比较这两
列
的
值,并在
新
列
中放入输出为“高”、“低”和“无更改”,以防这
浏览 13
提问于2019-12-26
得票数 1
回答已采纳
1
回答
星火SQL窗口函数-手动重新分区必要吗?
、
、
我正在用
PySpark
处理按"A“
列
划分
的
数据
。在
应用
窗口之前,我需要手动按
列
"B“重新划分
数据
吗?
浏览 3
提问于2021-05-17
得票数 1
1
回答
大
数据
结构
还要解释两个join语句要实现
的
目标。
浏览 2
提问于2021-10-28
得票数 0
1
回答
PySpark
数据
帧
Pandas UDF返回空
数据
帧
、
、
、
我正在尝试按照groupby('Key').apply(UDF)方法
将
pandas_udf
应用
于我
的
PySpark
数据
帧
以进行一些过滤。为了使用pandas_udf,我定义了一个输出schema,并在
列
Number上有一个条件。作为一个例子,这里
的
简化思想是我只希望返回
具有
奇数Number
的
行
的
ID。这就带来了一个问题,有时在一个组中没有奇怪
的
Number,因此
浏览 2
提问于2020-05-18
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
一文读懂PySpark数据框
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
一文读懂 PySpark 数据框
Python开源数据分析工具TOP 3!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券