腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
默认值
从
PySpark
数据
帧
访问
JSON
值
?
、
、
我有一个spark dataframe,其中一列上有一个
Json
。我的任务是将此
数据
帧
转换为列类型的
数据
帧
。问题是
JSON
是动态的,它总是改变结构。我想要做的是尝试
从
它获取值,如果它没有,那么返回一个
默认值
。在
数据
框中有这样的选项吗?这就是我
从
JSON
中提取值的方法,问题是如果其中一个级别更改了名称或结构,它将不会失败。columnar_df = df.select(col('
js
浏览 10
提问于2019-08-26
得票数 0
回答已采纳
1
回答
from_
json
Pyspark
SQL函数:未找到键的
默认值
?
、
、
、
我像往常一样
使用
from_
json
Pyspark
SQL函数,例如: >>> import
pyspark
.sql.types as t>>> df = sc.parallelize(['{"a":1}', '{"a":1, "b":2}'
浏览 20
提问于2019-04-11
得票数 2
1
回答
访问
PySpark
数据
帧
中的特定项目
、
、
如何
访问
PySpark
数据
帧
中某列的某个索引处的
值
?例如,我想
访问
一个名为"Category“的列的索引5处的
值
。我
如何
在
PySpark
语法中做到这一点呢?
浏览 2
提问于2018-03-07
得票数 10
回答已采纳
4
回答
Pyspark
:
如何
将spark dataframe转换为
json
并保存为
json
文件?
、
、
、
我正在尝试将我的
pyspark
sql dataframe转换为
json
,然后保存为文件。df_final = df_final.union(join_df) 我试过这样的东西。但是它创建了一个无效的
json
。df_final.coalesce(1).write.format('
json
').save(data_output_file+"createjson.
json
", overwrite=True)
浏览 0
提问于2018-11-22
得票数 7
2
回答
如何
使用
SparkR
访问
使用
PySpark
创建的DataFrame?
、
、
我在Databricks上创建了一个
PySpark
DataFrame。option("header", first_row_is_header) \ .load(file_location)%rdf1 sparkR无法
使用
或找到由
PySpark
创建的df1。DATABRICKS_CURRENT_TEMP_CMD__)) :
浏览 1
提问于2018-10-05
得票数 0
1
回答
为S3桶编写火花
数据
帧
字典
、
、
、
假设我们有一个
PySpark
数据
字典。有办法把这本字典写到S3桶里吗?这样做的目的是读取这些
PySpark
数据
帧
,然后将它们转换为熊猫
数据
帧
。thread.RLock objectsTypeError: can't pickle _thread.RLock objects 还尝试将
PySpark
数据
帧
的字典转储到
json</em
浏览 7
提问于2021-09-24
得票数 1
回答已采纳
1
回答
在df.toPandas().to_csv('mycsv.csv')之后,
数据
在重新读取时会被混淆
、
、
我
使用
此代码成功地将
数据
导出到磁盘上的csv。mycsv.csv')rr = spark.read.csv('mycsv.csv', inferSchema=True, header=True) 我查了
数据
浏览 3
提问于2018-10-01
得票数 2
回答已采纳
1
回答
windowPartitionBy和
pyspark
中的重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么的吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
3
回答
用
PySpark
把
JSON
文件读成
Pyspark
Dataframe?
、
、
、
如何
使用
PySpark
读取下面的
JSON
结构来触发
数据
帧
?我的
JSON
结构我已经尝试过了: df = spark.read.
json
('s
浏览 5
提问于2018-03-21
得票数 4
回答已采纳
1
回答
取消透视列
pyspark
dataframe,其中value是字典列表
、
、
、
、
我已经
从
字典列表创建了一个pandas
数据
帧
,并
使用
json
_normalize取消了一列的透视。现在我必须将代码转换为
使用
pyspark
而不是pandas。df = pd.
json
_normalize(list_
json
,'Messages',['ID']) 21122, true ,Testdescription1, 2
浏览 0
提问于2021-03-10
得票数 0
1
回答
如何
使用
pyspark
将数值转换为分类变量
有一系列数值变量的
pyspark
数据
帧
。 例如 我的dataframe有一个
从
1到100的列
值
。1-10 - group1<== 1到10的列
值
应包含group1作为
值
11-20 - group2。。。91-100 group10
如何
使用
pyspark
dataframe实现这一点?
浏览 15
提问于2019-04-10
得票数 1
回答已采纳
1
回答
为什么RDD to
JSON
会删除
数据
的实际排序?
、
、
、
我正在尝试
从
我的
pyspark
数据
帧
创建一个
JSON
。我在我的
数据
帧
中看到
数据
是正确排序的,但是当
使用
toJSON时,排序不会反映在
JSON
对象中。你能帮帮我吗?这就是我
使用
toJSON时会发生的事情 ?
浏览 8
提问于2019-02-13
得票数 0
回答已采纳
1
回答
具有
数据
帧
查询的
PySpark
UDF函数?
、
我有另一种解决方案,但我更喜欢
使用
PySpark
2.3来实现它。我有一个二维
PySpark
数据
框架,如下所示:---------- | ----09/31/2018 | 1009/01/2018 | null我希望通过查找过去最接近的
值
来替换ID空
值
,
浏览 0
提问于2019-02-02
得票数 0
回答已采纳
1
回答
根据特定的列
数据
,将
Pyspark
数据
分解为多个
json
文件?
、
、
、
、
", "fruit": "Mango", "cost": "500"}Its类型:
pyspark
.sql.dataframe.DataFrame
如何
将此
json
文件拆分为多个<e
浏览 4
提问于2022-01-19
得票数 2
回答已采纳
14
回答
是否有可能在
PySpark
中获得当前的星火上下文设置?
、
、
如果我显式地将它设置为config param,我可以
从
SparkConf中读取它,但是否存在
使用
PySpark
访问
完整config (包括所有
默认值
)的方法?
浏览 5
提问于2015-05-31
得票数 93
回答已采纳
3
回答
从
数据
帧
中获取价值
、
、
、
在Scala中,我可以
使用
get(#)或getAs[Type](#)
从
数据
帧
中获取值。在
pyspark
中我应该怎么做呢?现在我在一个
数据
帧
中有了一个
值
的均值。
如何
从
数据
帧
中获取该
值
,以获得浮点数形式的平均值?
浏览 2
提问于2016-06-28
得票数 21
回答已采纳
1
回答
基于类方法创建
PySpark
数据
框列
、
、
、
、
我有一个python类,它的函数如下: def __init__(self,
json
): email = self.
json
.get('fields', {}).get('email', None) return email我正尝试在一个
pyspark
数据
帧</em
浏览 6
提问于2020-11-12
得票数 0
回答已采纳
1
回答
如何
从
PySpark
列表中删除/替换字符
、
、
、
我是Python/
PySpark
的新手,目前在Databricks中
使用
它。object" : ["191.168.192.103", "191.168.192.107"]}',),当我试着它不能正确解析
JSON
。结果
数据
帧
是一个以_c
浏览 6
提问于2019-11-15
得票数 0
回答已采纳
1
回答
使用
PYSPARK
从
JSON
数据
创建
数据
帧
、
、
、
我正在尝试
使用
pyspark
模块
从
json
数据
创建
数据
帧
,但无法做到,尝试
使用
sqlContext.read.
json
创建
数据
帧
,但没有得到正确的结果。示例
json
数据
:"userId":"rirani","fi
浏览 0
提问于2018-06-22
得票数 0
1
回答
Spark dataframe
访问
Kafka源后失去流媒体能力
、
、
、
、
我
使用
Spark 2.4.3和Kafka 2.3.0。我想用
从
Kafka到Spark的
数据
做Spark结构化流媒体。一般来说,它可以在测试模式下工作,但由于我必须对
数据
进行一些处理(并且不知道另一种方法),Spark
数据
帧
不再具有流式传输功能。 #!/usr/bin/env python3 from
pyspark
.sql.functions im
浏览 22
提问于2019-09-10
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
Python自动化测试常用库整理
SpringBoot(三)
【Python入门】Python字典的这些黑科技,你用过几个?
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券