如何使用默认值从PySpark数据帧访问JSON值？

、、

我有一个spark dataframe，其中一列上有一个Json。我的任务是将此数据帧转换为列类型的数据帧。问题是JSON是动态的，它总是改变结构。我想要做的是尝试从它获取值，如果它没有，那么返回一个默认值。在数据框中有这样的选项吗？这就是我从JSON中提取值的方法，问题是如果其中一个级别更改了名称或结构，它将不会失败。columnar_df = df.select(col('js

浏览 10提问于2019-08-26得票数 0

回答已采纳

1回答

from_json Pyspark* SQL函数:未找到键的默认值？*

、、、

我像往常一样使用from_json Pyspark SQL函数，例如： >>> import pyspark.sql.types as t>>> df = sc.parallelize(['{"a":1}', '{"a":1, "b":2}'

浏览 20提问于2019-04-11得票数 2

1回答

访问PySpark数据帧中的特定项目

、、

如何访问PySpark数据帧中某列的某个索引处的值?例如，我想访问一个名为"Category“的列的索引5处的值。我如何在PySpark语法中做到这一点呢？

浏览 2提问于2018-03-07得票数 10

回答已采纳

4回答

Pyspark:如何将spark dataframe转换为json并保存为json文件？

、、、

我正在尝试将我的pyspark sql dataframe转换为json，然后保存为文件。df_final = df_final.union(join_df) 我试过这样的东西。但是它创建了一个无效的json。df_final.coalesce(1).write.format('json').save(data_output_file+"createjson.json", overwrite=True)

浏览 0提问于2018-11-22得票数 7

2回答

如何使用SparkR访问使用PySpark创建的DataFrame？

、、

我在Databricks上创建了一个PySpark DataFrame。option("header", first_row_is_header) \ .load(file_location)%rdf1 sparkR无法使用或找到由PySpark创建的df1。DATABRICKS_CURRENT_TEMP_CMD__)) :

浏览 1提问于2018-10-05得票数 0

1回答

为S3桶编写火花数据帧字典

、、、

假设我们有一个PySpark数据字典。有办法把这本字典写到S3桶里吗？这样做的目的是读取这些PySpark数据帧，然后将它们转换为熊猫数据帧。thread.RLock objectsTypeError: can't pickle _thread.RLock objects 还尝试将PySpark数据帧的字典转储到json</em

浏览 7提问于2021-09-24得票数 1

回答已采纳

1回答

在df.toPandas().to_csv('mycsv.csv')之后，数据在重新读取时会被混淆

、、

我使用此代码成功地将数据导出到磁盘上的csv。mycsv.csv')rr = spark.read.csv('mycsv.csv', inferSchema=True, header=True) 我查了数据

浏览 3提问于2018-10-01得票数 2

回答已采纳

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

3回答

用PySpark把JSON文件读成Pyspark* Dataframe？*

、、、

如何使用PySpark读取下面的JSON结构来触发数据帧？我的JSON结构我已经尝试过了： df = spark.read.json('s

浏览 5提问于2018-03-21得票数 4

回答已采纳

1回答

取消透视列pyspark* dataframe，其中value是字典列表*

、、、、

我已经从字典列表创建了一个pandas数据帧，并使用json_normalize取消了一列的透视。现在我必须将代码转换为使用pyspark而不是pandas。df = pd.json_normalize(list_json,'Messages',['ID']) 21122, true ,Testdescription1, 2

浏览 0提问于2021-03-10得票数 0

1回答

如何使用pyspark将数值转换为分类变量

有一系列数值变量的pyspark数据帧。例如我的dataframe有一个从1到100的列值。1-10 - group1<== 1到10的列值应包含group1作为值11-20 - group2。。。91-100 group10 如何使用pyspark dataframe实现这一点？

浏览 15提问于2019-04-10得票数 1

回答已采纳

1回答

为什么RDD to JSON会删除数据的实际排序？

、、、

我正在尝试从我的pyspark数据帧创建一个JSON。我在我的数据帧中看到数据是正确排序的，但是当使用toJSON时，排序不会反映在JSON对象中。你能帮帮我吗？这就是我使用toJSON时会发生的事情 ?

浏览 8提问于2019-02-13得票数 0

回答已采纳

1回答

具有数据帧查询的PySpark* UDF函数？*

、

我有另一种解决方案，但我更喜欢使用PySpark 2.3来实现它。我有一个二维PySpark数据框架，如下所示：---------- | ----09/31/2018 | 1009/01/2018 | null我希望通过查找过去最接近的值来替换ID空值，

浏览 0提问于2019-02-02得票数 0

回答已采纳

1回答

根据特定的列数据，将Pyspark数据分解为多个json文件？

、、、、

", "fruit": "Mango", "cost": "500"}Its类型：pyspark.sql.dataframe.DataFrame如何将此json文件拆分为多个<e

浏览 4提问于2022-01-19得票数 2

回答已采纳

14回答

是否有可能在PySpark中获得当前的星火上下文设置？

、、

如果我显式地将它设置为config param，我可以从SparkConf中读取它，但是否存在使用PySpark访问完整config (包括所有默认值)的方法？

浏览 5提问于2015-05-31得票数 93

回答已采纳

3回答

从数据帧中获取价值

、、、

在Scala中，我可以使用get(#)或getAs[Type](#)从数据帧中获取值。在pyspark中我应该怎么做呢？现在我在一个数据帧中有了一个值的均值。如何从数据帧中获取该值，以获得浮点数形式的平均值？

浏览 2提问于2016-06-28得票数 21

回答已采纳

1回答

基于类方法创建PySpark数据框列

、、、、

我有一个python类，它的函数如下： def __init__(self, json): email = self.json.get('fields', {}).get('email', None) return email我正尝试在一个pyspark数据帧</em

浏览 6提问于2020-11-12得票数 0

回答已采纳

1回答

如何从PySpark列表中删除/替换字符

、、、

我是Python/PySpark的新手，目前在Databricks中使用它。object" : ["191.168.192.103", "191.168.192.107"]}',),当我试着它不能正确解析JSON。结果数据帧是一个以_c

浏览 6提问于2019-11-15得票数 0

回答已采纳

1回答

使用PYSPARK从JSON数据创建数据帧

、、、

我正在尝试使用pyspark模块从json数据创建数据帧，但无法做到，尝试使用sqlContext.read.json创建数据帧，但没有得到正确的结果。示例json数据："userId":"rirani","fi

浏览 0提问于2018-06-22得票数 0

1回答

Spark dataframe访问Kafka源后失去流媒体能力

、、、、

我使用Spark 2.4.3和Kafka 2.3.0。我想用从Kafka到Spark的数据做Spark结构化流媒体。一般来说，它可以在测试模式下工作，但由于我必须对数据进行一些处理(并且不知道另一种方法)，Spark数据帧不再具有流式传输功能。 #!/usr/bin/env python3 from pyspark.sql.functions im

浏览 22提问于2019-09-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

from_json Pyspark* SQL函数:未找到键的默认值？*

访问PySpark数据帧中的特定项目

Pyspark:如何将spark dataframe转换为json并保存为json文件？

如何使用SparkR访问使用PySpark创建的DataFrame？

为S3桶编写火花数据帧字典

在df.toPandas().to_csv('mycsv.csv')之后，数据在重新读取时会被混淆

windowPartitionBy和pyspark中的重新分区

用PySpark把JSON文件读成Pyspark* Dataframe？*

取消透视列pyspark* dataframe，其中value是字典列表*

如何使用pyspark将数值转换为分类变量

为什么RDD to JSON会删除数据的实际排序？

具有数据帧查询的PySpark* UDF函数？*

根据特定的列数据，将Pyspark数据分解为多个json文件？

是否有可能在PySpark中获得当前的星火上下文设置？

从数据帧中获取价值

基于类方法创建PySpark数据框列

如何从PySpark列表中删除/替换字符

使用PYSPARK从JSON数据创建数据帧

Spark dataframe访问Kafka源后失去流媒体能力

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐