以每列为关键字将PySpark数据帧转换为JSON

文章/答案/技术大牛

发布

2回答

、、、

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将其作为JSON转储

浏览 14提问于2019-12-18得票数 1

回答已采纳

1回答

数据帧到JSON

如何在pyspark中处理dataframe并获得json格式的输出：empid empname in out1 A 1 1json中需要的输出：id:empid,in:[1,1],}

浏览 4提问于2018-03-18得票数 0

1回答

在PySpark中将csv文件转换为parquet时遇到问题。当转换相同模式的多个文件时，它们不具有相同的模式，因为有时数字字符串将被读取为浮点型，其他字符串将被读取为整数，等等。似乎当编写具有相同列的数据帧时，但是以不同的顺序排列以拼接，那么这些拼接就不能被加载到相同的语句中。如何将dataframe写入parquet，以使所有列都以字符串类型存储？如何处理列的顺序？在写入拼图之前，我是否应该将所有数据帧的列重新排列为</

浏览 23提问于2021-01-20得票数 0

1回答

将时间序列数据从PySpark传输到Cassandra

、、、、

在pyspark中，我读取了csv文件，然后将其转换为RDD。然后，我遍历RDD中的每一行，并使用映射程序和缩减函数。u'20170115', u'BM', u'REB'), (u'20170115', u'OC', u'POL'), (u'20170114', u'BA', u'EDU')] 我想遍历上面数组中的每一行我希望唯一的关键

浏览 14提问于2017-02-01得票数 0

2回答

pyspark数据帧中所有列的总计数为零

、、

我需要找出pyspark dataframe中所有列中0的百分比。如何在数据帧中找到每一列的零计数？附言:我尝试过将数据帧转换为pandas数据帧，并使用了value_counts。但是，对于大型数据集来说，推断它的观察值是不可能的。

浏览 0提问于2018-08-20得票数 4

1回答

Apache Spark JSON* : DataFrame类型的对象不可序列化*

、、、、

我将JSON数据从Apache Spark / Databricks发送到API。API期望数据采用以下JSON格式： Sample: "CtcID": 1, "CpyID": 3, "IS_NULLABLE": "sample string 3&q

浏览 24提问于2021-04-21得票数 0

回答已采纳

2回答

如何加载一个20 in的json文件来读入pandas？

、、、

我有一个19.4 GB大小的JSON文件。我尝试了很多方法来读取文件。例如：pandas.read_json(filename)简单地使笔记本崩溃。我正在寻找以惰性方式加载文件的方法。例如，一次1 db，然后将其转储到SQLite或neo4j数据库中以分析数据。任何关于这方面的想法都会非常感谢。

浏览 17提问于2021-01-05得票数 0

1回答

从python字典创建一个pyspark数据框架，其中一列为np.ndarray

、、、、

我想从python字典创建一个pyspark数据框架，其中一列为np.narray。', 'val']).cache() # error: TypeError: not supported type: <class 'numpy.ndarray'> display(df) 我也尝试过将ndarray转换为list，但仍然不起作用。如何使用这种数组创建数据帧？谢谢

浏览 20提问于2020-11-10得票数 0

2回答

如何将数据帧转换为json格式

、、

我想知道如何将pyspark dataframe转换为json格式。name ㅣ type 'kane' ㅣ 'message'->2, 'text'->3 数据帧到json格式 data{name : 'james', &#

浏览 12提问于2020-08-14得票数 0

1回答

如何用sacala代码详细说明pyspark代码？

、、

我想把这段Scala代码转换成Pyspark代码。columnArray(1)=x.substring(11,14) Row.fromSeq(columnArray)在pyspark

浏览 0提问于2018-05-15得票数 0

0回答

PySpark -矩阵的SparseVector列

、、

我对使用PySpark非常陌生。我的PySpark数据框中有一列SparseVectors。-------------------------------------------------------------------------------------------+rescaledData.wit

浏览 2提问于2017-12-06得票数 3

回答已采纳

2回答

PySpark -逐行转换为JSON

、、、

我有一个非常大的pyspark数据框架。我需要为每一行将数据帧转换为JSON格式的字符串，然后将该字符串发布到Kafka主题。我最初使用的是以下代码。for message in df.toJSON().collect():但是，数据帧非常大，因此在尝试collect()时会失败from pyspark.sql.function

浏览 3提问于2018-01-31得票数 7

回答已采纳

3回答

如何将CSV转换为JSON？

、、、

我有一个CSV文件，头作为键，数据作为值。我的目标是将CSV文件转换为Json，然后上传到数据库中并输出我上传的数据。我已经成功地将CSV转换为Json，但我的输出遇到了问题。我目前所拥有的import jsoncsvfile = open ('so-emissions-by-world-region-in-million-tonnes.cs

浏览 1提问于2017-09-07得票数 3

1回答

为S3桶编写火花数据帧字典

、、、

假设我们有一个PySpark数据字典。有办法把这本字典写到S3桶里吗？这样做的目的是读取这些PySpark数据帧，然后将它们转换为熊猫数据帧。thread.RLock objectsTypeError: can't pickle _thread.RLock objects 还尝试将PySpark数据帧

浏览 7提问于2021-09-24得票数 1

回答已采纳

2回答

将字符串转换为pyspark.sql.types.StructType pyspark

、

我试图在pyspark中创建空的dataframe，在pyspark中，我从外部JSON文件传递scehma，但是Json不允许我指定struct类型，所以我提到它是string。json文件： "OptionalEvents" : { "StructType([StructField('id',StringType(), True),StructField), True),StructFiel

浏览 39提问于2021-08-23得票数 1

回答已采纳

1回答

将从json获得的数据帧从每一行转置

、、

我有一个名为df的数据帧：1 {"user":user10, "message":{"sender":"k3532", "card":87876}}3 {"user":user22, "message":{"sender":"gjhyj5", "card":87676876,

浏览 0提问于2020-08-20得票数 1

4回答

Pyspark:如何将spark dataframe转换为json并保存为json文件？

、、、

我正在尝试将我的pyspark sql dataframe转换为json，然后保存为文件。但是它创建了一个无效的json。df_final.coalesce(1).write.format('json').save(data_output_file+"createjson.json", overwrite=True) {"Variable":"Col1","Min":"20&q

浏览 0提问于2018-11-22得票数 7

1回答

使用Pyspark处理具有不同JSON模式行的单个数据集

、、、、

我使用的是PySpark，我需要处理附加到单个数据帧中的日志文件。大多数列看起来都是正常的，但其中一列在{}中有JSON字符串。基本上，每一行都是一个单独的事件，对于JSON字符串，我可以应用单独的Schema。但我不知道在这里处理数据的最好方法是什么。示例： ? 这个表稍后将帮助我以所需的方式聚合事件。它成功地在单个列中工作： from pyspark.sql.types import * import <e

浏览 15提问于2021-09-01得票数 0

1回答

将pandas数据帧转换为PySpark数据帧

、、、、

我正在使用：从spark --> Pandas的转换很简单，但我正在为如何将Pandas数据帧转换回Spark而苦苦挣扎。from pyspark.sql import SparkSession import pyspark.sql.functions as s

浏览 1提问于2018-10-23得票数 15

回答已采纳

1回答

Redshift中的列主卸载

、

我想以列为主的格式将Redshift中的内容转储到S3中(所以每列一个文件)。奇怪的是，到目前为止，我在这里或其他地方的互联网上没有找到任何人想要做同样的事情。我的问题是，Redshift/PostgreSQL是否支持以列格式加载和卸载数据，如果没有，是否有其他支持。对我来说，这似乎很奇怪--数据是以列为主存储的，不是吗？我知道，我知道，“切片/节点”，但是sortkey (以及传入数据被排序的必

浏览 2提问于2015-07-10得票数 0

点击加载更多