我有一个非常大的pyspark数据框架。我需要为每一行将数据帧转换为JSON格式的字符串,然后将该字符串发布到Kafka主题。我最初使用的是以下代码。for message in df.toJSON().collect():但是,数据帧非常大,因此在尝试collect()时会失败from pyspark.sql.function
我有一个CSV文件,头作为键,数据作为值。我的目标是将CSV文件转换为Json,然后上传到数据库中并输出我上传的数据。我已经成功地将CSV转换为Json,但我的输出遇到了问题。我目前所拥有的import jsoncsvfile = open ('so-emissions-by-world-region-in-million-tonnes.cs