Spark输出JSON与Parquet文件大小差异

文章/答案/技术大牛

发布

2回答

apache-spark、parquet

这里是Spark的新用户。我通过Spark找不到任何关于同一个dataFrame的JSON和拼图输出的文件大小比较的信息。但是执行df.write.parquet会创建105个文件，每个文件的大小约为1.1kb。为什么在这种情况下，使用parquet的总文件大小要比使用JSON大得多？提前感谢

浏览 20提问于2018-08-14得票数 2

1回答

使用空数据集的星火SQL联接会导致更大的输出文件大小。

apache-spark、apache-spark-sql、parquet

我遇到了一个问题，很明显，在Spark中使用一个空表执行一个完整的外部联接，所导致的文件大小比简单地从其他数据集中选择列而不进行联接要大得多。我在许多不同的数据集上尝试过这一点，并得到了相同的结果。在查看数据时：抽查数据看起来是一样的，在这

浏览 0提问于2017-04-13得票数 1

回答已采纳

1回答

Spark1.5中DataFrames的不一致持久化

apache-spark、parquet

最近，我们从1.4.1转向Spark1.5.0，并注意到在持久化DataFrames方面存在一些不一致的行为。df1 = sqlContext.read.parquet("df1.parquet") join_parquet = sqlCont

浏览 3提问于2015-10-26得票数 2

1回答

如何使用Apache Spark将JSON文件转换为parquet？

json、apache-spark、apache-spark-sql、parquet

我是Apache Spark 1.3.1的新手。如何将JSON文件转换为Parquet？

浏览 2提问于2016-01-12得票数 10

回答已采纳

1回答

<星火Dataframe>.write.parquet(<directory>)和<火花Dataframe>.write.parquet(<file name>.parquet)的区别

pyspark、parquet

我意识到，在运行spark时，最好有至少与内核一样多的地板文件(分区)，以便尽可能充分地利用spark。但是，制作一个大的拼花文件和几个较小的拼花文件来存储数据有什么好处/缺点？作为一个测试，我使用这个数据集： import pyspark .master("local[*]") \ .appName('te

浏览 7提问于2022-06-03得票数 0

回答已采纳

1回答

火星雨-胶3.0版，更新星火3.0 : 1582-10-15之前的阅读日期或1900年前的时间戳-01-01T00:00:00Z

pyspark、aws-glue、aws-glue3.0

由于Spark3.0的升级，您可能会得到不同的结果:从Parquet文件读取1582-10-15之前的日期或1900-01-01T00:00:00Z之前的时间戳可能是模棱两可的，因为这些文件可能是由Spark2.x或传统版本的Hive编写的，后者使用的遗留混合日历与Spark3.0+的支持性公历不同。您可以将spark.sql.legacy.parquet.datetimeRebaseModeInRead设置为“旧式”，以重新建立日期时间值w.r.t。阅读期间的日历<e

浏览 32提问于2022-05-12得票数 0

1回答

获取增量/拼花表各列的大小

databricks、parquet

我想检查每一列的拼花数据如何贡献总文件大小/总表大小。我查看了Spark/Databricks命令、parquet-cli、parquet-tools，不幸的是，它们似乎都没有直接提供这样的信息。到目前为止，我得到的最接近的是运行parquet-tools meta，按列总结文件中每一行组的详细信息，然后对表中的所有文件进行聚合。这意味着迭代所有的parquet文件并对输出进行繁琐的解析。

浏览 9提问于2022-10-31得票数 0

回答已采纳

3回答

随着分区的增加，spark拼接写入变慢

apache-spark、partitioning、parquet

stripMargin).coalesce(1).write.mode(SaveMode.Append).partitionBy("event_date", "event_hour","verb").parquet(Config.eventsS3Path)sparkConf.set("spark.sql.hive.convertMetastore

浏览 3提问于2016-09-16得票数 15

1回答

要在python中这样做，输出应该与scala输出相同。

python-3.x、pyspark

在scala中，代码给出了一个字符串数组，但是在python中，我想要相同的输出，就像scala：代码在Scala:中一样 .master("local[*]") val sc = spark.sparkContext("Parquet") val rdd =

浏览 2提问于2019-11-25得票数 0

回答已采纳

1回答

通过spark更快地从blob存储读取数据

azure、apache-spark、pyspark

我目前有一个由4个工作节点和2个头节点组成的spark集群。我在blob存储中有一个1.5 GB的CSV文件，我可以从其中一个头节点访问它。我发现使用PySpark加载并缓存这些数据需要相当长的时间。

浏览 0提问于2016-11-26得票数 1

1回答

AWS胶-书写文件需要很长时间

apache-spark、pyspark、aws-glue、aws-glue-spark、aws-glue3.0

我正在使用Glue version 3.0、3和Spark版本3.1。 ('spark.sql.legacy.parquet.int96RebaseModeInRead', 'CORRECTED'), ('spark.sql.legacy.parquet.int96RebaseModeInWrite

浏览 6提问于2022-03-29得票数 2

1回答

在星火中将拼花文件加载到案例类中的性能

scala、apache-spark、apache-spark-sql、parquet

我正在评估不同方式在星火中加载Parquet文件的性能，差异是惊人的。因此，我对从Parquet文件加载case类的不同方法进行了基准测试，并使用Spark1.6和2.0对字段进行了求和。() // 63.169s df.toJSON.flatMap(s => Try(Json.parse(s).as[A]).toOption)另一方面，我对Data

浏览 2提问于2016-08-24得票数 7

2回答

如何控制Spark job在写入时创建的输出部品文件的数量？

apache-spark、hive、apache-spark-sql、parquet

我有几个Spark作业，每天处理数千个文件。文件大小可能从MB到GB不等。/path/in/hdfs"); ORSpark job在最终输出目录中创建了大量的小零件文件。据我所知，Spark<

浏览 4提问于2015-07-06得票数 2

回答已采纳

1回答

使用filter和basePath+full-filter-path读取spark数据集有区别吗？

apache-spark、partitioning

关于按列划分的数据集的读取效率，是否存在以下差异： // (1) read all dataset then filterspark.read.option("basePath",

浏览 23提问于2020-09-25得票数 0

回答已采纳

2回答

Azure Data Google BigQuery复制数据活动不返回嵌套列名

azure、google-bigquery、azure-data-factory、azure-data-factory-2、azure-databricks

我有一个复制活动在Azure数据工厂与谷歌BigQuery的来源。我需要导入整个表(其中包含嵌套字段-BigQuery中的记录)。还考虑过查询列的子集，并在需要时使用UNNEST，但不希望这样做，因为Parquet同时处理数组和地图类型。以前有人遇到过这种情况/你做了什么？

浏览 4提问于2021-09-15得票数 2

回答已采纳

2回答

通过python将int96时间戳转换为日期时间/日期

python、apache-spark、casting、timestamp、parquet

背景C:\Research> java -jar parquet-tools-1.8.2.jar cat --json original-file.snappy.parquet> parquet-output.json{...,"timestamp":"ACIE4NxJAAAKhSUA"} 我已经确定

浏览 2提问于2020-03-15得票数 3

回答已采纳

1回答

具有Struct列类型的读/写部分

apache-spark、pyspark、apache-spark-sql、pyarrow、fastparquet

我想给Parquet写一个这样的Dataframe：|-----|-------------------|我希望在(py)Spark中加载Parquet，并使用Spark查询数据，例如： df = spark.read.parquet("/m

浏览 8提问于2020-02-14得票数 4

回答已采纳

2回答

大型python字典。存储、加载和写入

python、json、performance、dictionary、graph-theory

我有一个很大的python值字典(大约50 GB)，并将其存储为JSON文件。当涉及到打开文件和写入文件时，我遇到了效率问题。

浏览 1提问于2018-12-25得票数 6

2回答

拼花文件大小，消防软管与火花

apache-spark、parquet、amazon-kinesis-firehose、pyarrow

我确实注意到了一些模式和元数据的差异，当我使用Pyarrow加载它们时：>>> spark = pq.ParquetFile('<sparkobject name>.gz.parquet')<pyarrow.: BYTE_ARRAY UTF8 uuids.bag.array_element:

浏览 1提问于2019-06-28得票数 5

回答已采纳

2回答

有没有办法改变每个分区文件夹的输出行数？

python、dataframe、pyspark

当我通过分区直接写入时，每个分区具有与spark.sql.shuffle.partitions相同数量的文件。这会导致拥挤分区中的每个文件都非常大(以GB为单位)，但在其他一些分区中，文件大小实际上很小(甚至以KB为单位)。有没有办法改变每个分区的文件数？| C |如果我这样做了：文件夹"

浏览 2提问于2018-12-05得票数 0

点击加载更多