Spark/Parquet分区是否保持有序？

、、

如果我对一个数据集进行分区，当我读回它时，它的顺序是否正确？customer_id) % 4, IntegerType())df2 = sql_context.

浏览 34提问于2019-03-08得票数 2

回答已采纳

2回答

Spark是否在read上维护拼花地板分区？

、、、

假设我向parquet编写了一个数据帧，并结合使用repartition和partitionBy来获得一个分区良好的parquet文件。如下所示：现在，稍后我想要读取拼图文件，所以我这样做： val df = spark</e

浏览 5提问于2018-06-13得票数 15

2回答

加载拼板文件并保持相同数量的hdfs分区

、、、、

中，并保持相同数量的分区。但是，Spark将自动将文件加载到60个分区中。df = spark.read.parquet('df')60 没有设置'parquet.block.size'。 sc._jsc.hadoopConfiguration().setInt("parquet.block.size", 64*2**20

浏览 0提问于2019-06-14得票数 0

1回答

不具有分区列性能的火花下推滤波器

我有一个关于spark中的过滤的问题，当你不在过滤器中包括分区列时。假设我有以下按日期分区的数据： part-0001.parquet数据有一个名为"action“的列，其中大约30%的数据值为0，其余的数据值为1spark.read.parquet("s3a://path&q

浏览 2提问于2020-08-02得票数 0

2回答

如何在Spark中使用分区发现

、

其中包含了拼花文件： ├── name=Steve在SparkSQL中，使用以下查询：+---+----+但是，另一种方法是在创建表时指定架构，然后使用恢复分区执行alternative。CREATE TABLE test2(ID Int, name String) USING parquet OPTIONS (path 'hdfs://

浏览 0提问于2018-08-23得票数 1

回答已采纳

2回答

在HDFS上进行spark存储和读取镶嵌

、、

我正在写这段代码spark.conf.set("spark.sql.shuffle.partitions",6)outputData.write.parquet(outputFile) //write on HDFS 如果我想从HDFS中读取文件"outp

浏览 1提问于2016-11-04得票数 3

1回答

PySpark。在读取拼图时通过强制转换为字符串合并架构？

、、

我从拼图文件中读取数据，其中有一个Map type字段，如下所示：>>> df.collect() |-- key: string问题是在其他分区中，密钥a为None，导致密钥b被读取为long类型： &g

浏览 11提问于2019-10-23得票数 1

1回答

为什么星火不在读取时根据Parquet块大小创建分区？(相反，它似乎按照Parquet文件的压缩大小进行分区)

、、、

在下面的场景中，我使用Spark读取了一个Parquet文件：文件中的块数(行组)：3blockSize: 195 MB, rowCount: 13956611538519, compressedSize: 38819 bytes当我尝试使用Spark读取这个单一的Parquet文件时，它只创建一个分区。当我尝试使用Spark

浏览 3提问于2020-05-17得票数 2

1回答

如何在工作/任务节点上仅使用一个线程读取拼图文件？

、、、

如果我们执行以下命令： spark.sql("select * from parquet.`/Users/MyUser/TEST/testcompression/part-00009-asdfasdf-e829-421d-b14f-asdfasdf.c000.snappy.parquet`"

浏览 9提问于2022-11-14得票数 0

回答已采纳

3回答

阻止DataFrame.partitionBy()从架构中删除已分区的列

、

我按如下方式对DataFrame进行分区：代码给出了预期的结果(即按类型和类别划分的数据

浏览 3提问于2016-03-23得票数 20

回答已采纳

1回答

为什么火花不自动检测我的Parquet文件中的新字段？

、、、、

在Databricks博客下面的摘录中，我们声称，作为Spark1.3，如果随着时间的推移，新字段将被添加到一个拼板模式中，它们将被自动检测和处理(我假设在将该字段插入到parquet文件之前的时间内插入该字段的这个特性不适用于我--例如，如果我使用这个命令读取所有月份的数据：然后尝试查询一个新添加

浏览 0提问于2018-08-20得票数 1

回答已采纳

1回答

为了了解读取的数据量，我一直在阅读关于火花谓词、下推和分区剪枝的文章。1)如果我发出一个read spark.read(容器).filter(Year=2019，SchoolName="XYZ")：将执行分区修剪，并且只读取有限数量的分区？是否会在blob存储上存在I/O，数据将被加载到Spark集群中，然后进行过滤，也就是说，我是否必须为我们不需要的所有其他数据的IO支付天价?2)如果我发出一个读spark.read(

浏览 1提问于2019-09-27得票数 3

回答已采纳

1回答

Parquet和Spark中的分区策略

、

我有一个工作，读取csv文件，将其转换为数据帧，并在Parquet中写入。我正在使用附加模式，同时写入数据在Parquet。使用这种方法，在每次编写中都会生成一个单独的Parquet文件。我的问题是： ( 2)是否有一种完全基于数据大小来生成Parquet分区的方法？( 3)我们

浏览 1提问于2018-09-12得票数 3

1回答

正在读取包含.mani/清单文件的存储桶目录

、、

我有一个目录，如下所示，需要在不读取.mani (清单文件)的情况下，将年份作为一列读取spark.read.parquet('car_data')。我遇到的问题是，如果我加载目录，就像你对存储桶的数据一样，我会得到一个错误，因为Spark试图将mani文件读取为parquet，但之后我无法使用通配符跳过它们！有没有其他方法可以做到这一点？编辑:我现在也尝试过spark.read.load('/car_data/', format='<

浏览 5提问于2021-05-18得票数 0

1回答

在Parquet分区目录结构中读取不同的Schema

、、

我在hdfs上使用spark编写了以下分区拼接数据： |---Month |----Day|---dailydata.parquet 现在，当我从year path读取df时，spark读取dailydata.parquet。如何从所有分区中读取每月数据。我尝试使用设置选项mergeSchema = true，但出现错误。

浏览 4提问于2017-03-30得票数 0

1回答

星星之火: DataFrameWriter必须是阻塞的步骤吗？

、、、

或者通过dropDuplicates，依靠事实，我的数据是有序的。(我宁愿使用前者，但我一直在尝试各种方法。)因此，的问题是：是否有一种方法可以迫使火花处理这些组，并在它们准备好之后立即编写它们？同样，它们是分区的，因此没有其他任务会影响我的分区。outputs/window')d1 = spark.read.parquet('outputs/first').repart

浏览 0提问于2018-03-26得票数 0

2回答

星火知道DataFrame的分区键吗？

、、

我想知道星火是否知道分割键的地板文件，并使用这些信息，以避免洗牌。运行Spark2.0.1运行本地SparkSession。") .save("SomeFile.parquet") 我正在按列numerocarte创建42个分区。特别是，我在上面运行一个window function，其中分区是在parquet文件被重新分区的同一列上完成的。

浏览 0提问于2018-01-26得票数 21

回答已采纳

1回答

在Foundry中，如何在每个值只有一个拼图文件的情况下实现Hive分区？

、、、、

为此，我们的想法是通过将分区列设置为dataset中的一个列(称为splittable_column)来执行单元分区设置。如果我的数据集的基数为3，我的目标是将数据布局如下：spark例如，我的数据集看起来如下： spark/splittable_column=Value A/part-00000-abc.c0

浏览 9提问于2022-06-29得票数 1

回答已采纳

1回答

PySpark -在读取拼花后优化分区数

、、、

df = spark.read.parquet( "A.parquet/_YEAR={2018}/_MONTH={1,2,3}", "B.parquet/_

浏览 1提问于2018-06-05得票数 2

回答已采纳

1回答

吡火花-分区数据(用“追加”模式创建)的计算速度慢

、、

例如，要计算给定日期集的每天行数：spark.read.parquet("path/to/data_2021071[0-5].parquet")\.count()\分区数据(几分钟).filter( (col("DayTi

浏览 2提问于2021-07-30得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark是否在read上维护拼花地板分区？

加载拼板文件并保持相同数量的hdfs分区

不具有分区列性能的火花下推滤波器

如何在Spark中使用分区发现

在HDFS上进行spark存储和读取镶嵌

PySpark。在读取拼图时通过强制转换为字符串合并架构？

为什么星火不在读取时根据Parquet块大小创建分区？(相反，它似乎按照Parquet文件的压缩大小进行分区)

如何在工作/任务节点上仅使用一个线程读取拼图文件？

阻止DataFrame.partitionBy()从架构中删除已分区的列

为什么火花不自动检测我的Parquet文件中的新字段？

Azure数据湖的火花谓词下推、过滤和分区剪枝

Parquet和Spark中的分区策略

正在读取包含.mani/清单文件的存储桶目录

在Parquet分区目录结构中读取不同的Schema

星星之火: DataFrameWriter必须是阻塞的步骤吗？

星火知道DataFrame的分区键吗？

在Foundry中，如何在每个值只有一个拼图文件的情况下实现Hive分区？

PySpark -在读取拼花后优化分区数

吡火花-分区数据(用“追加”模式创建)的计算速度慢

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐