Spark Dataframe正在丢失分区

、、、、

我在读取spark数据帧时发现了这个奇怪的问题。我将数据帧重新划分为50k个分区。但是，当我读取数据帧并对其执行计数操作时，我发现当我使用spark 2.0时，底层rdd只有2143个分区。因此，我转到保存重新分区的数据的路径，发现50476val d = spark.read.parq

浏览 11提问于2017-08-11得票数 4

回答已采纳

1回答

从星火中读取蜂巢表为数据集

、、、、

我正在尝试将spark中的一个hive表读取为一个强类型的Dataset，并且我注意到分区并没有被修剪，而不是从同一个hive表中对dataframe执行Spark。case class States(state: String, country: String)/不过，如果我这么读的话- val hiveDF = spark.table(

浏览 0提问于2018-04-09得票数 3

回答已采纳

1回答

当写入和重读到parquet文件时保留数据分区。

、

当我将带有定义分区的数据文件写入磁盘时，将其作为拼板文件，然后再次重新读取拼图文件，分区就会丢失。是否有一种方法可以在写入和重读过程中保留数据的原始分区？示例代码val originalDf = spark.sparkContext.parallelizeand print the number of partiti

浏览 0提问于2018-06-28得票数 8

回答已采纳

1回答

如何按顺序从Apache Spark发送消息到Kafka主题

、、、、

我使用Spark将此信息发送到Kafka topic，并在Phoenix表中维护CDC。我使用Cron作业每1分钟运行一次spark作业。我目前面临的问题是消息排序，我需要以升序时间戳发送这些消息，以结束系统Kafka主题(有一个分区)。但是，由于多个spark DataFrame分区并发地向Kafka topic发送信息，导致大部分消息排序丢失。目前作为一种变通办法，我在1中重新划分我的DataFrame，以维护消息排序，但这不是一个长期的解决方案，

浏览 10提问于2017-08-30得票数 0

1回答

spark.default.parallelism等价于火花数据仓库

问题背景显然，RDD和DataFrame的分娩控制是不同的。Dataframe有spark.sql.shuffle.partitions来控制重装分区(如果我正确理解的话，可以进行广泛的转换)，而"spark.default.parallelism“不会产生任何影响但是洗牌与分区有什么关系呢？如果您正在使用RDDs…，那么实际上

浏览 6提问于2019-11-18得票数 2

回答已采纳

1回答

如何使用HDFS目录分区

、、、

为了减少处理时间，我按日期对数据进行了分区，以便只使用必需的日期数据(而不是完整的表).So，在HDFS中，我的表存储如下如何使用Spark从hdfs中选择所需的分区或日期文件夹？

浏览 3提问于2016-06-18得票数 1

1回答

当新的分区比旧的分区有更多的列时，如何从Avro中读取所有列？

、、

较新的分区可以包含比较旧分区更多的列。当我用Spark 2.4.3读取它时，我得到了第一个(最旧的)分区的模式的DataFrame，所有新添加的列都丢失了。我应该怎么做才能读取所有列？

浏览 13提问于2019-11-18得票数 0

1回答

交叉连接的结果是“设备上没有空间”

、、

实例类型: r4.2xlarge (8核，61 EBS，128 EBS) "spark<

浏览 14提问于2022-08-02得票数 0

2回答

如何使星火使用来自Parquet文件的分区信息？

、、、

我试图为一些SparkSql查询预先计算分区。如果我计算并持久化这些分区，Spark就会使用它们。如果我将分区数据保存到Parquet并在以后重新加载它，分区信息就会消失，Spark将重新计算它。实际数据足够大，因此需要花费大量的时间进行分区。不过，下面的代码充分说明了这些问题。Test2()目前是我唯一可以工作的东西，但是我想启动实际的处理，这就是test3()试图做的事情。pyspark.sql import SQLContext from pyspark.sql.

浏览 3提问于2016-02-11得票数 1

回答已采纳

1回答

将配置单元分区表加载到Spark Dataframe

、、、、

我使用的是Spark 1.4.1版本。我正在尝试将一个已分区的配置单元表加载到一个DataFrame中，其中在配置单元表中按year_week编号进行分区，在这种情况下，我可能有104个分区。但是我可以看到DataFrame正在将数据加载到200个分区中，我知道这是因为spark.sql.shuffle.partitions默认设置为200。我想知道是否有什么好方法可以将我的Hive表加载到具有104个分区<

浏览 1提问于2016-03-28得票数 1

1回答

在并行星火中加载S3文件

、、、

我正在通过下面的代码从S3成功地将文件加载到Spark中。它正在工作，但是我注意到在一个文件和另一个文件之间有一个延迟，并且它们是按顺序加载的。我想通过并行加载来改进这一点。// Load files that were loaded into firehose on this day var s3Files = spark.sqlContext.read.schemaClean and use partition by the keys to eliminate duplicates and

浏览 3提问于2017-07-28得票数 2

回答已采纳

1回答

如何在星火数据中强制重新分区？

、、、

我有许多火花数据处理程序，我需要做以下工作：2) select rows from it现在，上述每个操作都需要不同数量的分区。选择行需要许多分区，比如100个分区。合并需要很少的分区，比如10个分区。所以，我真的希望它能这样运作： 1) load a single sp

浏览 2提问于2017-08-01得票数 6

回答已采纳

1回答

在集群上使用applyInPandas和PySpark

、、、、

import pandas as pdfrom pyspark.sql import SparkSession def func(x): return x# run test function in parallel pdf = pd.DataFrame({'x': range

浏览 37提问于2022-10-10得票数 1

回答已采纳

1回答

如何在DataFrame* Spark1.6中加载特定的Hive分区？*

、、

按照官方的，我们不能向DataFrame添加特定的单元分区DataFrame df = hiveContext.read如果给出如下所示的基路径，它不包含我希望在DataFrame中包含的实体列，如下所示- DataFrame df = hiveContext.read().format("orc").load("path/to/

浏览 3提问于2016-01-07得票数 7

回答已采纳

1回答

Spark Data Source是否支持对写入的输入V2进行重新分区？

我有一个自定义的Spark数据源，它是使用data source实现的，我正在尝试将其转换为V2 V1。在Spark API中，V1将输入DataFrame传递给CreatableRelationProvider的createRelation方法 https://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/

浏览 41提问于2021-05-08得票数 0

1回答

正在删除AWS Glue ETL作业中的选定日期分区

、

该作业是由lambda函数触发的，并且在完成关系化之后，它将地块文件写入到日期分区。有几次，当我重新处理相同的日期分区时，我想在写入新文件之前删除以前写入的文件。有没有办法获得作业中的日期分区，以便可以先删除之前写入的文件？我知道glue作业会在某个地方维护日期分区，因为当我调用glueContext.write_dynamic_frame.from_options()时，它会正确地获取分区键。我需要知道作业当前在哪个日期分区上操作以删除文件。谢谢你的帮助。射频

浏览 22提问于2019-12-23得票数 0

1回答

从Hive表中读取数据创建的spark数据帧的分区数

、

我对spark dataframe的分区数量有疑问。如果我通过读取Hive表(Employee)的全部数据来创建Spark dataframe(df)。 Spark将为一个数据帧(Df)创建多少个分区？

浏览 0提问于2017-05-10得票数 4

1回答

从拼图文件中读取分区数据并将其写回，保持层次结构？

、

我正在尝试找到从拼图文件中读取分区数据的最佳方法，并将它们写回Spark中的层次结构。当我使用spark.read.parquet(inputPath)时，Spark从目录层次结构中读取所有分区，并将它们表示为列，但是当我写回该数据帧时，我丢失了所有层次结构。这需要指定分区列。有没有一种更自动的方法来做这件事？

浏览 9提问于2019-12-12得票数 2

回答已采纳

1回答

为什么星火不在读取时根据Parquet块大小创建分区？(相反，它似乎按照Parquet文件的压缩大小进行分区)

、、、

在下面的场景中，我使用Spark读取了一个Parquet文件：文件中的块数(行组)：3blockSize: 195 MB, rowCount: 13956611538519, compressedSize: 38819 bytes当我尝试使用Spark读取这个单一的Parquet文件时，它只创建一个分区。当我尝试使用Spark读取这个Parquet文件

浏览 3提问于2020-05-17得票数 2

1回答

将Foreachpartition循环中的Dataframe保存到Cassandra

、、

我正在寻找在每个分区循环中保存整个Dataframe到Cassandra。", "IP").set("spark.cassandra.auth.password", "pwdCassandraConnector(conf)

浏览 20提问于2019-02-05得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从星火中读取蜂巢表为数据集

当写入和重读到parquet文件时保留数据分区。

如何按顺序从Apache Spark发送消息到Kafka主题

spark.default.parallelism等价于火花数据仓库

如何使用HDFS目录分区

当新的分区比旧的分区有更多的列时，如何从Avro中读取所有列？

交叉连接的结果是“设备上没有空间”

如何使星火使用来自Parquet文件的分区信息？

将配置单元分区表加载到Spark Dataframe

在并行星火中加载S3文件

如何在星火数据中强制重新分区？

在集群上使用applyInPandas和PySpark

如何在DataFrame* Spark1.6中加载特定的Hive分区？*

Spark Data Source是否支持对写入的输入V2进行重新分区？

正在删除AWS Glue ETL作业中的选定日期分区

从Hive表中读取数据创建的spark数据帧的分区数

从拼图文件中读取分区数据并将其写回，保持层次结构？

为什么星火不在读取时根据Parquet块大小创建分区？(相反，它似乎按照Parquet文件的压缩大小进行分区)

将Foreachpartition循环中的Dataframe保存到Cassandra

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐