在Spark中，sc.newAPIHadoopRDD使用5个分区读取2.7 GB的数据

文章/答案/技术大牛

发布

1回答

、、

我使用的是Spark1.4，我正在尝试使用sc.newAPIHadoopRDD从Hbase读取2.7 GB的数据，但是有5个任务是为这个阶段创建的，并且需要2 t0 3分钟来处理它。谁能告诉我如何增加更多的分区来快速读取数据？

浏览 18提问于2016-09-22得票数 1

1回答

如何使用一个分区将dataframe写入csv文件，尽管文件大小超过了executors内存。

、、、、

我将大小为2.7Gb的输入文件加载到dataframe df中。这是使用21个任务成功完成的，也就是说，我在整个集群中总共使用了21个分区。现在，我尝试使用一个分区将其写入csv，以便将所有记录都保存在一个csv文件中。df.coalesce(1).write.option("header","true").csv(&quo

浏览 1提问于2021-09-24得票数 2

回答已采纳

1回答

Spark:对从HBase数据创建的RDD进行分区

、、、

如果我使用以下命令从HBase (或MapR-DB)表中读取一些数据生成的RDD有一个分区，我可以看到调用usersRDD.partitions就像<e

浏览 1提问于2016-05-05得票数 2

1回答

spark如何在幕后读取数据？

、、

例如，我有点困惑于spark是如何从s3读取数据的。假设要从s3读取100 GB的数据，而spark集群的总内存为30 GB。spark是否会在触发操作后读取所有100 GB的数据，并将最大数量的分区存储在内存中，并将剩余的分区</

浏览 2提问于2021-09-19得票数 2

2回答

Apache内存不足，分区数量较少

我有一个持续耗尽内存的Spark应用程序，集群有两个节点，内存约为30G，输入数据大小约为几百GB。应用程序是一个Spark作业，它从HDFS中读取数据并创建一个表并缓存它，然后执行一些Spark查询并将结果写回HDFS。最初，我将数据分割成64个分区，得到了OOM，然后通过使用1024个分区修复了内存问题。但是为什么使用更多的

浏览 7提问于2016-06-30得票数 4

1回答

当读取文件时，分区的数量是如何由Spark决定的？

、、、

当读取文件时，分区的数量是如何由Spark决定的？假设hdfs目录中有一个10 GB的单个文件，而另一个hdfs位置是10 GB卷的多个部分文件。如果这两个文件是在两个单独的星火数据帧中读取的，那么它们的分区数以及基于什么逻辑呢？

浏览 2提问于2020-03-01得票数 2

1回答

降低并行度会不会导致不出现随机溢出？

现在考虑315(63 * 5)个数据分区，其中314个分区的大小为3 3GB，但其中一个分区的大小为30 3GB(由于数据倾斜)。所有收到3 3GB分区的executor都占用了63 3GB ( 21 *3=因为每个executor可以并行运行21个任务，每个任务占用3 3GB的内存空间)。但是接收到30 20分区</e

浏览 2提问于2019-11-08得票数 0

1回答

与Spark一起使用的MongoHadoop连接器按分区数复制结果

、、、、

我正在尝试使用连接器将数据读取到spark中。问题是，如果我试图设置一个关于数据读取的限制，我在RDD中得到了限制*分区的数量。test.restaurants");JavaPairRDD<Object, BSONObject> d

浏览 5提问于2016-03-27得票数 0

1回答

火花OOM错误解释与消除

Spark的洗牌操作(sortByKey、groupByKey、reduceByKey、join等)在每个任务中构建一个哈希表来执行分组，这通常是很大的。数据集的大小是100 GB，让我们假设这个数据，当通过spark读取时，被划分为10个分区，每个分区10 GB。很明显，100 GB的文件不能一次放入32 <

浏览 1提问于2020-08-05得票数 0

4回答

火花分区(Ing)如何处理HDFS中的文件？

、

我正在使用HDFS在集群上使用Apache。据我所知，HDFS正在数据节点上分发文件。因此，如果在文件系统上放置一个"file.txt“，那么它将被分割成分区。rdd现在是否自动与文件系统上的"file.txt“分区相同？当我打电话时会发生什么在哪里x>那么hdfs使用的分区？星火是否会在物理上重新安排hdfs的数据

浏览 1提问于2015-03-12得票数 64

回答已采纳

2回答

如何使用pySpark读取分区parquets的子示例？

、、、

假设为我提供了parquets数据的以下分区：└── data/ │ ├── <hash>_toto.parquet我可以读取整个分区数据，但我不知道如何排除其中的</e

浏览 8提问于2022-01-20得票数 1

回答已采纳

1回答

减少星火阶段的任务数

、、、、

我正在aws中运行一个spark作业，它从s3读取大约100 k小JSON文件，执行一些转换，并将结果写回s3。我已经将洗牌分区和默认并行性设置为20，执行器内存设置为4GB。但是，对于NativeMethodAccessorImpl.java，的javaToPython (我理解为写入s3的UI )阶段之一，有将近2.7k个任务，输入数据大小< 1MB。对于使用收集操作的阶段，相同的

浏览 13提问于2022-02-10得票数 0

6回答

火花失效:引起: org.apache.spark.shuffle.FetchFailedException:太大的框架: 5454002341

、、

我正在为确定父子表的表生成层次结构。下面是使用的配置，即使在收到与太大的帧有关的错误之后：--conf spark.yarn.executor.memoryOverhead=1024mb \import org.apache.spark.SparkContext; import org.apache.spark</

浏览 3提问于2018-07-11得票数 8

2回答

限制spark.read pyspark的分区数量

、、

在我使用spark读取xml文件之后： .format("xml")\ .load("s3a://.../.../") 我用df.rdd.getNumPartitions()检查了分区的数量，得到了20081个。我如何在开始时限制分区的</em

浏览 5提问于2021-05-20得票数 0

3回答

Spark在加载Hive表时创建了多少个分区

、、、

即使是Hive表或HDFS文件，当Spark读取数据并创建数据帧时，我认为RDD/dataframe中的分区数量将等于HDFS中的partfile数量。但是，当我使用配置单元外部表进行测试时，我可以看到这个数量与数据帧中分区的部分文件数量.The数量119不同。该表是一个Hive分区表，其中包含150个部分文件，最小文件大小为30MB，

浏览 69提问于2020-04-02得票数 3

3回答

用Spark的S3方法分割S3中一个大的倾斜数据集

、、

问题#1val df = spark.read.parquet("some_data_lake")问题#2 当我不使用repartition时，Spark会写出太多<

浏览 1提问于2018-10-28得票数 23

回答已采纳

1回答

Apache编写器partitionBy导致OOM

、、、

一个大小超过700 is的Parquet文件集是可用的。Parquet由2列组成，每个列都带有一个JSON文档。现在我想转换这些Parquet文件并用分区保存它们。读取、转换和保存。最后，有一个包含分区和相应的Parquet文件的新文件夹。这个主意到此为止了。读取源数据是使用spark.read.parquet("/my/folder/ **/.p

浏览 1提问于2022-05-21得票数 0

1回答

Spark无法用mongo连接器的newAPIHadoopRDD编译BSONFileInputFormat

、、、

我使用spark中的mongoDB客户端(r1.5.2)从mongoDB和bson中读取数据，链接如下：。到目前为止，我可以从mongoDB无问题地阅读。但是，bson配置甚至不能编译。请帮帮忙。我在scala中的代码： val documents = sc.new

浏览 3提问于2016-06-21得票数 2

回答已采纳

2回答

内存中TB文件的火花执行

、、

假设我有一个Tb数据文件。十个节点集群中的每个节点内存为3GB。它会抛出内存异常吗？它怎麽工作?

浏览 0提问于2016-01-16得票数 5

1回答

用apache读取bigQuery中的分区表或视图

、、、

我正在使用dataproc连接器来读取一个分区表，它包含超过300‘t的数据并按日期进行分区，但我所需要的只是从今天开始用火花连接器读取数据，我试着用bigquery已经分区的视图读取它，但这不起作用，有什么方法可以从带有apache S火星的bigquery表中读取分区吗？{NaiveBayes, Naive

浏览 1提问于2017-10-03得票数 0

点击加载更多