腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
Spark
中
,
sc.newAPIHadoopRDD
使用
5个
分区
读取
2.7
GB
的
数据
、
、
我
使用
的
是
Spark
1.4,我正在尝试
使用
sc.newAPIHadoopRDD
从Hbase
读取
2.7
GB
的
数据
,但是有5个任务是为这个阶段创建
的
,并且需要2 t0 3分钟来处理它。谁能告诉我如何增加更多
的
分区
来快速
读取
数据
?
浏览 18
提问于2016-09-22
得票数 1
1
回答
如何
使用
一个
分区
将dataframe写入csv文件,尽管文件大小超过了executors内存。
、
、
、
、
我将大小为
2.7
Gb
的
输入文件加载到dataframe df
中
。这是
使用
21个任务成功完成
的
,也就是说,我
在
整个集群
中
总共
使用
了21个
分区
。现在,我尝试
使用
一个
分区
将其写入csv,以便将所有记录都保存在一个csv文件
中
。df.coalesce(1).write.option("header","true").csv(&quo
浏览 1
提问于2021-09-24
得票数 2
回答已采纳
1
回答
Spark
:对从HBase
数据
创建
的
RDD进行
分区
、
、
、
如果我
使用
以下命令从HBase (或MapR-DB)表
中
读取
一些
数据
生成
的
RDD有一个
分区
,我可以看到调用usersRDD.partitions就像<e
浏览 1
提问于2016-05-05
得票数 2
1
回答
spark
如何在幕后
读取
数据
?
、
、
例如,我有点困惑于
spark
是如何从s3
读取
数据
的
。假设要从s3
读取
100
GB
的
数据
,而
spark
集群
的
总内存为30
GB
。
spark
是否会在触发操作后
读取
所有100
GB
的
数据
,并将最大数量
的
分区
存储在内存
中
,并将剩余
的
分区</
浏览 2
提问于2021-09-19
得票数 2
2
回答
Apache内存不足,
分区
数量较少
我有一个持续耗尽内存
的
Spark
应用程序,集群有两个节点,内存约为30G,输入
数据
大小约为几百
GB
。应用程序是一个
Spark
作业,它从HDFS
中
读取
数据
并创建一个表并缓存它,然后执行一些
Spark
查询并将结果写回HDFS。最初,我将
数据
分割成64个
分区
,得到了OOM,然后通过
使用
1024个
分区
修复了内存问题。但是为什么
使用
更多
的
浏览 7
提问于2016-06-30
得票数 4
1
回答
当
读取
文件时,
分区
的
数量是如何由
Spark
决定
的
?
、
、
、
当
读取
文件时,
分区
的
数量是如何由
Spark
决定
的
? 假设hdfs目录中有一个10
GB
的
单个文件,而另一个hdfs位置是10
GB
卷
的
多个部分文件。如果这两个文件是
在
两个单独
的
星火
数据
帧
中
读取
的
,那么它们
的
分区
数以及基于什么逻辑呢?
浏览 2
提问于2020-03-01
得票数 2
1
回答
降低并行度会不会导致不出现随机溢出?
现在考虑315(63 * 5)个
数据
分区
,其中314个
分区
的
大小为3 3
GB
,但其中一个
分区
的
大小为30 3
GB
(由于
数据
倾斜)。所有收到3 3
GB
分区
的
executor都占用了63 3
GB
( 21 *3=因为每个executor可以并行运行21个任务,每个任务占用3 3
GB
的
内存空间)。但是接收到30 20
分区</e
浏览 2
提问于2019-11-08
得票数 0
1
回答
与
Spark
一起
使用
的
MongoHadoop连接器按
分区
数复制结果
、
、
、
、
我正在尝试
使用
连接器将
数据
读取
到
spark
中
。问题是,如果我试图设置一个关于
数据
读取
的
限制,我
在
RDD
中
得到了限制*
分区
的
数量。test.restaurants");JavaPairRDD<Object, BSONObject> d
浏览 5
提问于2016-03-27
得票数 0
1
回答
火花OOM错误解释与消除
Spark
的
洗牌操作(sortByKey、groupByKey、reduceByKey、join等)
在
每个任务
中
构建一个哈希表来执行分组,这通常是很大
的
。
数据
集
的
大小是100
GB
,让我们假设这个
数据
,当通过
spark
读取
时,被划分为10个
分区
,每个
分区
10
GB
。很明显,100
GB
的
文件不能一次放入32 <
浏览 1
提问于2020-08-05
得票数 0
4
回答
火花
分区
(Ing)如何处理HDFS
中
的
文件?
、
我正在
使用
HDFS
在
集群上
使用
Apache。据我所知,HDFS正在
数据
节点上分发文件。因此,如果在文件系统上放置一个"file.txt“,那么它将被分割成
分区
。rdd现在是否自动与文件系统上
的
"file.txt“
分区
相同?当我打电话时会发生什么在哪里x>那么hdfs
使用
的
分区
?星火是否会在物理上重新安排hdfs
的
数据
浏览 1
提问于2015-03-12
得票数 64
回答已采纳
2
回答
如何
使用
pySpark
读取
分区
parquets
的
子示例?
、
、
、
假设为我提供了parquets
数据
的
以下
分区
:└── data/ │ ├── <hash>_toto.parquet我可以
读取
整个
分区
数据
,但我不知道如何排除其中
的</e
浏览 8
提问于2022-01-20
得票数 1
回答已采纳
1
回答
减少星火阶段
的
任务数
、
、
、
、
我正在aws
中
运行一个
spark
作业,它从s3
读取
大约100 k小JSON文件,执行一些转换,并将结果写回s3。我已经将洗牌
分区
和默认并行性设置为20,执行器内存设置为4
GB
。但是,对于NativeMethodAccessorImpl.java,
的
javaToPython (我理解为写入s3
的
UI )阶段之一,有将近
2.7
k个任务,输入
数据
大小< 1MB。对于
使用
收集操作
的
阶段,相同
的
浏览 13
提问于2022-02-10
得票数 0
6
回答
火花失效:引起: org.apache.
spark
.shuffle.FetchFailedException:太大
的
框架: 5454002341
、
、
我正在为确定父子表
的
表生成层次结构。下面是
使用
的
配置,即使
在
收到与太大
的
帧有关
的
错误之后:--conf
spark
.yarn.executor.memoryOverhead=1024mb \import org.apache.
spark
.SparkContext; import org.apache.
spark</
浏览 3
提问于2018-07-11
得票数 8
2
回答
限制
spark
.read pyspark
的
分区
数量
、
、
在
我
使用
spark
读取
xml文件之后: .format("xml")\ .load("s3a://.../.../") 我用df.rdd.getNumPartitions()检查了
分区
的
数量,得到了20081个。我如何在开始时限制
分区
的</em
浏览 5
提问于2021-05-20
得票数 0
3
回答
Spark
在
加载Hive表时创建了多少个
分区
、
、
、
即使是Hive表或HDFS文件,当
Spark
读取
数据
并创建
数据
帧时,我认为RDD/dataframe
中
的
分区
数量将等于HDFS
中
的
partfile数量。但是,当我
使用
配置单元外部表进行测试时,我可以看到这个数量与
数据
帧中
分区
的
部分文件数量.The数量119不同。该表是一个Hive
分区
表,其中包含150个部分文件,最小文件大小为30MB,
浏览 69
提问于2020-04-02
得票数 3
3
回答
用
Spark
的
S3方法分割S3
中
一个大
的
倾斜
数据
集
、
、
问题#1val df =
spark
.read.parquet("some_data_lake")问题#2 当我不
使用
repartition时,
Spark
会写出太多<
浏览 1
提问于2018-10-28
得票数 23
回答已采纳
1
回答
Apache编写器partitionBy导致OOM
、
、
、
一个大小超过700 is
的
Parquet文件集是可用
的
。Parquet由2列组成,每个列都带有一个JSON文档。现在我想转换这些Parquet文件并用
分区
保存它们。
读取
、转换和保存。最后,有一个包含
分区
和相应
的
Parquet文件
的
新文件夹。这个主意到此为止了。
读取
源
数据
是
使用
spark
.read.parquet("/my/folder/ **/.p
浏览 1
提问于2022-05-21
得票数 0
1
回答
Spark
无法用mongo连接器
的
newAPIHadoopRDD编译BSONFileInputFormat
、
、
、
我
使用
spark
中
的
mongoDB客户端(r1.5.2)从mongoDB和bson
中
读取
数据
,链接如下:。到目前为止,我可以从mongoDB无问题地阅读。但是,bson配置甚至不能编译。请帮帮忙。我
在
scala
中
的
代码: val documents =
sc.new
浏览 3
提问于2016-06-21
得票数 2
回答已采纳
2
回答
内存
中
TB文件
的
火花执行
、
、
假设我有一个Tb
数据
文件。十个节点集群
中
的
每个节点内存为3
GB
。它会抛出内存异常吗? 它怎麽工作?
浏览 0
提问于2016-01-16
得票数 5
1
回答
用apache
读取
bigQuery
中
的
分区
表或视图
、
、
、
我正在
使用
dataproc连接器来
读取
一个
分区
表,它包含超过300‘t
的
数据
并按日期进行
分区
,但我所需要
的
只是从今天开始用火花连接器
读取
数据
,我试着用bigquery已经
分区
的
视图
读取
它,但这不起作用,有什么方法可以从带有apache S火星
的
bigquery表
中
读取
分区
吗?{NaiveBayes, Naive
浏览 1
提问于2017-10-03
得票数 0
点击加载更多
相关
资讯
Flume-Kafka-SparkStreaming实战2
Spark 核心编程RDD的使用(1)
Spark Streaming 中管理 Kafka Offsets 的几种方式
第八篇|Spark SQL百万级数据批量读写入MySQL
Spark Streaming如何读Kafka数据 Hbase如何设计表
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券