腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
-
将
分区
数
减少
到
已
读取
的
文件夹
数
、
、
使用
spark
streaming(每隔5分钟),我
将
数据存储为HDFS中
的
拼图。/data/yyyy-MM-dd/*..parquet 例如: /data/2020-02-02/*parquet 每个拼图文件
的
大小仅以KB为单位 每个
文件夹
最多可包含288个地块文件(最多)。我们通常
读取
过去24小时、过去7天、过去一个月等等
的
数据。 当使用
spark
和我
读取
数据时,我已经检
浏览 15
提问于2020-02-02
得票数 0
1
回答
如何
减少
Spark
执行计划
的
总定时处理
、
、
、
、
我刚刚开发了一个
Spark
应用程序,在一些算法分析过程中,我意识
到
执行计划需要很长时间来处理。如何优化
Spark
执行计划
的
性能?目前,对于每个执行周期时间,它大约需要一个~90s,它在批处理模式下运行一个循环,如下所述:
将
输出发送回Kafka输出主题由于每一个周期大约90年代,这意味着卡夫卡事件可以采取从90s
到
180年代被处理。IMHO,我可以在批处理模式下扩展火花硬件以寻找更好
浏览 3
提问于2021-04-08
得票数 3
2
回答
为什么PostgreSQL说“致命”:对不起,当我无法达到最大连接时,已经有太多
的
客户端了?
、
、
、
、
我正在处理PostgreSQL 11.2
的
安装,它会定期在系统日志中进行抱怨。尽管是无-哪里接近其配置
的
连接限制。我从未见过使用此查询连接到数据库
的
大约45个连接,甚至在运行中
的
程序收到数据库错误之前,在Postgres日志中显示了太多由上述消息支持
的
客户端。使用psycopg2 (即主要客户端)
的
常规python代码从不触发它(即使是在以相同
的
方式从Pandas写入表时),pgAdmin
浏览 6
提问于2021-02-13
得票数 1
回答已采纳
2
回答
调优火花、设置执行器和内存驱动程序以
读取
大型csv文件
、
、
、
、
我想知道如何选择最佳
的
设置运行调我火花工作。基本上,我只是
将
一个大
的
csv文件
读取
到一个DataFrame中,并计数一些字符串出现
的
情况。TotalNumberOfTasks: (18500),为什么这是固定
的
?由于我阅读
的
csv没有什么逻辑,我如何优化火花作业? 我还试着
浏览 4
提问于2017-12-05
得票数 1
1
回答
具有JDBC连接
的
SparkSql
、
我想使用
Spark
的
JDBC从数据库中
读取
数据。我将使用200个执行者来
读取
数据。我
的
问题是,如果我提供了200个执行器,那么它会创建
到
集中式数据库(JDBC)
的
200个连接,还是会从具有单个连接
的
驱动程序中获取数据?
浏览 1
提问于2018-05-17
得票数 2
1
回答
如何激发SQL access数据库?
、
假设您使用
spark
访问一个SQL数据库。使用RDD火花
将
数据划分为多个不同
的
部分,这些部分共同构成数据集。 RDD
的
每个节点访问数据库并构建它们
的
部分。它
的
优点是节点不会被迫分配大量内存,但是数据库将不得不承受N个可能很大
的
连接。问题是,这个单一节点需要拥有所有的数据,这在许多情况下是行不通
的
。可能可以通过按块获
浏览 2
提问于2020-03-06
得票数 1
回答已采纳
1
回答
拼花
分区
和HDFS文件大小
、
、
我
的
数据是相对较小
的
Avro记录形式,用Parquet文件编写(平均< 1mb)。我使用目录层次结构对数据进行了
分区
。我想知道在Avro记录上“构建”
分区
并积累更大
的
文件是否更好.但是,我认为
分区
Parquet文件也会“映射”
到
HDFS
分区
文件。 “在Avro记录上构建
分区
”:假设我<e
浏览 5
提问于2016-08-22
得票数 0
1
回答
Spark
2.x:使用
Spark
查询蜂巢表时由火花作业设置
的
任务
数
、
已经提出了很多关于星火任务
的
数量以及这与
分区
数量之间
的
关系
的
问题。但不知何故我无法理解下面的情况。
spark
.executor.cores = 6val myDF =
spark
浏览 0
提问于2018-09-26
得票数 1
1
回答
星火中
的
分区
与数据湖中
的
分区
、
、
、
、
当
将
文件写入Data时,特别是通过Databricks,我们可以选择指定
分区
列。这将根据数据集中该列中可用
的
值
将
数据保存在单独
的
文件夹
(
分区
)中。 同时,当我们讨论星火优化时,我们谈到了数据
的
分区
。据我所理解,如果我们只想
读取
数据
的
某些部分(当然是基于
分区
列),
将
数据保存在
分区
中
的
分布式文件系统中将有所帮助。例如,如果我们按颜色
浏览 2
提问于2022-05-10
得票数 0
回答已采纳
1
回答
一次
spark
任务混洗写入非常慢
下图是针对
spark
sql联合
的
。我确信每个任务
的
输入大小都非常接近。
浏览 0
提问于2019-06-25
得票数 1
2
回答
spark
.sql.files.maxPartitionBytes不限制写入
分区
的
最大大小
、
、
我正在尝试
将
拼板数据从另一个s3桶复制到我
的
s3桶中。我希望
将
每个
分区
的
大小限制为128 MB。我认为默认情况下,
spark
.sql.files.maxPartitionBytes应该设置为128 MB,但是当我在复制后查看s3中
的
分区
文件时,我会看到大约226 MB
的
单个
分区
文件。我看了这篇文章,它建议我设置这个星火配置键,以限制
分区
的
最大大小:,但它似乎不起作用吗? 这是配置键
浏览 54
提问于2020-06-30
得票数 1
1
回答
如何在星火中计算内部连接
的
分区
数
?
、
、
df_B.createOrReplaceTempView('table_B')""")df_C.rdd.getPartitionsNumber() df_C=
spark
.sql(“”从table_A inner table_B on (.)table_A# => 160中选择*) 星火如何计算和使用这两个
分区
为两个连接
的
数据文件?连接
的
dataframe
的
分区
数</
浏览 1
提问于2021-05-23
得票数 2
1
回答
星火卡桑德拉与资源分配
、
、
、
我
的
理解是,默认
的
spark
.cassandra.input.split.size_in_mb是64MB.It,意味着为从Cassandra
读取
数据而创建
的
任务数量将是Approx_size/64。假设表大小为6400 MB (我们只是
读取
数据、执行foreachPartition并将数据写回DB),因此任务
数
将为100个。但是当我在纱线上执行作业
的
时候,如果我特别设置了--num-executors 3,-executor-core 2,那
浏览 3
提问于2022-02-08
得票数 0
回答已采纳
1
回答
spark
on Yarn中
的
任务太多
、
我使用
spark
-sql
读取
一个大表并生成100,000个任务。 我知道我可以设置num_of_partitions,但它对小表也是一样
的
。
浏览 0
提问于2017-12-26
得票数 0
2
回答
Apache内存不足,
分区
数量较少
我有一个持续耗尽内存
的
Spark
应用程序,集群有两个节点,内存约为30G,输入数据大小约为几百GB。应用程序是一个
Spark
作业,它从HDFS中
读取
数据并创建一个表并缓存它,然后执行一些
Spark
查询并将结果写回HDFS。最初,我
将
数据分割成64个
分区
,得到了OOM,然后通过使用1024个
分区
修复了内存问题。但是为什么使用更多
的
分区
帮助我解决了OOM问题?
浏览 7
提问于2016-06-30
得票数 4
3
回答
Spark
- Dataframe编写器-额外
的
空文件
、
我正面临着
spark
的
奇怪行为。我添加了一列,以便使用以下代码定位每行所在
的
位置: df.select('*',
spark
_partition_id().alias('partition_id')) 结果是: +-----+----Zuid| 102|+-----+--------------------+------------+
到
目前一切尚好part-000
浏览 23
提问于2020-01-14
得票数 1
1
回答
Kafka主题
分区
到
星火流
、
、
我有一些需要澄清
的
用例,关于卡夫卡主题
分区
->火花流资源利用率。如果我有: 主题中有两个
浏览 3
提问于2016-06-14
得票数 17
回答已采纳
1
回答
为什么星火不在
读取
时根据Parquet块大小创建
分区
?(相反,它似乎按照Parquet文件
的
压缩大小进行
分区
)
、
、
、
在下面的场景中,我使用
Spark
读取
了一个Parquet文件:文件中
的
块
数
(行组):3blockSize: 195 MB, rowCount: 1395661
读取
这个单一
的
Parquet文件时,它只创建一个
分区
。,Hadoop在
读取
操作期间
将
一个HDFS块映射为一个Parquet块大小,因此根据本例,应该将其映射到三个HDFS块。当我尝试使用
Spark
浏览 3
提问于2020-05-17
得票数 2
2
回答
加载拼板文件并保持相同数量
的
hdfs
分区
、
、
、
、
我在hdfs中保存了一个带有120个
分区
的
拼花文件/df。hdfs上每个
分区
的
大小约为43.5M。但是,
Spark
将自动
将
文件加载到60个
分区
中。_jsc.hadoopConfiguration().get("dfs.blocksize"))/2**20128
将
这些值中
的
任何一个更改为较低
的
值并不会导致
将
拼花文件加载到hdfs中相同数量
的</
浏览 0
提问于2019-06-14
得票数 0
1
回答
火花-蜂巢
分区
、
Hive表是使用4个
分区
创建
的
。hourlies.write.partitionBy("traffic_date_hour").insertInto("hourly_suspect")问题是,当插入发生在hive表中时,它有128个
分区
,而不是4个桶。defaultParallelism不能
减少
到
4,因为这会导致一个非常
浏览 2
提问于2016-03-21
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
《Vogue》杂志将印刷版数减少到每年 10 版
如何管理Spark的分区
Spark Streaming 中管理 Kafka Offsets 的几种方式
Java笔试题:将一个数插入到已经排好的数组之中
Spark 核心编程RDD的使用(1)
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券