腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
HDFS
上
写入
数据
需要
很长
时间
在
HDFS
上
写入
文件创建多个零件文件(200)并花费
很长
时间
我正在将配置单元表(使用SqlContext.sql)加载到
数据
帧1(6K记录)并注册到临时表。我使用左外部连接更新dataframe 1和dataframe 2的值,并尝试将dataframe_1(6K记录)
写入
HDFS
文件,这
需要
1小时30分钟。我尝试过
在
不合并的情况下重新分区(dataframe_1.rdd.repartition(
浏览 71
提问于2019-05-18
得票数 2
1
回答
在
启用了推测的情况下,如何在Spark中管理
写入
?
、
、
假设我有一个Spark2.x应用程序,它启用了猜测(spark.speculation=true),它将
数据
写入
到
HDFS
上
的特定位置。现在,如果任务(将
数据
写入
HDFS
)
需要
很长
时间
,Spark将在另一个执行器
上
创建同一任务的副本,并且这两个作业将并行运行。 Spark是如何处理这个问题的?显然,这两个任务不应该同时尝试
在
同一文件位置
写入
数据
(
浏览 9
提问于2020-12-11
得票数 0
2
回答
了解MapReduce性能?
、
、
、
在
Hadoop中实现的MapReduce算法的性能主要受什么因素影响?我想知道磁盘
写入
的开销是否远远大于
在
节点处理大量
数据
所需的计算
时间
浏览 0
提问于2013-02-04
得票数 1
回答已采纳
1
回答
处理大
数据
中的复杂连接
、
、
、
、
在
设计报表时,我们可能
需要
加入许多表。例如,我
需要
加入四或五个表才能得到客户的电子邮件地址。(多亏了我们使用的电信模式) 我试图
在
hdfs
(或者s3)中设计一个
数据
仓库。为了将emaill地址和自定义In
写入
到单元格
上
的表中:我
需要
使用sqoop命令将五个表中的全部
数据
提取到
hdfs
中。那我就得加入蜂巢里的这些桌子。因此,这个过程可能会持续
很长
时间
来获取电子邮件
浏览 1
提问于2017-09-07
得票数 0
回答已采纳
1
回答
如何在多个
数据
中心上进行flink检查点/保存点备份
、
我有flink应用程序,将在DC-1 (
数据
中心1)的节点
上
运行,我们计划使用
HDFS
或AMAZON-S3备份保存点和检查点状态。我的组织中对
HDFS
和S3的支持是,它不会将
写入
DC-1的
数据
复制到DC-2 (他们正在做这件事,但
时间
线
很长
)。考虑到这一点,有没有一种方法可以让flink本身以某种方式将flink检查点/保存点
写入
两个DC?谢谢
浏览 18
提问于2021-11-22
得票数 0
5
回答
在
文件分区为日期的情况下,从kafka
写入
hdfs
的最有效方法是什么
、
、
我正在做的项目,应该写通过kafka到
hdfs
。假设有在线服务器将消息
写入
kafka。每条消息都包含
时间
戳。我想创建一个作业,根据消息中的
时间
戳,输出将是一个或多个文件。例如,如果kafka中的
数据
是 ...它应该创建一个文件 kafka_file_2013-07-01_17_2.json // second chunk of
浏览 0
提问于2013-07-02
得票数 11
回答已采纳
1
回答
带有混合输出端点的Mapreduce作业: S3和
HDFS
、
、
、
、
我有一个MR作业运行在电子病历,它存储的输出目前
在
S3。还原器的输出将是同一个映射器(想想标识映射器)的输入,我希望尽可能快地执行连续运行,而不是等待EMR
写入
S3,然后
在
“x”分钟之后安排映射器读取
数据
。写和读S3
需要
一段
很长
的
时间
(~3-5分钟),所以我想知道是否有一种方法可以避免连续运行时阅读S3? 此外,我还
需要
将mapreduce作业的输出
写入
S3,因为这些
数据
对我很重要,
需要
持久化。但是
浏览 3
提问于2016-05-27
得票数 1
2
回答
将
HDFS
数据
导入到Opentsdb
、
、
我想知道是否有可能直接将
数据
从
HDFS
导入到Opentsdb。你能给我举一些例子/提示吗?我尝试使用exec,但没有成功的结果: hadoop jar path.jar org.apache.solr.hadoop.HdfsFindTool -find
hdfs
:///path -type
浏览 0
提问于2015-04-17
得票数 1
1
回答
用于
HDFS
的EC2实例存储的最优RAID配置
、
、
、
、
我试图确定在用于
HDFS
的3xd2.2x大型实例的实例存储
上
配置RAID数组是否有任何实际优势。最初,我计划只挂载每个商店,并将其添加为Hadoop的附加
数据
目录。由于耐久性是由
HDFS
本身处理的,因此没有必要从这个角度考虑RAID 1或5(例如:如果一个或所有存储
在
一个实例
上
失败,则通过从其他
数据
节点复制来提供持久性)。RAID 6似乎不切实际,因为已知的问题有
很长
的重建
时间
,并且由于2x奇偶
写入
降低了吞吐量性能(
浏览 0
提问于2020-06-25
得票数 0
回答已采纳
1
回答
如何提高蜂窝的速度
、
、
我从twitter收集
数据
并将其存储
在
hdfs
上
。我想根据
时间
戳对这些tweet进行排序,但这个查询
需要
很长
时间
。 1.5 gb的
数据
需要
1分钟来排序,我认为这比预期的要多得多。
浏览 4
提问于2015-08-21
得票数 0
1
回答
未完成dataproc群集更新(调整大小)命令
我们有一个针对大型作业动态调整大小的dataproc集群。我提交了一个集群大小调整请求,将我们的集群从10个工作者,3个抢占式工作者减少到它的原始大小(1M,2个工作者),但这在一个小时后仍然没有完成。
浏览 5
提问于2018-04-21
得票数 1
1
回答
反映
hdfs
中大表的变化
、
我
在
OLTP系统中有一个订单表。每个订单记录都有一个OrderStatus字段。 我想在
hdfs
层
上
设计和填充
数据
仓库和
数据
集市。为了设计
数据
集市,我
需要
将整个order表导入到
hdfs
,然后
需要
不断地反映表
上
的更改。首先,我可以
在
初始加载过程中使用sqoop将
浏览 0
提问于2017-09-07
得票数 0
3
回答
写入
HDFS
或Hbase的内容是否立即对Hadoop群集中的所有其他节点可见?
、
、
、
当Hadoop作业正在运行或正在进行时,如果我向
HDFS
或Hbase
写入
某些内容,那么该
数据
是否对群集中的所有节点都可见2.)如果不是立即,那么
在
多长
时间
后?3.)或者
时间
真的无法确定?
浏览 1
提问于2012-02-12
得票数 5
回答已采纳
1
回答
SAS到HIVE2 Cloudera -试图
写入
错误
、
、
在
试图
在
hive2 db
上
写入
时,我有以下错误:当试图
写入
新表或将行追加到现有表时,会出现此错误。
浏览 5
提问于2022-02-10
得票数 0
1
回答
不带分区按键
写入
多个输出
、
、
我有一个PySpark
数据
文件,其中包含600万人的记录,每个记录都有一个单独的userid。每个userid都有2000个条目。实际
上
,我并不关心这一点,因为我要将这些文件中的每一个
写入
另一个非
HDFS
服务器。output_file = '/path/to/some/
hdfs
/location' myDF.write.parti
浏览 0
提问于2018-11-09
得票数 0
1
回答
在
通过
hdfs
连接器从kafka
写入
时,是否有一种限制avro文件大小的方法?
、
、
、
目前,我们使用Flink FsStateBackend检查点并设置fileStateSizeThreshold,将
写入
HDFS
上
avro/json文件的
数据
大小限制
在
128 on。
在
检查点操作延迟一定
时间
后也关闭文件。由于我们
在
新项目中没有使用高级Flink特性,所以我们希望使用Kafka Connect
HDFS
Connector中的Kafka流直接将消息
写入
hdfs
(而不是旋转Fl
浏览 0
提问于2018-08-08
得票数 1
回答已采纳
1
回答
spark
在
HDFS
上
读取压缩的json
需要
很长
时间
、
、
我
在
硬盘上有两个压缩的json文件(bz2)。我得把它们装进火种。为此,我首先启动了pyspark (shell),然后执行以下查询: [Stage 0:> (8 + 4) /
浏览 7
提问于2021-02-19
得票数 0
1
回答
如何减少
HDFS
namenode中较大的性能差异
、
我
在
HDFS
namenode (v2.7)响应
时间
上
遇到了严重的性能问题。特别是
在
流量高峰期,我的
HDFS
namenode超载,一些DFS操作(如列出目录)可能
需要
很长
时间
,这会影响我的Presto和其他Hadoop应用程序的查询响应
时间
。对解决方案有什么建议吗?
浏览 25
提问于2019-06-15
得票数 0
1
回答
Spark结构化流运行过程中Presto的"not a Parquet file (太小)“
、
、
、
、
我有一个管道设置,从Kafka读取
数据
,使用Spark结构化流处理
数据
,然后将拼花文件
写入
HDFS
。
数据
查询的下游客户端使用Presto配置,以便将
数据
作为Hive表读取。星火作业
在
HDFS
上
创建一个零长度的Parquet文件。我希望能够连续
写入
适当的
HDFS
文件夹,而不会干扰Presto查询。该文件
在
HDFS
上第一次可见为零长度文件,
在
:05处
浏览 3
提问于2017-11-16
得票数 1
回答已采纳
1
回答
是否可以使用GPHDFS从Greenplum同时指向多个Hadoop群集?
、
我们有一个Greenplum环境,目前我们已将gphdfs配置为支持从Greenplum
在
HDFS
上
写入
数据
。对于不同的用户,
需要
写入
不同的
HDFS
。是否可以为不同的用户配置不同的gphdfs配置,从而根据用户的不同,将
数据
写入
其对应的已配置
HDFS
上
?预期结果:从用户1开始,当我创建可写的外部表时,Location属性将类似于LOCATION (‘gphdfs:/
浏览 44
提问于2019-05-02
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hadoop 存储-HDFS介绍
深度分析分布式文件系统(Hadoop HDFS)客户端写入机制
唯品会高吞吐量Access Log存储的实现
走进大数据 HDFS
分布式文件系统的备份
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券