腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8220)
视频
沙龙
1
回答
InputSplit大小或地图任务的数量是否受输入文件数量的影响
、
、
如果我有许多
小文件
(~
HDFS
块大小)
和
几个
大文件
,作业产生的映射任务数是否会有所不同
浏览 0
提问于2013-02-09
得票数 1
回答已采纳
3
回答
Hadoop滚动
小文件
、
、
、
还有人建议不要使用许多/
小文件
。有什么建议吗?
浏览 0
提问于2010-11-16
得票数 1
2
回答
R将大型CSV文件转换为
HDFS
、
、
、
、
这将留下一个巨大的CSV文件,将其转换为
HDFS
是否有意义,以便能够进行相关分析?除了this...or之外,对每个csv文件分别进行分析,然后在最后将其合并,会更有意义吗?我在想,也许是一种分布式文件
系统
,并使用amazon上的一组机器来高效地执行分析。看看rmr ,它将数据转换成
HDFS
,但显然对于真正大的data...how来说这并不令人惊讶,人们会以一种允许高效分析的方式转换csv吗?
浏览 7
提问于2015-02-14
得票数 0
3
回答
在hadoop中存储多个
小文件
的最佳位置是什么?
、
、
、
、
我将有多个大小约为10 or的小文本文件,弄不清楚这些文件在HBase或
HDFS
中的存储位置。什么是优化的存储?因为要存储在HBase中,我需要先解析它,然后根据某个行键保存它。在
HDFS
中,我可以直接创建一个路径并将该文件保存在该位置。但是直到现在,不管我读到了什么,它都说你不应该有多个
小文件
,而应该创建更少的
大文件
。但是我不能合并这些文件,所以我不能用
小文件
创建
大文件
。
浏览 6
提问于2016-06-23
得票数 0
回答已采纳
1
回答
使用文件中的数据作为映射减少作业Hadoop中的哈希映射
、
、
我有一个文件有10,000行(“
小文件
”)有键,值不同的键在
小文件
中可以有相同的值。只有在把它算进减速机之后。你能帮我并指导我怎么做吗?
小文件
将在
hdfs
上运行,我不确定其他节点如何能够从中读取数据--甚至不建议这样做--因为带有
小文件
的节点必须非常努力地向每个映射任务发
浏览 5
提问于2015-09-18
得票数 1
回答已采纳
1
回答
当我使用FileSystem.get(URI.create("
hdfs
://loacalhost:9000/filepath"),conf时发生了什么?
、
、
、
在一个需要我优化
HDFS
小文件
支持的项目中,我感到困惑。其步骤如下:
hdfs
fs -put ~/local/smallfile /usr/smallfile。但是如果我的项目正常,
小文件
应该存储到HBase,那么当我在代码中使用
浏览 0
提问于2015-05-31
得票数 0
2
回答
如何提高大量
小文件
的读写速度?
、
、
、
、
我的工作是提高从磁盘读取大量
小文件
(1KB)写入数据库的速度。数据库对我来说是开源的,我可以将所有代码从客户端更改为服务器端。数据库架构是,它是一个简单的主从式分布式
HDFS
数据库,类似于HBase。磁盘中的
小文件
可以自动插入到我们的数据库中,并自动组合成较大的块,然后写入
HDFS
。(
大文件
也可以被数据库拆分成较小的块,然后写入
HDFS
)
浏览 2
提问于2015-09-07
得票数 0
1
回答
如何在hadoop中一次处理多个文本文件进行分析
、
、
、
、
我有很多
小文件
,比如说50000多份。我需要一次处理这些文件,使用map约简概念来生成一些基于输入文件的分析。 请建议我这样做,同时也请告诉我如何使用
hdfs
将这个
小文件
合并成一个
大文件
。
浏览 5
提问于2014-12-17
得票数 0
回答已采纳
1
回答
使用Delta,如何在压缩后删除原始文件
、
、
、
基本上,我有一个火花流工作(与增量)写一个
小文件
到
hdfs
每5分钟。我还有一个压缩作业,每天运行,将前一天的数据压缩到一些
大文件
中(文件的#取决于作业重新分区号)。
大文件
与原始
小文件
位于同一个目录中。是否有任何方法有效地删除原来的
小文件
,因为它们是无用的?spark.read()
浏览 5
提问于2021-06-29
得票数 2
1
回答
Hadoop多个-put命令减速
、
我正在尝试将大量数据(几千个文件加到19 to )复制到Hadoop集群中。我在文件的子集上运行bash循环,运行的循环越多,所有复制的东西就越慢 do cat $filename | ssh user@hadoop "hadoop fs -put - /path/to/new/data/$filename"; 当我在集群上移动数据时,也会出现同样的问题,所以我不认为是通过网络复制造成问题的。编辑:集群
浏览 0
提问于2016-12-07
得票数 0
回答已采纳
1
回答
为什么我应该避免在Hadoop中存储大量的
小文件
?
、
我读过很多存储在
HDFS
中的
小文件
可能是一个问题,因为很多
小文件
意味着很多对象Hadoop NameNode内存。但是,由于每个块都作为一个对象存储在指定的节点中,那么对于一个
大文件
来说,它有什么不同呢?既然它们是在块上操作,那么块是
小文件
还是
大文件
又有什么关系呢?
浏览 0
提问于2017-10-21
得票数 1
回答已采纳
1
回答
HDFS
(序列文件)中的单个
大文件
还是多个
小文件
?
、
目前,我正在使用Sequence File压缩现有的
HDFS
数据。 尽可能将
小文件
浏览 1
提问于2017-03-11
得票数 0
回答已采纳
2
回答
将
小文件
合并为用于Hadoop分布式缓存的
大文件
?
、
我有很多
小文件
(大小约1MB)需要分发。众所周知,Hadoop
和
HDFS
更喜欢
大文件
。但我不知道这是否也适用于分布式缓存,因为分布式文件存储在本地计算机上。如果它们需要合并,在
HDFS
上以编程方式合并文件的最佳方式是什么? 还有一个问题:使用symlink的好处是什么?谢谢
浏览 1
提问于2013-04-07
得票数 2
回答已采纳
3
回答
合并小型
HDFS
数据块的最简单方法是什么?
、
、
我用Flume把日志收集到
HDFS
上。对于测试用例,我有很小的文件(~300kB),因为日志收集过程是根据实际使用进行扩展的。有没有什么简单的方法可以将这些
小文件
组合成更接近
HDFS
块大小(64MB)的
大文件
?
浏览 0
提问于2010-12-13
得票数 6
回答已采纳
4
回答
从Hadoop提供静态文件
、
、
、
、
我的工作是为静态图像/视频文件设计一个分布式
系统
。数据的大小大约是几十兆字节。更清楚一点的是,这是一个
系统
: Hadoop文件
系统
。我以前使用过Hadoop,但我没有使用Hadoop作为HTTP请求的静态文件存储库的经验。
浏览 11
提问于2013-06-02
得票数 4
回答已采纳
5
回答
HDFS
-加载大量文件
、
、
、
、
为了测试目的,我试图将大量的
小文件
加载到
HDFS
中。实际上,我们讨论的是大约100万(1'000'000)个大小为1KB到100 1KB的文件。我在一个文件夹中的Linux
系统
上用R脚本生成了这些文件。每个文件都有一个信息结构,其中包含一个带有产品信息的标头,以及包含数字信息的不同数量的列。问题是当我尝试用命令将这些本地文件上传到
HDFS
中时:
hdfs
dfs -copyFromLocal /home/user/Documents/smallD
浏览 2
提问于2015-08-13
得票数 2
3
回答
如何将
HDFS
小文件
合并为一个
大文件
?
、
、
、
我有从Kafka流生成的
小文件
的数量,所以我喜欢合并
小文件
到一个单一的文件,但这种合并是基于日期,即原始文件夹可能有以前的文件数量,但我只喜欢合并给定的日期文件到一个单一的文件。 有什么建议吗?
浏览 9
提问于2018-07-26
得票数 0
1
回答
HDFS
小文件
、
、
我有一个源,有许多
小文件
( mb),一些中等文件(1MB到5MB)
和
一些
大文件
(大于50MB) 现在可以选择将这些文件放入
HDFS
(合并文件)或HBase (作为MOBs)。就向最终用户摄取
和
显示文件的性能而言,推荐使用哪种方法?
浏览 1
提问于2015-08-29
得票数 1
2
回答
BlockSize与大数据
、
每个人都知道Hadoop对
小文件
的处理很差,因为它必须使用映射器的数量。但是
大文件
呢,它比块大小稍微大一点。例如,假设
hdfs
块大小为128 an,hadoop接收126 an至130 an之间的文件。126 to
和
128 to之间的文件适合存储在hadoop中,但是对于129 to 130 to的文件,hadoop需要2个映射器才能读取这些文件吗?如何在hadoop中处理这个问题,以克服
hdfs
块更大的事实? (预先谢谢:)
浏览 3
提问于2016-02-29
得票数 0
回答已采纳
1
回答
HDFS
Balancer -适用于包含1KB文件的群集
我有一个包含3个节点的
HDFS
集群。该集群包含大量
小文件
(KB),我已经达到了每个节点数百万个数据块。 我又向集群中添加了4台新服务器,并启动了均衡器进程,但看起来效果不是很好。-目标是减少每台服务器的数据块数量 为了平衡
小文件
,我应该更改以下参数的值以支持从1KB大小的文件移动吗?Ddfs.balancer.getBlocks.min-block-size=1048 **我确实知道
HDFS
应该管理
大文件
-处理压缩
浏览 25
提问于2021-10-16
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【大数据】Hive 小文件治理和 HDFS 数据平衡讲解
大数据 HDFS 小文件处理方案
HDFS,你必须知道,你必须测试
大数据开发之用CombineFileInputFormat优化Hadoop小文件
Hadoop 存储-HDFS介绍
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券