hadoop存储小文件

好的，我来回答这个问题。

首先，我们需要了解一下Hadoop这个概念。Hadoop是一个开源的分布式存储和分布式处理大数据的框架，它基于Google的MapReduce和HDFS（Hadoop Distributed File System）技术，可以处理大量的数据集。Hadoop可以在廉价的硬件上运行，因此成为了大数据处理的首选框架之一。

在Hadoop中，存储小文件的问题是一个常见的问题。由于Hadoop的设计原则是将数据分块存储，每个块的大小默认为64MB，因此如果存储的文件小于64MB，那么Hadoop会为每个文件分配一个完整的块，这会导致存储空间的浪费。

为了解决这个问题，Hadoop提供了一些解决方案，例如：

Hadoop Archive（HAR）：Hadoop Archive是一种将多个小文件打包成一个大文件的方式，以便在Hadoop中进行存储。这种方式可以减少Hadoop存储空间的浪费，但是会增加文件的读取时间。
SequenceFile：SequenceFile是一种将多个小文件合并成一个SequenceFile文件的方式。与Hadoop Archive不同，SequenceFile可以保留原始文件的元数据信息，因此在读取文件时可以更快地定位到需要的文件。
CombineFileInputFormat：CombineFileInputFormat是一种将多个小文件合并成一个大文件的方式，与Hadoop Archive和SequenceFile不同，它可以在MapReduce作业中直接使用，无需额外的数据转换步骤。

总之，Hadoop存储小文件的问题是一个常见的问题，但是Hadoop提供了一些解决方案，可以减少存储空间的浪费，同时提高文件的读取速度。

页面内容是否对你有帮助？

有帮助

没帮助

Hadoop如何拆分和合并其输出数据？

、、

假设您正在HDFS上存储一个映像。该映像足够大，在HDFS上被分成四个独立的较小文件。当您执行返回该图像的操作时，Hadoop是否会返回这4个可以组合成原始图像的小文件？或者Hadoop会自动将这4个小文件重新组合成原始文件吗？谢谢!

浏览 2提问于2012-07-10得票数 0

回答已采纳

1回答

是否可以在hadoop中创建/使用非paralleized文件？

我们总是说，如果我们使用hadoop来模仿我们的数据和程序，那么速度会有多快。我想知道，是否有可能将一个小文件保存在一个特定的dataNode(而不是paralleized)中？

浏览 3提问于2017-11-27得票数 0

回答已采纳

1回答

Hadoop SequenceFile -记录的自动增量键

、、、、

我正在考虑使用SequenceFile作为“小型数据库”来存储小文件。我需要这个并发客户端可以在这个SequenceFile中存储小文件并检索唯一的id (记录的键)。如果是，请张贴一个小的例子(或一些参考)，如果没有。我能用hadoop做什么来满足我的需要？

浏览 1提问于2015-10-27得票数 0

回答已采纳

1回答

HDFS EC为什么小文件变大

、

这是EC存储的文件-rwx--x--x 1 hiidoagent hdfs RS-6-3-1024k 3846 2022-09-08 21:2845.6 K hdfs://yycluster06/hive_warehouse/freshman.db/ec_hive_hot_data_top/dt=20220912 对于与3xReply相同大小的小文件

浏览 10提问于2022-09-13得票数 0

5回答

小文件和HDFS数据块

、

Hadoop分布式文件系统中的一个块是存储多个小文件，还是一个块只存储一个文件？

浏览 5提问于2011-12-19得票数 12

回答已采纳

1回答

如何在Google Cloud Storage中存储大量的小HTML文件来优化Dataproc？

、、

我们目前在谷歌存储上有很多(200M+)的小文件。我们希望能够将所有这些文件放入Hadoop ( MapReduce或Spark)进行处理。然而，我的理解是，当列出和读取大量小文件时，Dataproc的性能会很差，Hadoop也是如此。所以我的问题是，我应该如何将大量的小文件捆绑成更大的文件，以便高效地列出和读取？我考虑过使用avro，只是将HTML作为字节字段存储在avro记录中，但我不认为avro真的是为这种用例而设计的。

浏览 55提问于2018-12-20得票数 0

1回答

有没有可能在Apache Flume中加入很多文件？

、

我们的管理层希望使用Hadoop集群来分析和存储这些文件。但是在hadoop中存储小文件并不是很有效。在hadoop或Flume中是否有任何选项来加入(创建一个大文件)此文件？非常感谢你的帮助。

浏览 4提问于2018-05-04得票数 1

1回答

为什么我应该避免在Hadoop中存储大量的小文件？

、

我读过很多存储在HDFS中的小文件可能是一个问题，因为很多小文件意味着很多对象Hadoop NameNode内存。但是，由于每个块都作为一个对象存储在指定的节点中，那么对于一个大文件来说，它有什么不同呢？无论您是将单个文件中的1000个块存储在内存中，还是将1000个块存储在1000个文件中，使用的NameNode内存量是否相同？地图作业的类似问题。既然它们是在块上操作，那么块是小文件还是大文件又有什么关系呢？

浏览 0提问于2017-10-21得票数 1

回答已采纳

2回答

BlockSize与大数据

、

每个人都知道Hadoop对小文件的处理很差，因为它必须使用映射器的数量。但是大文件呢，它比块大小稍微大一点。例如，假设hdfs块大小为128 an，hadoop接收126 an至130 an之间的文件。126 to和128 to之间的文件适合存储在hadoop中，但是对于129 to 130 to的文件，hadoop需要2个映射器才能读取这些文件吗？如何在hadoop中处理这个问题，以克服hdfs块更大的事实？ (预先谢谢:)

浏览 3提问于2016-02-29得票数 0

回答已采纳

1回答

使用火花流将非结构化数据持久化到hadoop

、、、

我有一个使用火花流创建的吞食管道，我希望将RDDs存储在hadoop中，作为一个大型的非结构化(JSONL)数据文件来简化未来的分析。在没有大量小文件的情况下，将astream持久化到hadoop的最佳方法是什么？(因为hadoop不擅长这些，而且它们使分析工作流复杂化)

浏览 2提问于2015-04-27得票数 1

回答已采纳

4回答

是否将多个文件存储在单个块中？

、

当我将许多小文件存储到HDFS中时，它们是否会存储在单个数据块中？在我看来，根据下面的讨论，这些小文件应该存储到单个块中：

浏览 0提问于2014-01-22得票数 4

1回答

在Ubuntu上模拟Hadoop集群

、、、

我承认我是hadoop的新手，所以请容忍我。有没有什么办法可以在一个ubuntu安装上模拟多个节点来执行完全分布式的hadoop操作？如果我的问题中有逻辑上的缺陷和事实上的不准确，我再次道歉。正如我所说的，我是Hadoop的新手。

浏览 1提问于2013-09-16得票数 0

1回答

将记录存储在HDFS或HBase中

、

测量是在Hadoop上使用机器学习算法处理的。并不是所有的测量都是针对特定用户的，而是针对特定的用户(例如，对Y-Z期间上传的用户X中的文件执行处理) 如果答案是肯定的，我可以使用哪些数据库？所以我需要数据库是：兼容H

浏览 5提问于2015-11-04得票数 2

回答已采纳

1回答

HDFS:如何在不同的范围内分发小尺寸的文件？

、、、

我有大量的小文件要存储在HDFS中。根据文件名，我希望将它们存储在不同的数据节点中。通过这种方式，我可以实现文件名，从特定的字母开始进入特定的数据节点。怎么在Hadoop做这件事？

浏览 0提问于2013-09-16得票数 0

回答已采纳

1回答

将包含许多文本文件的文件夹插入到Hadoop中

、

我如何才能将包含所有.txt文件的文件夹放到Hadoop中，而不是分别上传每个文件？我正在使用带有Hadoop 3.1.2的Ubuntu操作系统

浏览 17提问于2020-11-17得票数 0

2回答

如何将百万歌曲数据集等大数据集加载到BigData HDFS、Hbase、Hive？

、、、、

我已经下载了百万首歌曲数据集的一个子集，大约2 2GB。但是，数据被分解为文件夹和子文件夹。在子文件夹中，它们都是几种“H5文件”格式。我知道它可以用Python来读取。但是我不知道如何提取并加载到HDFS中，这样我就可以在Pig中运行一些数据分析。我是否将它们提取为CSV并加载到Hbase或Hive？如果有人能帮我找到合适的资源会很有帮助。

浏览 0提问于2015-10-10得票数 0

4回答

从Hadoop提供静态文件

、、、、

Hadoop文件系统。我以前使用过Hadoop，但我没有使用Hadoop作为HTTP请求的静态文件存储库的经验。所以我不知道这是可能的还是推荐的方法。 MogileFS。

浏览 11提问于2013-06-02得票数 4

回答已采纳

2回答

解析数百万个小型XML文件

、、、

我有1000万个小型XML文件(300.i 500.i)，我使用Mapreduce中Mahaout的XML输入格式读取数据，我使用SAX Parser进行解析。但是处理是非常slow.will的，使用输入文件的压缩(Lzo)有助于提高性能?每个文件夹包含80-90k xml文件，当我启动该进程时，它会为每个file.is运行映射器，有什么方法可以减少映射器的使用吗？

浏览 1提问于2015-09-16得票数 0

回答已采纳

5回答

HDFS -加载大量文件

、、、、

为了测试目的，我试图将大量的小文件加载到HDFS中。实际上，我们讨论的是大约100万(1'000'000)个大小为1KB到100 1KB的文件。

浏览 2提问于2015-08-13得票数 2

1回答

如何使用Hadoop* MapReduce处理一个二维数组，每个文件一个？*

、

我需要将文件作为一个单元来读取和处理，而不是逐行读取和处理，并且不清楚如何在Hadoop MapReduce应用程序中这样做。在这种情况下，第一项任务可能是将输入文件合并成序列文件，如权威Hadoop‘’Reilly一书(第二版第194页)中的SmallFilesToSequenceFileConverter示例所示？

浏览 1提问于2012-07-03得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

hadoop存储小文件

相关·内容

Hadoop如何拆分和合并其输出数据？

是否可以在hadoop中创建/使用非paralleized文件？

Hadoop SequenceFile -记录的自动增量键

HDFS EC为什么小文件变大

小文件和HDFS数据块

如何在Google Cloud Storage中存储大量的小HTML文件来优化Dataproc？

有没有可能在Apache Flume中加入很多文件？

为什么我应该避免在Hadoop中存储大量的小文件？

BlockSize与大数据

使用火花流将非结构化数据持久化到hadoop

是否将多个文件存储在单个块中？

在Ubuntu上模拟Hadoop集群

将记录存储在HDFS或HBase中

HDFS:如何在不同的范围内分发小尺寸的文件？

将包含许多文本文件的文件夹插入到Hadoop中

如何将百万歌曲数据集等大数据集加载到BigData HDFS、Hbase、Hive？

从Hadoop提供静态文件

解析数百万个小型XML文件

HDFS -加载大量文件

如何使用Hadoop* MapReduce处理一个二维数组，每个文件一个？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐