HDFS全称为Hadoop Distributed File System,是Hadoop生态系统中的一部分。HDFS是一个分布式文件系统,旨在运行于大规模数据集的分布式环境中,具有高度容错性和高度可用性。HDFS的设计目标是能够管理超大规模的数据集,支持高吞吐量数据访问,适用于部署在廉价硬件上的环境中。
HDFS主要由以下两个组件组成:
HDFS使用一种称为块(Block)的数据单元来组织和管理文件数据。它将每个文件分成固定大小的块,通常为64MB或128MB,然后将这些块分布在不同的DataNode上,以实现数据的冗余和可靠性。HDFS还提供了数据访问和安全性等方面的支持,如文件读写权限控制、数据压缩和加密等。