首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Hadoop HDFS 常用文件操作命令

命令基本格式: 1 hadoop fs -cmd ---- ls 1 hadoop fs -ls / 列出hdfs文件系统根目录下的目录和文件 1 hadoop fs -ls -...R / 列出hdfs文件系统所有的目录和文件 ---- put 1 hadoop fs -put hdfs file > hdfs file的父目录一定要存在,否则命令不会执行...> 目标文件不能存在,否则命令不能执行,相当于给文件重命名并保存,源文件还存在 hadoop fs -cp hdfs file or dir >… hdfs dir > 目标文件夹要存在,否则命令不能执行...---- setrep 1 hadoop fs -setrep -R 3 hdfs path > 改变一个文件在hdfs中的副本个数,上述命令中数字3为所设置的副本个数,-R选项可以对一个人目录下的所有目录...hadoop.har的文件存放在hdfs中/des目录下 显示har的内容可以用如下命令: 1 hadoop fs -ls /des/hadoop.jar 显示har压缩的是那些文件可以用如下命令 1

2.3K20

hadoop HDFS常用文件操作命令

命令基本格式: hadoop fs -cmd 1. ls  列出hdfs文件系统根目录下的目录和文件 hadoop fs -ls /dir hadoop fs -ls -R /dir...5.mkdir hadoop fs -mkdir hdfs path> --只能一级一级的建目录,父目录不存在的话使用这个命令会报错 hadoop fs -mkdir -p hdfs path>...--所创建的目录如果父目录不存在就创建该父目录 6.cp hadoop fs -cp hdfs file> hdfs file> -- 目标文件不能存在,否则命令不能执行,相当于给文件重命名并保存...,源文件还存在 hadoop fs -cp hdfs file or dir> hdfs dir> --目标文件夹要存在,否则命令不能执行 8.mv   移动 hadoop fs -mv hdfs...注意:跨文件系统的移动(local到hdfs或者反过来)都是不允许的 9.count  hadoop fs -count hdfs path> --统计hdfs对应路径下的目录个数,文件个数,文件总计大小

1.1K70
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Hadoop中HDFS读取文件的原理剖析

    上一篇文章中简单介绍了一下Hadoop文件存储的一些逻辑与简单原理(见 http://www.linuxidc.com/Linux/2015-02/113638.htm),既然后写入,那肯定要读取分析数据咯...,下面我在白话一下hdfs中文件读取的逻辑与简单原理。...namenode,namenode里面存储的都是文件命名空间,也就是文件存储在datanode的地址,我们首先获取到要想读取的文件头所在的位置,块中存在很多个数据节点副本,hadoop会根据一定的标准找到距离客户端最近的一个节点...在之前我们一直提到的hadoop的寻找最近的块或者节点的机制是如何实现呢? 我们都知道。在大数据存储中,限制效率的最主要因素就是带宽。...hadoop将网络看成一棵树,两个节点间的距离是距离它们最近的共同祖先的总和。

    52530

    Hadoop中HDFS写入文件的原理剖析

    要为即将到来的大数据时代最准备不是,下面的大白话简单记录了Hadoop中HDFS在存储文件时都做了哪些个事情,位将来集群问题的排查提供一些参考依据。...步入正题 创建一个新文件的过程: 第一步:客户端通过DistributedFilesystem 对象中的creat()方法来创建文件,此时,RPC会 通过一个RPC链接协议来调用namenode,并在命名空间中创建一个新文件...大家此时可能要问了,如果在复制过程中管线中的某一个datanode 发生了故障,hadoop是如何处理的呢?...,将故障节点告知namenode、由此下次故障节点恢复后能将里面残留的不完整的副本文件清空。...其实这种情况很少发生但林子大了什么鸟都有是不是,我们在部署hadoop 有一个配置选项:dfs.replication.min  一般默认是1 ,意思就是说只要有一个节点成功,则hdfs就认为本次写入时成功的

    79220

    Hadoop的HDFS和MapReduce

    HDFS HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,它具有以下几个特点: 1)适合存储非常大的文件 2)适合流式数据读取,即适合“只写一次,读多次”的数据处理模式 3)适合部署在廉价的机器上...,HDFS选择前者 3)不适合需要经常修改数据的场景 HDFS的架构如上图所示,总体上采用了Master/Slave的架构,主要有以下4个部分组成: 1、Client 2、NameNode 整个HDFS...在Hadoop 中,任务调度器是一个可插拔的模块,用户可以根据自己的需要设计相应的调度器。...3)TaskTracker TaskTracker 会周期性地通过Heartbeat 将本节点上资源的使用情况和任务的运行进度汇报给JobTracker,同时接收JobTracker 发送过来的命令并执行相应的操作...一个Task 获取到一个slot 后才有机会运行,而Hadoop 调度器的作用就是将各个TaskTracker 上的空闲slot 分配给Task 使用。

    45640

    【Hadoop研究】Hadoop分布式文件系统HDFS的工作原理详述

    Hadoop分布式文件系统(HDFS)是一种被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。...它能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。要理解HDFS的内部工作原理,首先要理解什么是分布式文件系统。...存储在HDFS上的每份数据片有多份副本(replica)保存在不同的服务器上。在本质上,NameNode是HDFS的Master(主服务器),DataNode是Slave(从服务器)。...3、HDFS写过程 NameNode负责管理存储在HDFS上所有文件的元数据,它会确认客户端的请求,并记录下文件的名字和存储这个文件的DataNode集合。它把该信息存储在内存中的文件分配表里。...4、HDFS读过程 为了理解读的过程,可以认为一个文件是由存储在DataNode上的数据块组成的。

    1.3K70

    Hadoop中HDFS的存储机制

    HDFS(Hadoop Distributed File System)是Hadoop分布式计算中的数据存储系统,是基于流数据模式访问和处理超大文件的需求而开发的。...此外,NameNode还保存了一个文件包括哪些数据块,分布在哪些数据节点上。然而,这些信息不存放在硬盘上,而是在系统启动的时候从数据节点收集而成的。...元数据节点首先确定文件原来不存在,并且客户端有创建文件的权限,然后创建新文件。 DistributedFileSystem返回DFSOutputStream,客户端用于写数据。...所以,HDFS请求读取整个数据集要比读取一条记录更加高效。 3)可以运行在比较廉价的商用机器集群上。...横向扩展,一个Hadoop集群能管理的小文件有限,那就把几个Hadoop集群拖在一个虚拟服务器后面,形成一个大的Hadoop集群。google也是这么干过的。多Master设计,这个作用显而易见了。

    1.2K20

    hadoop中HDFS的NameNode原理

    1. hadoop中HDFS的NameNode原理 1.1. 组成 包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等。 1.2....HDFS架构原理 比如现在要上传一个1T的大文件,提交给HDFS的Active NameNode(用以存放文件目录树,权限设置,副本数设置等),它会在指定目录下创建一个新的文件对象,比如access_...20180101.log 至于具体数据,它会将它拆分后进行分布式存储,分散在各个DataNode节点,且默认都会有3个副本,防止其中一台机器宕机使得数据缺失 这里图之所以这么复杂,原因在于大量的请求提交给...因为为了防止Active NameNode突然宕机后,我们需要进行恢复,它的恢复是基于磁盘上的edits log的,和redis的aof相同的道理,它需要重新运行一遍日志中的所有命令,当时间长了后日志可能会很大...参考: 用大白话告诉你小白都能看懂的Hadoop架构原理 大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问

    67910

    Hadoop入门 hdfs的shell操作

    电脑中的浏览器 网址:http://虚拟机的ip地址:50070 打开 Utilities 下的 Browse the file system 命令行查看文件 hadoop fs -ls / [hzlom6es5o.jpg...根目录 > taigong > test 创建文件夹1.jpg 创建文件夹2.jpg 将文件上传到新建的文件夹中 语法: hadoop fs -put 需上传的文件路径 上传到的文件夹路径 示例: hadoop...需要下载的文件路径 下载后的文件路径 示例: hadoop fs -get /taigong/test/dashuju.txt Haha.txt 下载文件.jpg 移动文件 从根目录>taigon>test...移动到根目录>user 语法: hadoop fs -mv 需要移动的文件路径 移动后的文件夹路径 示例: hadoop fs -mv /taigong/test/dashuju.txt /user 移动文件....jpg 删除文件 将文件夹taigong删除 语法: hadoop fs -rm -r 需要删除的文件 示例: hadoop fs -rm -r /taigong 删除文件.jpg

    45320

    HDFS的高级命令使用——文件限额配置(4)

    相信看过小菌之前的博客《HDFS的shell常用命令大全》的小伙伴们,肯定对于HDFS的shell常用命令已经不满足了,那么这篇博客,小菌为大家带来的是HDFS的高级命令使用——文件限额配置...首先让我们来看看这个命令的作用吧~ hdfs文件的限额配置允许我们以文件大小或者文件个数来限制某个目录下上传的文件数量或者文件内容总量,以便达到我们类似百度网盘网盘等限制每个用户允许上传的最大的文件的量...我们可以从上述知道HDFS限额配置可以从文件数量限额和空间大小限额两个方面来进行约束,那具体的命令又该如何使用呢?...,上传文件,发现只能上传一个文件 hdfs dfsadmin -clrQuota /user/root/lisi # 清空文件夹的数量限制 空间大小限额 hdfs dfsadmin -setSpaceQuota.../root/lisi # 上传一个超过4KB的文件 #上传超过4Kb的文件大小上去提示文件超过限额 hdfs dfsadmin -clrSpaceQuota /user/root/lisi #清除空间限额

    64410

    Hadoop学习指南:探索大数据时代的重要组成——HDFS(上)

    HDFS HDFS概述 1.1 HDFS 产出背景及定义 1)HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件...2)HDFS定义 HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目 录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,...3)可构建在廉价机器上,通过多副本机制,提高可靠性。 HDFS缺点 1)不适合低延时数据访问,比如毫秒级的存储数据,是做不到的。 2)无法高效的对大量小文件进行存储。...NameNode 下达命令,DataNode执行实际的操作。 (1)存储实际的数据块; (2)执行数据块的读/写操作 3)Client:就是客户端。 (1)文件切分。...总结:HDFS块的大小设置主要取决于磁盘传输速率。 2.HDFS的Shell操作(开发重点) 2.1 基本语法 hadoop fs 具体命令 OR hdfs dfs 具体命令 两个是完全相同的。

    18810
    领券