文章/答案/技术大牛

发布

首页视频【赵渝强老师】Hadoop的本地模式

【赵渝强老师】Hadoop的本地模式原创

2024-08-082024-08-08 09:22:03播放385

点赞0 收藏 0

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
本节课我们将通过具体的实操步骤来演示如何部署hadoop的本地模式。在Hadoop的安装包中已经集成了HDFS和yarn HD FS是hadoop的分布式文件系统，YA2是hadoop的资源任务调度平台。Hadoop有三种不同的安装部署模式，1、本地模式。在这种模式下，Hadoop没有HDFS和err环境，只能测试map preduce程序所处理的数据也在本地文件系统。2、伪分布模式。这种模式是在单机上模拟一个hadoop集群，该模式具备hadoop的所有功能。3、全分布模式，这种模式是真正用于生产的模式。了解到了hadoop的部署模式后，下面通过具体步骤来演示式如何使用hadoop的本地模式。执行Echo命令。查看Java的安装目录，这里可以看到Java被安装到了root training jdk的目录下，使用TR命令将hadoop安装包解压到root training目录下。
01:00
使用C命令切换到该目录。为了操作方便，这里使用了MV命令修改了hadoop安装目录的名字。使用CD命令进入hadoop ETC hado目录。该目录是hadoop配置文件所在的目录，使用VI编辑器编辑hadopmv.sh文件，在该文件中设置Java home的值，如视频中红色所示，保存，退出该文件，创建一个新的目录用于保存测试数据。这里创建的目录是root temp, 并使用CD命令切换到该目录。使用VI编辑器在该目录下创建data textt文件，并输入三句话，分别是I love Beijing I love China Beijing is the capital of China. 通过观察可以看到这三句话中有些单词是重复出现的。保存，退出该文件。使用CD命令进入hadoop的安装目录。再次使用CD命令进入share hadoop mapproduce的子目录，使用export命令设置hado。
02:00
Tom的环境变量，该环境变量指向had doop的安装目录，再次使用export命令将had doop安装目录下的B目录和目录加入系统的pass路径中。这两个目录下存放的是hadoop的命令脚本。完成上面的步骤后，就可以在本地测试map reduce任务了。使用Hadoop jar命令运行官方提供的example jar包，该jar包中包含很多示例程序，这里运行的是word countt单词技术程序。运行程序时需要指定输入和输出的路径。注意，这里的输入和输出路径都是本地目录。程序运行完成后，使用CD命令进入输出目录，这里是root output WC执行LS命令查看该目录下的文件，这里可以看到两个文件，其中success是一个状态文件，不包含任何的内容，它只是表示该任务是执行成功的，在以part开头的文件中包含了最后的统计结果，执行cat命令查看该文件的内容。这里可以。
03:00
看到每个单词出现的频率就统计出来了，输出的结果还按照了单词的字典顺序进行了排序。现在你已经知道如何使用hadoop的本地模式了，那你知道如何部署hadoop的伪分布模式和群分布模式吗？欢迎评论区留言讨论好了，记得点加号关注赵玉强老师。

展开

我来说两句

0 条评论

登录后参与评论

作者

赵渝强老师

【合辑】大数据技术

（31/60）

1分9秒

【赵渝强老师】Hive的单字段动态分区表

1K0

1分9秒

【赵渝强老师】Hive的半自动动态分区表

6640

1分8秒

【赵渝强老师】Hive的多字段全动态分区表

4680

1分14秒

【赵渝强老师】Hive的分区表

3770

1分11秒

【赵渝强老师】Hive的静态分区表

6530

1分24秒

【赵渝强老师】Hive的数据模型

3770

1分34秒

【赵渝强老师】Hive的内部表

3730

1分25秒

【赵渝强老师】Hive的外部表

3690

1分41秒

【赵渝强老师】大数据技术的理论基础

3860

1分33秒

【赵渝强老师】大数据生态圈中的组件

3660

1分24秒

【赵渝强老师】大数据主从架构的单点故障

3420

1分35秒

【赵渝强老师】HDFS的HA

3720

3分53秒

【赵渝强老师】数据仓库与大数据

9770

1分15秒

【赵渝强老师】Spark中的RDD

1.1K0

2分27秒

【赵渝强老师】基于RBF的HDFS联邦架构

2.3K0

1分41秒

【赵渝强老师】Spark中的DStream

1.1K0

1分25秒

【赵渝强老师】Spark中的DataFrame

3540

2分29秒

【赵渝强老师】基于ViewFS的HDFS联邦架构

1.8K0

2分11秒

【赵渝强老师】Kafka分区的副本机制

3930

1分28秒

【赵渝强老师】Kafka的主题与分区

3530

2分39秒

【赵渝强老师】阿里云大数据生态圈体系

3660

2分14秒

【赵渝强老师】MapReduce计算模型

3580

2分33秒

【赵渝强老师】Hive的体系架构

3790

2分22秒

【赵渝强老师】HBase的表结构

3570

2分35秒

【赵渝强老师】HBase的体系架构

1.4K0

2分47秒

【赵渝强老师】Kafka的体系架构

3620

2分0秒

【赵渝强老师】数据集成的大数据流批一体架构

3880

2分18秒

【赵渝强老师】数据仓库的流批一体架构

3950

2分22秒

【赵渝强老师】数据湖的流批一体架构

3640

2分53秒

【赵渝强老师】HDFS数据上传的过程

3510

3分20秒

【赵渝强老师】Hadoop的本地模式

3850

2分43秒

【赵渝强老师】HDFS数据下载的过程

3700

3分20秒

【赵渝强老师】Flink生态圈组件

3570

3分14秒

【赵渝强老师】Yarn的资源调度策略

3430

3分48秒

【赵渝强老师】Spark生态圈组件

3630

3分24秒

【赵渝强老师】Hadoop生态圈组件

3600

3分44秒

【赵渝强老师】大数据平台的Lambda架构

1.3K0

3分4秒

【赵渝强老师】大数据平台的Kappa架构

3740

1分51秒

【赵渝强老师】SparkRDD的窄依赖关系

3730

1分49秒

【赵渝强老师】Spark RDD的宽依赖关系

3830

2分3秒

【赵渝强老师】如何划分Spark任务的执行阶段

1.4K0

1分36秒

【赵渝强老师】Spark的容错机制-检查点

3720

1分31秒

【赵渝强老师】Spark RDD的缓存机制

9210

1分36秒

【赵渝强老师】Kafka生产者的执行过程

8300

1分44秒

【赵渝强老师】Kafka生产者的消息发送方式

8390

1分37秒

【赵渝强老师】Kafka的消费者与消费者组

8270

1分32秒

【赵渝强老师】Kafka消息的消费模式

8140

1分58秒

【赵渝强老师】HDFS的体系架构

1.7K0

1分55秒

【赵渝强老师】大数据的学习路线

1.1K0

1分48秒

【赵渝强老师】为什么Spark中不存在真正的实时计算

3590

4分11秒

【赵渝强老师】大数据平台的Lambda架构

1.4K0

3分41秒

【赵渝强老师】大数据平台的Kappa架构

3460

3分54秒

【赵渝强老师】Hadoop生态圈组件

6850

3分32秒

【赵渝强老师】Spark生态圈组件

3700

3分35秒

【赵渝强老师】Flink生态圈组件

3610

1分4秒

【赵渝强老师】大数据交换引擎Sqoop

3620

1分22秒

【赵渝强老师】Hadoop HDFS的快照

3560

1分31秒

【赵渝强老师】大数据日志采集引擎Flume

3580

1分38秒

【赵渝强老师】大数据的湖仓一体架构

1.1K0

1分23秒

【赵渝强老师】Hadoop的伪分布部署模式

2630

【赵渝强老师】Hadoop的本地模式原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐