前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >4.0 HDFS 配置与使用

4.0 HDFS 配置与使用

作者头像
皮卡苏
发布2021-08-12 10:58:16
4090
发布2021-08-12 10:58:16
举报
文章被收录于专栏:用户1343320的专栏

之前提到过的 Hadoop 三种模式:单机模式伪集群模式集群模式

单机模式:Hadoop 仅作为库存在,可以在单计算机上执行 MapReduce 任务,仅用于开发者搭建学习和试验环境。

伪集群模式:此模式 Hadoop 将以守护进程的形式在单机运行,一般用于开发者搭建学习和试验环境。

集群模式:此模式是 Hadoop 的生产环境模式,也就是说这才是 Hadoop 真正使用的模式,用于提供生产级服务。

HDFS 配置和启动

HDFS 和数据库相似,是以守护进程的方式启动的。使用 HDFS 需要用 HDFS 客户端通过网络 (套接字) 连接到 HDFS 服务器实现文件系统的使用。

Hadoop 运行环境 一章,我们已经配置好了 Hadoop 的基础环境,容器名为 hadoop_single。如果你上次已经关闭了该容器或者关闭了计算机导致容器关闭,请启动并进入该容器。

进入该容器后,我们确认一下 Hadoop 是否存在:

代码语言:javascript
复制
hadoop version

如果结果显示出 Hadoop 版本号则表示 Hadoop 存在。

接下来我们将进入正式步骤。

新建 hadoop 用户

新建用户,名为 hadoop:

代码语言:javascript
复制
adduser hadoop

安装一个小工具用于修改用户密码和权限管理:

代码语言:javascript
复制
yum install -y passwd sudo

设置 hadoop 用户密码:

代码语言:javascript
复制
passwd hadoop

接下来两次输入密码,一定要记住!

修改 hadoop 安装目录所有人为 hadoop 用户:

代码语言:javascript
复制
chown -R hadoop /usr/local/hadoop

然后用文本编辑器修改 /etc/sudoers 文件,在

代码语言:javascript
复制
root    ALL=(ALL)       ALL

之后添加一行

代码语言:javascript
复制
hadoop  ALL=(ALL)       ALL

然后退出容器。

关闭并提交容器 hadoop_single 到镜像 hadoop_proto:

代码语言:javascript
复制
docker stop hadoop_single
docker commit hadoop_single hadoop_proto

创建新容器 hdfs_single :

代码语言:javascript
复制
docker run -d --name=hdfs_single --privileged hadoop_proto /usr/sbin/init

这样新用户就被创建了。

启动 HDFS

现在进入刚建立的容器:

代码语言:javascript
复制
docker exec -it hdfs_single su hadoop

现在应该是 hadoop 用户:

代码语言:javascript
复制
whoami

应该显示 “hadoop”

生成 SSH 密钥:

代码语言:javascript
复制
ssh-keygen -t rsa

这里可以一直按回车直到生成结束。

然后将生成的密钥添加到信任列表:

代码语言:javascript
复制
ssh-copy-id hadoop@172.17.0.2

查看容器 IP 地址:

代码语言:javascript
复制
ip addr | grep 172

从而得知容器的 IP 地址是 172.17.0.2,你们的 IP 可能会与此不同。

在启动 HDFS 以前我们对其进行一些简单配置,Hadoop 配置文件全部储存在安装目录下的 etc/hadoop 子目录下,所以我们可以进入此目录:

代码语言:javascript
复制
cd $HADOOP_HOME/etc/hadoop

这里我们修改两个文件:core-site.xml 和 hdfs-site.xml

在 core-site.xml 中,我们在 标签下添加属性:

代码语言:javascript
复制
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://<你的IP>:9000</value>
</property>

在 hdfs-site.xml 中的 标签下添加属性:

代码语言:javascript
复制
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

格式化文件结构:

代码语言:javascript
复制
hdfs namenode -format

然后启动 HDFS:

代码语言:javascript
复制
start-dfs.sh

启动分三个步骤,分别启动 NameNode、DataNode 和 Secondary NameNode。

我们可以运行 jps 来查看 Java 进程:

到此为止,HDFS 守护进程已经建立,由于 HDFS 本身具备 HTTP 面板,我们可以通过浏览器访问http://你的容器IP:9870/来查看 HDFS 面板以及详细信息:

如果出现这个页面,说明 HDFS 配置并启动成功。

注意:如果你使用的不是含有桌面环境的 Linux 系统,没有浏览器,可以跳过这个步骤。如果你使用的是 Windows 系统但是没有使用 Docker Desktop ,那么这个步骤对你来说将难以实现。

HDFS 使用

HDFS Shell

回到 hdfs_single 容器,以下命令将用于操作 HDFS:

代码语言:javascript
复制
# 显示根目录 / 下的文件和子目录,绝对路径
hadoop fs -ls /
# 新建文件夹,绝对路径
hadoop fs -mkdir /hello
# 上传文件
hadoop fs -put hello.txt /hello/
# 下载文件
hadoop fs -get /hello/hello.txt
# 输出文件内容
hadoop fs -cat /hello/hello.txt

HDFS 最基础的命令如上所述,除此之外还有许多其他传统文件系统所支持的操作。

HDFS API

HDFS 已经被很多的后端平台所支持,目前官方在发行版中包含了 C/C++ 和 Java 的编程接口。此外,node.js 和 Python 语言的包管理器也支持导入 HDFS 的客户端。

以下是包管理器的依赖项列表:

Maven:

代码语言:javascript
复制
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>3.1.4</version>
    </dependency>

Gradle:

代码语言:javascript
复制
providedCompile group: 'org.apache.hadoop', name: 'hadoop-hdfs-client', version: '3.1.4'

NPM:

代码语言:javascript
复制
npm i webhdfs 

pip:

代码语言:javascript
复制
pip install hdfs

这里提供一个 Java 连接 HDFS 的例子(别忘了修改 IP 地址):

实例

package com.runoob ; import java.io.IOException ; import org.apache.hadoop.conf.Configuration ; import org.apache.hadoop.fs.* ; public class Application { public static void main ( String [ ] args ) { try { // 配置连接地址 Configuration conf = new Configuration ( ) ; conf. set ( “fs.defaultFS”, “hdfs://172.17.0.2:9000” ) ; FileSystem fs = FileSystem. get (conf ) ; // 打开文件并读取输出 Path hello = new Path ( “/hello/hello.txt” ) ; FSDataInputStream ins = fs. open (hello ) ; int ch = ins. read ( ) ; while (ch != – 1 ) { System. out. print ( ( char )ch ) ; ch = ins. read ( ) ; } System. out. println ( ) ; } catch ( IOException ioe ) { ioe. printStackTrace ( ) ; } } }

声明:版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • HDFS 配置和启动
    • 新建 hadoop 用户
      • 启动 HDFS
      • HDFS 使用
        • HDFS Shell
          • HDFS API
          • 实例
          相关产品与服务
          容器服务
          腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档