EMR上Zeppelin入门

原创

程序猿

发布于 2018-08-12 22:02:47

1.5K0

文章被收录于专栏：公有云大数据平台弹性 MapReduce公有云大数据平台弹性 MapReduce

什么是Zeppelin？

简而言之，就是一个大数据分析平台。用户可以利用提供好的WEB UI，在线编写分析逻辑代码，输出结果，并且能够利用可视化工具，形象生动的在线展示结果。

基础知识

notebook：是一个自己的工作环境，可以在notebook中执行大数据分析的逻辑，可以配置interpreter，可以设置权限等。基本上所有web上的操作都会在一个notebook中进行

interpreter：是zeppelin的核心概念-解析器，zeppelin通过解析器（interpreter）将用户输入转换为后台服务命令。具体原理请自行查阅资料。

Zeppelin安装

直接通过zeppelin官网。我下载的是包括了所有interpreter的压缩包

下载完成之后，解压然后运行（unix platform）：bin/zeppelin-daemon.sh start

这个时候你就能访问8080端口来访问zeppelin服务了

接入spark on yarn集群

接入spark on yarn非常简单，只用在conf/zeppelin-env.sh中加入两个配置即可

export MASTER=yarn-client
export SPARK_HOME=/usr/local/service/spark

master是zeppelin底层调用spark的参数，熟悉利用命令行通过spark提交任务的朋友应该比较熟悉：$SPARK_HOME/bin/spark-submit --class package.SparkStudy --master yarn-cluster ./wordcount.jar some_params

上面这个命令是shell下利用spark提交任务到yarn上的最简单的方式（只指出了运行模式，jar包以及运行的class，其他参数全部默认，也不包含输入输出），其中master就是我们在zeppelin中设置的master，zeppelin并不支持yarn-cluster，所以我们选择yarn-lient。SPARK_HOME就是本地的SPARK根目录。设置好之后，就可以重启zeppelin了。

下面就可以利用zeppelin在线调用我的spark on yarn集群了

下面利用python脚本生成需要处理的数据：