EMR on CVM 快速入门

最近更新时间:2024-10-11 15:17:11

我的收藏
本文为您介绍通过 EMR 控制台快速创建一个 EMR on CVM 集群、提交作业并查看运行结果的操作流程。

准备工作

1. 在使用 EMR 集群前,需要注册腾讯云账号并完成实名认证,具体操作请参见 实名认证账号归属介绍
2. 完成对弹性 MapReduce 的服务账号授予系统默认角色 EMR_QCSRole,具体操作请参见 角色授权
3. 在线账号充值,EMR on CVM 提供两种计费模式:按量计费和包年包月计费,在创建集群前需要进行账号余额充值,确保余额大于等于创建集群所需配置费用(不包含:代金券、折扣卷、优惠券等);具体操作请参见 在线充值

创建集群

登录 EMR 控制台,在 EMR on CVM 集群列表页单击创建集群,在购买页面完成相关配置;当集群列表中集群状态显示为运行中时,表示集群创建成功。
购买步骤
配置项
配置项说明
示例
软件配置
地域
集群所部署的物理数据中心
注意:集群创建后,无法更改地域,请谨慎选择
北京、上海、广州、南京、成都、硅谷等
集群类型
EMR on CVM 支持多种集群类型,默认 Hadoop 集群类型
Hadoop、StarRocks 等
产品版本
不同产品版本上捆绑的组件和组件的版本不同
EMR-V2.7.0 版本中内置的是 Hadoop 2.8.5、Spark 3.2.1 等
部署组件
非必选组件,根据自身需求组合搭配自定义部署
Hive-2.3.9、Impala-3.4.1等
区域与硬件配置
计费模式
集群部署计费模式
按量计费
可用区及网络配置
可用区、集群网络设置注意:集群创建后,无法直接更改可用区,请谨慎选择
广州七区
安全登录
用于设置节点的网络访问控制,安全组同防火墙功能
创建新安全组
节点配置
根据业务需要为不同节点类型选择合适机型配置。详情请参见 业务评估
开启节点部署高可用
基础配置
所属项目
将当前集群分配给不同的项目组
集群创建后暂不支持修改所属项目
集群名称
集群的名称,可自定义
EMR-7sx2aqmu
登录方式
自定义设置密码方式和关联密钥方式;SSH 密钥仅用于 EMR-UI 快捷入口登录
密码
确认配置
配置清单
确认所部署信息是否有误
选中服务协议,单击立即购买
注意
您可以在 CVM 控制台中查看各节点信息,为保证 EMR 集群的正常运行,请勿在 CVM 控制台中更改节点配置信息。

提交作业及查看运行结果

集群创建成功后,您可以在该集群创建并提交作业;本文以提交 spark 任务为例,操作如下。
注意
在创建 EMR 集群的时候需要在软件配置界面选择 Spark 组件。
1. 使用 SSH 登录并连接集群(本地系统为 Linux/Mac OS),详情请参见 登录集群
2. 在 EMR 命令行先使用以下指令切换到 Hadoop 用户,并进入 Spark 安装目录/usr/local/service/spark:
[root@172 ~]# su hadoop
[hadoop@172 root]$ cd /usr/local/service/spark
3. 通过如下指令提交任务并运行:
/usr/local/service/spark/bin/spark-submit \\
--class org.apache.spark.examples.SparkPi \\
--master yarn \\
--deploy-mode cluster \\
--proxy-user hadoop \\
--driver-memory 1g \\
--executor-memory 1g \\
--executor-cores 1 \\
/usr/local/service/spark/examples/jars/spark-examples*.jar \\
10
4. 提交作业后,在 EMR on CVM 页面,单击目标集群所在行的集群服务;单击 YARN UI 所在行的 WebUI 链接。登录认证后即可进入YARN UI 页面;单击目标作业的 ID,可以查看作业运行的详情。

销毁集群

当创建的集群不再使用时,可以销毁集群,退还资源;销毁集群将强制终止集群所提供的服务,并释放资源。
在 EMR on CVM 页面,选择目标集群的更多 > 销毁;在弹出的对话框中,单击立即销毁