功能介绍
配置中心是一个集中化管理功能,旨在帮助企业高效管理大数据集群环境中的各项配置和策略。通过配置中心,用户可以灵活调整和优化基础诊断、计算洞察、存储洞察和资源洞察等核心模块的策略,从而实现对大数据集群的全方位监管分析。
配置中心支持以下主要功能:
基础诊断策略:提供多种 AI 特征识别模型(如满载、毛刺、均值偏移)及预测分析能力。
计算洞察策略:支持 Hadoop 生态中的 Spark、Hive、Yarn、Trino 等引擎的全生命周期计算洞察值配置。
存储洞察策略:针对 HDFS 和 COS 存储,提供文件和 Hive 数据表的分析,支持大小文件识别和冷热数据分类配置。
资源洞察策略:按计算集群、引擎队列及组件维度,分析物理资源和虚拟资源的使用情况。
操作步骤
1. 登录 腾讯云 EMR 控制台,在控制台左侧菜单中选中智能管家 > 配置中心,单击进入配置中心页面。
2. 再配置中心页面选中地域可用区及需要配置的集群。

3. 您可按需调整相关维度的策略参数及状态。
配置中心策略明细
基础诊断的策略如下:
维度 | 特征 | 指标 | 触发策略 | 默认状态 | 严重程度 | 是否支持关闭 |
基础诊断 | 毛刺 | HBase RS 请求处理时延 | 特征分析 | 已启用 | 一般 | 是 |
| | HBase 读写总请求量 | | 已启用 | | 是 |
| | HBase RS 慢操作次数_slowAppendCount | | 已启用 | | 是 |
| | HBase RS 慢操作次数_slowDeleteCount | | 已启用 | | 是 |
| | HBase RS 慢操作次数_slowPutCount | | 已启用 | | 是 |
| | 节点内存使用占比 | | 已启用 | | 是 |
| | TCP LISTEN 异常_ListenDrops | | 已启用 | | 是 |
| | TCP 重传率_InErrRate | | 已启用 | | 是 |
| | SR EDITLOG 写延时 | | 已启用 | | 是 |
| | SR FE 查询延时 | | 已启用 | | 是 |
| 满载 | HDFS 存储空间使用率 | threshold=90 | 已启用 | | 是 |
| | HiveServer2堆内存使用占比 | threshold=90 | 已启用 | | 是 |
| | 节点存储空间使用率 | threshold=90 | 已启用 | | 是 |
| | TCP 套接字内存 | threshold=3221225472 | 已启用 | | 是 |
| | UDP 套接字内存 | threshold=3221225472 | 已启用 | | 是 |
| | TCP4链接状态_CloseWait | threshold=50000 | 已启用 | | 是 |
| | TCP4链接状态_ESTABLISHED | threshold=50000 | 已启用 | | 是 |
| | TCP4链接状态_TimeWait | threshold=50000 | 已启用 | | 是 |
| | Yarn Node Manager 堆内存使用率 | threshold=90 | 已启用 | | 是 |
| | Yarn Resource Manager 堆内存使用率 | threshold=90 | 已启用 | | 是 |
| 均值偏移 | TCP4连接数_CLOSE-WAIT | 特征分析 | 已启用 | | 是 |
| | TCP4连接数_ESTABLISHED | | 已启用 | | 是 |
| | TCP4连接数_TIME-WAIT | | 已启用 | | 是 |
| | 系统进程个数 | | 已启用 | | 是 |
计算洞察策略如下:
维度 | 引擎 | 洞察项 | 严重程度 |
计算洞察 | Hive | JOIN 数据膨胀 | 一般 |
| | 空输入 | 一般 |
| | 全表扫描分区表 | 一般 |
| | 输入小文件 | 中等 |
| | 扫描大量数据 | 严重 |
| | MapJoin 优化 | 一般 |
| | 元数据扫描过多 | 严重 |
| | 大表扫描 | 严重 |
| | 编译耗时过长 | 严重 |
| | 不合理参数 | 中等 |
| Spark | BroadcastJoin 优化 | 一般 |
| | 查询条件未下推 | 一般 |
| | CPU 资源浪费 | 一般 |
| | JOIN 数据膨胀 | 一般 |
| | 数据倾斜 | 严重 |
| | Task 输入为空 | 严重 |
| | ExecutorGC | 中等 |
| | 全表扫描分区表 | 一般 |
| | 全局排序 | 严重 |
| | 输入小文件过多 | 严重 |
| | 资源不足 | 严重 |
| | 扫描大量数据 | 严重 |
| | 峰值内存超限 | 一般 |
| | Memory 资源浪费 | 一般 |
| | 输出小文件过多 | 严重 |
| | Task 读卡顿 | 严重 |
| | Resource 开销异常 | 严重 |
| | 调度延迟 | 一般 |
| | ScheduleOverhead | 严重 |
| | 调度倾斜 | 严重 |
| | ShuffleFailure | 中等 |
| | 慢Task | 中等 |
| | Task 输入数据过小 | 严重 |
| | Stage 耗时异常 | 中等 |
| | StageScheduleDelay | 中等 |
| Trino | 全表扫描分区表 | 一般 |
| | 扫描大量数据 | 严重 |
存储洞察策略如下:
维度 | 类型 | 监测数据 | 触发策略 | 默认状态 | 是否支持配置 |
存储洞察 | 大小文件 | 大文件存储 大于3072MB | 存储量占比 | 大于30% | 是 |
| | 小文件存储 大于0MB, 小于2MB | 文件数占比 | 大于30% | 是 |
| | 空文件存储 等于0MB | 文件数占比 | 大于15% | 是 |
| | 垃圾目录最近修改时间7天前 | 垃圾目录匹配正则 | .*/warehouse/.*/_temporary/.*/task_.*|.*/.hive-staging.*/ | 否 |
| 冷热数据 | 热文件最近一次访问时间 | 时间 | 小于1月 | 是 |
| | 温文件最近一次访问时间 | 时间 | 大于等于1月,小于等于1年 | 是 |
| | 冷文件最近一次访问时间 | 存储量 | 存储量占比大于50%触发预警 | 是 |
资源洞察策略如下:
维度 | 类型 | 洞察项 | 严重程度 | 洞察默认规则(可配置) | 默认状态 | 是否支持关闭 |
资源洞察 | 集群 | 集群资源 CPU 持续空载 | 一般 | 空载最大使用比例10% 持续时间30分钟 | 已关闭 | 是 |
| | 集群资源 CPU 持续满载 | 严重 | 满载最小使用比例90% 持续时间30分钟 | 已启用 | 是 |
| | 集群资源内存持续空载 | 一般 | 空载最大使用比例10% 持续时间30分钟 | 已关闭 | 是 |
| | 集群资源内存持续满载 | 严重 | 满载最小使用比例90% 持续时间30分钟 | 已启用 | 是 |
| Yarn 队列 | Yarn 队列物理 CPU 超用 | 严重 | CPU 超分配比例10% 集群整体 CPU 使用率大于90% | 已启用 | 是 |
| | Yarn 队列虚拟 CPU 浪费 | 一般 | CPU 浪费比例10% 集群整体 CPU 使用率大于90% | 已关闭 | 是 |
| | Yarn 队列物理内存超用 | 严重 | 内存超分配比例10% 集群整体内存使用率大于90% | 已启用 | 是 |
| | Yarn 队列虚拟内存浪费 | 一般 | 内存浪费比例10% 集群整体内存使用率大于90% | 已关闭 | 是 |
| | Yarn 队列虚拟 CPU 持续空载 | 一般 | 空载最大使用比例10% 持续时间30分钟 | 已关闭 | 是 |
| | Yarn 队列虚拟 CPU 持续满载 | 严重 | 满载最小使用比例90% 持续时间30分钟 | 已启用 | 是 |
| | Yarn 队列虚拟内存持续空载 | 一般 | 空载最大使用比例10% 持续时间30分钟 | 已关闭 | 是 |
| | Yarn 队列虚拟内存持续满载 | 严重 | 满载最小使用比例90% 持续时间30分钟 | 已启用 | 是 |
| StarRocks | StarRocksBe CPU 持续空载 | 一般 | 空载最大使用比例10% 持续时间30分钟 | 已关闭 | 是 |
| | StarRocksBe CPU 持续满载 | 严重 | 满载最小使用比例90% 持续时间30分钟 | 已启用 | 是 |
| | StarRocksBe 内存持续空载 | 一般 | 空载最大使用比例10% 持续时间30分钟 | 已关闭 | 是 |
| | StarRocksBe 内存持续满载 | 严重 | 满载最小使用比例90% 持续时间30分钟 | 已启用 | 是 |
| | StarRocksFe CPU 持续空载 | 一般 | 空载最大使用比例10% 持续时间30分钟 | 已关闭 | 是 |
| | StarRocksFe CPU 持续满载 | 严重 | 满载最小使用比例90% 持续时间30分钟 | 已启用 | 是 |
| | StarRocksFe 内存持续空载 | 一般 | 空载最大使用比例10% 持续时间30分钟 | 已关闭 | 是 |
| | StarRocksFe 内存持续满载 | 严重 | 满载最小使用比例90% 持续时间30分钟 | 已启用 | 是 |