监控告警

最近更新时间:2024-09-25 17:34:21

我的收藏

操作场景

TDMQ RocketMQ 支持监控您账户下创建的资源,包括集群、Topic、Group 等,您可以根据这些监控数据,分析集群的使用情况,针对可能存在的风险及时处理。同时您也可以对监控项设置报警规则,以便数据异常时收到报警消息,及时处理风险,保障系统的稳定运行。

监控指标

TDMQ RocketMQ 版支持的监控指标如下:
指标
单位
备注
指标支持维度
总 TPS
Count/s
生产和消费消息的 API 调用次数之和(按照计费规则进行折算)
集群、Topic
生产 TPS
Count/s
生产消息的 API 调用次数之和(按照计费规则进行折算)
集群、Topic
消费 TPS
Count/s
消费消息的 API 调用次数之和(按照计费规则进行折算)
集群、Topic、Group
消息存储空间
GB
-
集群、Topic
消息堆积条数
Count/s
-
集群、Topic、Group、Topic&Group
被限流的生产 TPS
Count/s
-
集群、Topic
被限流的消费 TPS
Count/s
-
集群、Topic、Group
生产消息条数
Count/s
-
集群、Topic
消费消息条数
Count/s
-
集群、Topic、Group
生产消息流量
MB/s
-
集群、Topic
消费消息流量
MB/s
-
集群、Topic、Group
生产者数量
Count
仅统计在线的生产者客户端
集群、Topic
生产成功率
%
-
集群、Topic
生产消息平均耗时(发送RT)
ms
使用 SDK 调用发送消息接口成功的耗时,即生产消息的 RT,仅 5.x 客户端能采集到该指标
集群、Topic
消息平均大小
Bytes
-
集群、Topic
各类型消息数量变化
Count
-
集群
每秒被保存的死信消息条数
Count
每秒新增的状态为 DLQ 的消息数量,表示消息达最大重试次数后依旧消费失败,但是保存到指定Topic 的消息数
集群、Topic、Group、Topic&Group
已就绪消息的排队时间
ms
最早一条已就绪消息的就绪时间和当前时刻的时间差,反映了消费者拉取消息的及时性
集群、Topic、Group、Topic&Group
处理中的消息数
Count
状态为 Inflight 的消息数量,表示消息在服务端消费,还未返回消费结果的消息数量
集群、Topic、Group、Topic&Group
已就绪消息的排队时间
ms
最早一条已就绪消息的就绪时间和当前时刻的时间差,反映了消费者拉取消息的及时性
集群、Topic、Group、Topic&Group
消费处理滞后时间
ms
最早一条未返回响应的消息的就绪时间和当前时刻的时间差,反映了消费者完成消费消息的及时性
集群、Topic、Group、Topic&Group
本地缓存队列中的平均排队时间
ms
仅展示 5.x 版本的PushConsumer客户端的数据,SimpleConsumer客户端没有缓存队列
集群、Topic、Group、Topic&Group
消费消息平均耗时(发送RT)
ms
使用 SDK 调用发送消息接口成功的耗时,即生产消息的 RT,仅 5.x 客户端能采集到该指标
集群、Topic、Group、Topic&Group、消费者客户端
重试消息条数
Count
-
Topic、Group、Topic&Group
消费耗时分布
-
不同消费消息耗时范围的热力分布图(仅专业版和铂金版)
集群、Topic、Group、Topic&Group、消费者客户端
生产耗时分布
-
不同生产消息耗时范围的热力分布图(仅专业版和铂金版)
集群、Topic
生产消息大小分布
-
不同消息大小的热力分布图(仅专业版和铂金版)
集群、Topic
公网流出/入流量
MB/s
-
集群
公网流出/入带宽
Mbps/s
-
集群
公网流出/入带宽利用率
%
-
集群
公网丢弃出/入带宽
Mbps/s
-
集群

查看监控数据

1. 登录 RocketMQ 控制台
2. 在左侧导航栏单击监控大盘,选择好地域和要查看的集群。
3. 在监控页面选择要查看的资源页签,设置好时间范围后,查看对应的监控数据。
图标
说明



单击可调整图表时间粒度,支持1分钟、5分钟和1小时。



单击可刷新获取最新的监控数据,支持设置30s、1min和5min时间间隔自动刷新监控数据。



单击可将图表复制到 Dashboard,关于 Dashboard 请参见 什么是 Dashboard

在集群监控页面,您可以选择集群内的多个 Topic,查看多个 Topic 的指标对比,如下图所示。

同理,您可以查看某个Topic下,订阅关系内的多个 Group 的相关指标对比;也可以查看某个 Group 下,订阅关系内的多个 Topic 的相关指标对比。

配置告警规则

新建告警规则

您可以为监控指标配置告警规则,当监控指标达到设定的报警阈值时,腾讯云可观测平台可以通过邮件、短信、微信、电话等方式通知您,帮助您及时应对异常情况。
1. 在集群的监控页面,单击下图告警按钮跳转至 腾讯云可观测平台控制台 配置告警策略。

2. 在告警策略页面,选择好策略类型和要设置告警的实例,设置好告警规则和告警通知模板。
策略类型:选择消息队列 TDMQ/RocketMQ5集群
告警对象:选择需要配置告警策略的 RocketMQ 实例。
触发条件:支持选择模板手动配置,默认选择手动配置,手动配置参见以下说明,新建模板参见 新建触发条件模板
说明
指标:例如“消息生产条数TPS”,选择统计粒度为1分钟,则在1分钟内,消息生产条数TPS连续N个数据点超过阈值,就会触发告警。
告警频次:例如“每30分钟警告一次”,指每30分钟内,连续多个统计周期指标都超过了阈值,如果有一次告警,30分钟内就不会再次进行告警,直到下一个30分钟,如果指标依然超过阈值,才会再次告警。
通知模板:选择通知模板,也可以新建通知模板,设置告警接收对象和接收渠道。
3. 单击完成,完成配置。
说明
有关告警的更多信息,请参见 腾讯云可观测平台告警服务

新建触发条件模板

2. 配置告警规则中,单击选择模板 > 新增触发条件模板,进入触发条件列表页面。


3. 在触发条件模板页单击新建触发条件模板


4. 在新建模板页,配置策略类型。
策略类型:选择消息队列 TDMQ/RocketMQ5
使用预置触发条件:勾选此选项,会出现系统建议的告警策略。


5. 确认无误后,单击保存
6. 返回新建告警策略页,单击刷新,就会出现刚配置的告警策略模板。

对接云监控 Prometheus

如果您使用了腾讯云可观测平台,并使用了 Prometheus 实例,您可以通过 Prometheus 实例监控腾讯云 RocketMQ。
1. 登录 Prometheus 监控控制台,在实例列表中,选择对应的 Prometheus 实例。
2. 进入实例详情页,选择数据采集,再单击集成中心
3. 选择云监控,可以直接单击一键安装。如果您只需要查看 RocketMQ 的监控数据,如下图所示,您可以在“云产品选择” 处选择 消息队列RocketMQ版(新指标),同时填写其他相关信息,如名称、地域等等。详细操作步骤可以参见 Prometheus 集成中心