本文主要介绍使用 TSF 进行排障的基础思路和操作步骤,方便运维人员在使用 TSF 过程中进行问题定位和处理。
运维排障整体思路为:
1. 通过告警或者业务大屏发现问题。
2. 通过查看服务监控初步定位是实例、部署组还是接口出现问题。
3. 根据具体问题所在处继续向下进行详细排查。
步骤1:发现问题
发现问题通常有告警和业务大屏两种方式:
配置告警信息,通常有以下三个层面告警:
微服务业务级别:微服务自身状态,微服务自身请求量、耗时和错误率,微服务接口请求量、耗时和错误率,部署组健康率等。
底层资源级别:CPU 内存、云主机状态、容器集群等。
组件级别:数据库实例、CKafka 实例等。
操作指引:
在腾讯云可观测平台界面为 TSF 服务配置告警策略和 Dashboard,步骤如下:
1. 配置告警策略,通过告警发现问题。详细操作参见 告警配置。
2. 配置 Dashboard,通过展示的监控指标发现问题。详细操作参见 配置 Dashboard。
步骤2:初步定位
当发现问题后,查看服务监控初步确定是服务实例还是部署组还是接口出现问题。
步骤3:详细排查
初步定位问题后,排障思路如下:
部署组问题:可以考虑程序包版本问题或者查看日志等方式排查,详细操作参见 部署组监控。
实例问题:可以通过查看日志和 JVM 进程等方式排查,详细操作参见 实例监控。
接口问题:可以通过查看日志和调用链等方式排查,详细操作参见 接口监控。