排障指引

最近更新时间:2023-10-18 14:36:02

我的收藏
本文主要介绍使用 TSF 进行排障的基础思路和操作步骤,方便运维人员在使用 TSF 过程中进行问题定位和处理。



运维排障整体思路为:
1. 通过告警或者业务大屏发现问题。
2. 通过查看服务监控初步定位是实例、部署组还是接口出现问题。
3. 根据具体问题所在处继续向下进行详细排查。

步骤1:发现问题

发现问题通常有告警和业务大屏两种方式:
方式一:配置告警信息
方式二:查看业务大屏
配置告警信息,通常有以下三个层面告警:
微服务业务级别:微服务自身状态,微服务自身请求量、耗时和错误率,微服务接口请求量、耗时和错误率,部署组健康率等。
底层资源级别:CPU 内存、云主机状态、容器集群等。
组件级别:数据库实例、CKafka 实例等。
操作指引: 在腾讯云可观测平台界面为 TSF 服务配置告警策略和 Dashboard,步骤如下:
1. 配置告警策略,通过告警发现问题。详细操作参见 告警配置
2. 配置 Dashboard,通过展示的监控指标发现问题。详细操作参见 配置 Dashboard
查看业务大屏,通过微服务列表和接口列表查看当前运行的服务的状态。
操作指引: 在 TSF 控制台通过查看服务依赖拓扑图和接口列表,步骤如下:
1. 查看服务依赖拓扑图,通过依赖拓扑图发现问题。详情参见 服务拓扑依赖
2. 查看服务列表中服务运行健康状态,通过业务请求量、耗时、错误率等发现问题。详细操作参见 服务监控

步骤2:初步定位

当发现问题后,查看服务监控初步确定是服务实例还是部署组还是接口出现问题。
详细操作参见 服务监控

步骤3:详细排查

初步定位问题后,排障思路如下:
部署组问题:可以考虑程序包版本问题或者查看日志等方式排查,详细操作参见 部署组监控
实例问题:可以通过查看日志和 JVM 进程等方式排查,详细操作参见 实例监控
接口问题:可以通过查看日志和调用链等方式排查,详细操作参见 接口监控