实例监控

最近更新时间:2023-11-03 18:06:11

我的收藏

操作场景

实例监控功能用于监控服务实例的状态。

功能入口

1. 登录 TSF 控制台
2. 在左侧菜单栏中,单击服务监控,选择好时间范围和命名空间,维度选择服务,查看当前筛选条件下所有服务的监控图表信息。
3. 单击目标服务卡片,进入服务监控详情页面。
4. 选择实例监控页签,查看该服务的部署组监控信息。

查看实例监控指标

实例监控展示了服务实例的请求量,错误率、响应耗时、响应耗时分布、HTTP 状态码的时序曲线。
请求量
错误率
响应耗时:响应耗时中 p95 代表线上95%的请求耗时都小于某个时间。
响应耗时分布:将鼠标放在散点图上,框选图表可查看请求详情。
HTTP 状态码
CPU 使用率(仅支持部署了 JVM 监控包的 Java 应用)



在实例监控页面,可以进行以下操作:
您可以在左侧实例列表,单击请求量、请求错误率或平均响应耗时旁的排序图标对实例进行正序或者倒序排序。
您可以将光标移到曲线上,查看具体时刻的监控数据。
您可以单击每条曲线右上角的
img

添加多时段数据对比。
您可以通过服务实例的请求错误率和耗时等指标判断实例是否有异常,若有异常您可以单击实例的“ID”,进入实例概览页面查看详情。

查看实例监控详情

说明
离线节点不支持死锁检测,火焰图和 local span 查询。
实例概览
内存
线程
火焰图
请求详情
方法执行分析
日志
您可在实例详情中的实例概览 tab 页中,查看到该实例的以下信息:
基本信息



您可以通过实例所在节点IP跳转到云服务器页面,查看云服务器信息。
经过该实例的请求监控信息

该实例的 JVM 监控概览(如果该实例为 Java 实例)

如果实例为 Java 实例,您可在实例详情的内存 tab 页中,查看到该实例的内存监控详情:
说明
堆内存的 max 展示的是堆内存真实可用的最大值(会扣除 to_space内存),而不是配置的 xmx 参数;JDK1.8版本部分 GC 算法(如 G1GC 的 Survivor space),其 max 值会设置为 max_int 值,此时值会显示为-1。



您还可以通过单击图片卡片右上方的放大图标

,放大当前图片;或通过单击下载图标

,将当前图片下载到本地(.png格式)。
如果实例为 Java 实例,您可在实例详情的线程 tab 页中,查看到该实例的线程数变化情况、线程列表及线程详情,并进行死锁检测,了解实例的死锁情况。 线程数:


死锁检测:


说明
死锁检测目前的实现,是可以打印互相死锁的线程栈;多个线程等待同一个死锁的情况下,并不能检测出全部的死锁线程,只能找到死锁的根源;建议修复死锁后,重复检测以确认不出现嵌套死锁。
如果实例为 Java 实例,您还可以在火焰图 tab 页中,采集并查看指定时段内程序执行过程所形成的“火焰图”,用以进行性能分析。


说明
数据量过大、无热点函数、或出现进程连接失败等异常情况时,火焰图可能采集失败。具体可查看 JVM 监控 常见问题
您可在请求详情 tab 页中,查询经过该实例的请求的调用链详情。
说明
列表页中的“耗时”和“状态”,为服务处理请求的本地耗时和状态。



您可以在方法执行分析 tab 页,查看实例级别本地方法调用情况,方便您进行性能调优和能力排障。
1. 在页面上方输入采集类名采集方法名采集次数
2. 单击开始采集,可查看调用方法某次执行的信息,包含调用方法名称、行号、平均执行时间和该方法内部方法执行耗时时间。


3. 单击操作栏的钻入,即重新采样,停止原函数采样,采样次数为默认值1。
4. 单击重置,即停止当前采样,回到功能首页。
您可在日志 tab 页中,查看该实例上的日志,包括业务日志及 JVM 的 GC 日志。
您也可以开启右上角查看实时日志按钮查看实时日志信息。


若某个实例出现问题,会导致请求发送到该问题实例上,此时可以开启屏蔽实例来手动下线该实例。服务被屏蔽后,该服务实例将不会被其他服务发现,流量不会分发到该实例上。
在服务治理页面,单击目标服务的“ID/名称”,进入服务实例列表,在操作栏可以屏蔽实例。