操作场景
云原生 API 网关 Kong 对运行的网关实例提供了多项监控指标,用以监测实例运行情况,例如:4xx请求数、5xx请求数等业务指标,CPU 利用率、内存使用率等系统指标。
您可以根据这些指标实时了解网关实例的运行状况,针对可能存在的风险及时处理,保障系统的稳定运行。本文为您介绍通过 TSF 控制台查看网关实例监控的操作。
支持监控指标及含义
请求监控
实例/节点/路由
指标名 | 指标含义 |
总请求数 | 总请求数。按照所选择的时间粒度统计求和。 |
请求平均时延 | 请求平均时延。按照所选择的时间粒度统计求平均值。 |
请求最大时延 | 请求最大时延。按照所选择的时间粒度统计求最大值。 |
网关直接返回的请求数 | 网关未转发到后端,直接返回响应的请求量(如鉴权失败、触发限流时)。按照所选择的时间粒度统计求和。 |
网关平均时延 | 网关自身处理请求的平均耗时。 |
网关最大时延 | 网关自身处理请求的最大耗时。 |
2xx请求数 | 客户端发送到云原生 API 网关,请求成功的次数(如 200 OK),按照所选择的时间粒度统计求和。 |
3xx请求数 | 客户端发送到云原生 API 网关,请求重定向的次数,按照所选择的时间粒度统计求和。 |
4xx请求数 | 客户端发送到云原生 API 网关的是非法请求,如鉴权不通过或者超过限流值的错误个数,网关直接返回的客户端错误的个数(如 401 鉴权失败、403 权限不足、429 限流)。按照所选择的时间粒度统计求和。 |
5xx请求数 | 云原生 API 网关将消息转发到后端服务,后端服务返回的服务端错误的个数(如 500 后端异常、502 后端无效响应、504 后端不可达)。按照所选择的时间粒度统计求和。 |
404请求数 | 请求后端服务失败,请求所希望的资源未被在后端服务器上发现,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
429请求数 | 请求后端服务失败,请求被限流,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
499请求数 | 请求后端服务失败,客户端在后端响应前主动断开连接,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
502请求数 | 网关尝试执行后端请求时,从后端服务器接收到无效的响应(通常连接服务失败),此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
504请求数 | API 网关尝试执行后端请求时,后端机器不可达,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
网关转到后端的请求数 | 网关成功转发到后端服务的请求量。按照所选择的时间粒度统计求和。 |
后端平均时延 | 后端服务处理请求的平均耗时。按照所选择的时间粒度统计求平均值。 |
后端最大时延 | 后端服务处理请求的最大耗时。按照所选择的时间粒度统计求最大值。 |
后端2xx请求数 | 后端服务请求成功的次数(如 200 OK),按照所选择的时间粒度统计求和。 |
后端3xx请求数 | 后端服务请求重定向的次数,按照所选择的时间粒度统计求和。 |
后端4xx请求数 | 后端服务是非法请求的次数。按照所选择的时间粒度统计求和。 |
后端5xx请求数 | 后端服务返回的服务端错误的个数(如 500 后端异常、502 后端无效响应、504 后端不可达)。按照所选择的时间粒度统计求和。 |
后端404请求数 | 后端服务资源未被在后端服务器上发现,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
后端429请求数 | 后端服务请求失败,请求被限流,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
后端499请求数 | 后端服务请求失败,客户端在后端响应前主动断开连接,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
后端502请求数 | 后端服务请求失败,后端服务接收到无效的响应,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
后端504请求数 | 后端服务请求失败,后端机器不可达,此类错误的个数的统计,按照所选择的时间粒度统计求和。 |
系统监控
实例/节点监控指标
指标名 | 指标含义 |
CPU使用率 | 云原生 API 网关集群的 CPU 使用率,按照所选择的时间粒度统计求平均值。 |
内存使用率 | 云原生 API 网关集群的内存使用率,按照所选择的时间粒度统计求平均值。 |
入口带宽流量 | 云原生 API 网关集群的入口带宽流量,按照所选择的时间粒度统计求平均值。 |
出口带宽流量 | 云原生 API 网关集群的出口带宽流量,按照所选择的时间粒度统计求平均值。 |
TCP 入连接数 | 云原生 API 网关集群的 TCP 连接数,按照所选择的时间粒度统计求平均值。 |
最大内存使用率 | 云原生 API 网关集群在所选时间粒度内的内存使用率最大值。用于观测内存使用峰值,判断是否存在内存突增风险(如内存泄漏、突发流量压力)。 |
最大CPU使用率 | 云原生 API 网关集群在所选时间粒度内的 CPU 使用率最大值。用于发现 CPU 负载峰值波动,定位计算密集型操作(如复杂鉴权、协议转换)导致的性能突增。 |
运行节点数 | 所选时间粒度内,云原生 API 网关集群中正常运行的节点数量。反映集群部署规模与可用节点状态,节点数异常减少可能代表集群故障或伸缩操作。 |
客户端到网关进程的新建连接数 | 所选时间粒度内,客户端与网关进程之间新建立的 TCP 连接数量。观测短时间内连接建立频率,判断客户端连接活跃度。 |
客户端到网关进程的活跃连接数 | 所选时间粒度内,客户端与网关进程之间处于活跃通信状态的 TCP 连接数量。反映网关当前承载的有效连接负载。 |
客户端到网关进程的非活跃连接数 | 所选时间粒度内,客户端与网关进程之间建立但无活跃通信的 TCP 连接数量。辅助判断连接资源闲置情况,过多可能意味着连接回收 / 管理机制需优化。 |
客户端到网关进程的并发连接数 | 所选时间粒度内,客户端与网关进程之间同时存在的 TCP 连接总数(含活跃、非活跃)。直接反映网关的连接并发压力,是评估网关连接容量的关键指标。 |
客户端到网关进程的入流量 | 所选时间粒度内,从客户端发送到网关进程的总数据量。 |
网关进程到客户端的出流量 | 所选时间粒度内,从网关进程发送到客户端的总数据量。 |
客户端到网关进程的入带宽 | 所选时间粒度内,客户端到网关进程的平均带宽占用量(单位时间内的流量传输速率)。评估客户端到网关的带宽压力,避免带宽瓶颈导致连接 / 传输延迟。 |
网关进程到客户端的出带宽 | 所选时间粒度内,网关进程到客户端的平均带宽占用量(单位时间内的流量传输速率)。与 “入带宽” 结合,分析网关对外带宽负载,防止带宽瓶颈影响响应传输。 |
公网负载均衡监控指标
1. 客户端到 LB 的监控
指标名 | 指标含义 |
入流量 | 在统计粒度内,客户端流入到负载均衡的流量。 |
出流量 | 在统计粒度内,负载均衡流出到客户端的流量。 |
入包量 | 在统计粒度内,客户端向负载均衡每秒发送的数据包数量。 |
出包量 | 在统计粒度内,负载均衡向客户端每秒发送的数据包数量。 |
入带宽 | 在统计粒度内,客户端流入到负载均衡所用的带宽。 |
出带宽 | 在统计粒度内,负载均衡流出到客户端所用的带宽。 |
活跃连接数 | 在统计粒度内,从客户端到负载均衡的活跃连接数。 |
非活跃连接数 | 在统计粒度内,从客户端到负载均衡的非活跃连接数。 |
并发连接数 | 在统计粒度内,从客户端到负载均衡的并发连接数。 |
新建连接数 | 在统计粒度内,从客户端到负载均衡的新建连接数。 |
2. 丢弃/利用率监控
指标名 | 指标含义 |
入带宽利用率 | 在统计粒度内,客户端通过外网访问负载均衡所用的带宽利用率。 |
出带宽利用率 | 在统计粒度内,负载均衡访问外网所用的带宽使用率。 |
并发连接数利用率 | 在统计粒度内的某一时刻,从客户端到负载均衡的并发连接数相比规格的并发连接数性能上限的利用率。 |
新建连接数利用率 | 在统计粒度内,从客户端到负载均衡的新建连接数相比负载均衡规格的新建连接数性能上限的利用率。 |
丢弃连接数 | 在统计粒度内,负载均衡丢弃的连接数。 |
丢弃入带宽 | 在统计粒度内,客户端通过外网访问负载均衡时丢弃的带宽。 |
丢弃出带宽 | 在统计粒度内,负载均衡访问外网时丢弃的带宽。 |
丢弃流入数据包 | 在统计粒度内,客户端通过外网访问负载均衡时丢弃的数据包。 |
丢弃流出数据包 | 在统计粒度内,负载均衡访问外网时丢弃的数据包。 |
丢弃 QPS | 在统计粒度内,负载均衡丢弃的请求数。 |
QPS 利用率 | 在统计粒度内,负载均衡的 QPS 相比负载均衡规格的 QPS 性能上限的利用率。 |
3. LB到后端的监控
指标名 | 指标含义 |
出流量 | 在统计粒度内,后端服务器流出到负载均衡的流量。 |
入带宽 | 在统计粒度内,负载均衡流入到后端服务器所用的带宽。 |
出带宽 | 在统计粒度内,后端服务器流出到负载均衡所用的带宽。 |
4. 七层协议监控
指标名 | 指标含义 |
CLB 返回的 3xx 状态码 | 在统计粒度内,负载均衡返回 3xx 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 4xx 状态码 | 在统计粒度内,负载均衡返回 4xx 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 5xx 状态码 | 在统计粒度内,负载均衡返回 5xx 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 404 状态码 | 在统计粒度内,负载均衡返回 404 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 499 状态码 | 在统计粒度内,负载均衡返回 499 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 502 状态码 | 在统计粒度内,负载均衡返回 502 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 503 状态码 | 在统计粒度内,负载均衡返回 503 状态码的个数(负载均衡和网关节点返回码之和)。 |
CLB 返回的 504 状态码 | 在统计粒度内,负载均衡返回 504 状态码的个数(负载均衡和网关节点返回码之和)。 |
2xx 状态码 | 在统计粒度内,后端服务返回 2xx 状态码的个数。 |
3xx 状态码 | 在统计粒度内,后端服务返回 3xx 状态码的个数。 |
4xx 状态码 | 在统计粒度内,后端服务返回 4xx 状态码的个数。 |
5xx 状态码 | 在统计粒度内,后端服务返回 5xx 状态码的个数。 |
404 状态码 | 在统计粒度内,后端服务返回 404 状态码的个数。 |
499 状态码 | 在统计粒度内,后端服务返回 499 状态码的个数。 |
502 状态码 | 在统计粒度内,后端服务返回 502 状态码的个数。 |
503 状态码 | 在统计粒度内,后端服务返回 503 状态码的个数。 |
504 状态码 | 在统计粒度内,后端服务返回 504 状态码的个数。 |
最大请求时间 | 在统计粒度内,负载均衡的最大请求时间。 |
平均响应时间 | 在统计粒度内,负载均衡的平均响应时间。 |
最大响应时间 | 在统计粒度内,负载均衡的最大响应时间。 |
响应超时个数 | 在统计粒度内,负载均衡响应超时的个数。 |
每分钟成功请求数 | 在统计粒度内,负载均衡每分钟的成功请求数。 |
每秒请求数 | 在统计粒度内,负载均衡每秒钟的请求数。 |
5. 健康检查监控
指标名 | 指标含义 |
健康检查异常数 | 在统计周期内,负载均衡的健康检查异常个数 |
业务监控
实例
指标名 | 指标含义 |
服务来源健康检查失败总请求数 | 云原生 API 网关集群服务来源健康检查失败总请求数。 |
服务来源健康检查成功总请求数 | 云原生 API 网关集群服务来源健康检查成功总请求数。 |
服务来源健康检查总请求数 | 云原生 API 网关集群服务来源健康检查总请求数。 |
服务来源
指标名 | 指标含义 |
云原生网关注册中心探测失败请求数 | 云原生网关注册中心探测失败请求数 |
云原生网关注册中心探测请求成功数 | 云原生网关注册中心探测请求成功数 |
云原生网关注册中心探测总请求数 | 云原生网关注册中心探测总请求数 |
服务
指标名 | 指标含义 |
云原生网关服务上游节点总数 | 云原生网关服务上游节点总数 |
云原生网关服务上游健康节点总数 | 云原生网关服务上游健康节点总数 |
网关服务上游异常节点数 | 网关服务上游异常节点数 |
云原生网关服务上游异常节点百分比 | 云原生网关服务上游异常节点百分比 |
云原生网关服务上游权重非0节点总数 | 云原生网关服务上游权重非0的节点百分比 |
云原生网关服务上游权重非0健康节点总数 | 云原生网关服务上游权重非0的健康节点总数 |
云原生网关服务上游权重非0异常节点总数 | 云原生网关服务上游权重非0的异常节点总数 |
云原生网关服务上游权重非0异常节点百分比 | 云原生网关服务上游权重非0的异常节点百分比 |
查看监控入口
1. 登录 TSF 控制台。
2. 在左侧导航栏单击云原生 API 网关 > 实例详情页 > 数据观测,在页面上方选择好网关实例。
3. 设置要查看的视图和时间范围,即可查看以下监控指标信息。