腾讯云可观测平台为 CLB 模型路由产品提供数据收集与展示功能。腾讯云默认为所有用户开通,无需手动配置。只要您使用了 CLB 模型路由,腾讯云可观测平台即可自动收集相关监控数据。
监控指标说明
CLB 模型路由提供如下监控指标。这些指标反映路由模型实例、API Key 及模型的使用状态和用量信息等。支持1分钟、5分钟、1小时和1天四种时间粒度。
类型 | 指标 | 说明 | 单位 |
核心用量 | Token 总数(Count) | 调用对话类模型时,输入和输出的 Token 数量总和。 | 个 |
| 输入 Token 数(Count) | 调用对话类模型时,输入的 Token 数量总和。 | 个 |
| 输出 Token 数(Count) | 调用对话类模型时,输出的 Token 数量总和。 | 个 |
| 请求积分消耗(Count) | 根据配置的积分计算系数以及本次请求消耗的输入 Token 数、输出 Token 数计算 | 个 |
请求信息 | CMR 成功请求次数(Count) | 成功的 CMR 请求总数。 | 个 |
| CMR 失败请求次数(Count) | 失败的 CMR 请求总数。 | 个 |
| CMR 调用上游模型失败的请求次数(Count) | CMR 调用上游模型失败的请求总数。 | 个 |
| CMR 请求总数(Count) | CMR 请求总数。 | 个 |
| 请求返回的400状态码个数(Count) | CMR 返回400状态码含义为请求参数错误,常见原因包括:请求参数错误、上下文窗口超限等。 | 个 |
| 请求返回的401状态码个数(Count) | CMR 返回401状态码含义为鉴权失败,常见原因包括:访问 BYOK 模型时用户提供的 API Key 无效或过期、请求未携带 API Key 等。 | 个 |
| 请求返回的403状态码个数(Count) | CMR 返回403状态码含义为权限不足,常见原因包括:访问 BYOK 模型时 API Key 没有访问请求中模型的权限、厂商侧帐户被暂停或受限等。 | 个 |
| 请求返回的404状态码个数(Count) | CMR 返回404状态码含义为资源不存在,常见原因包括:请求的模型名称在厂商侧不存在、BYOK 模型自定义 API Base 的路径错误等。 | 个 |
| 请求返回的408状态码个数(Count) | CMR 返回408状态码含义为请求超时,常见原因包括:上游模型响应超时、与上游模型建立连接超时等。 | 个 |
| 请求返回的422状态码个数(Count) | CMR 返回422状态码含义为请求不可处理,常见原因为请求体语义错误。 | 个 |
| 请求返回的429状态码个数(Count) | CMR 返回429状态码含义为请求被限流,常见原因包括:每分钟请求数、消耗 Token 数超过上游模型厂商配额、并发请求数超过上游模型厂商限制等。 | 个 |
| 请求返回的500状态码个数(Count) | CMR 返回500状态码含义为上游模型服务端内部错误,常见原因包括:上游模型服务端内部异常、上游模型 API 连接失败等。 | 个 |
| 请求返回的502状态码个数(Count) | CMR 返回502状态码含义为上游模型厂商网关错误,常见原因包括:上游模型服务不可达、上游模型网关层异常等。 | 个 |
| 请求返回的503状态码个数(Count) | CMR 返回503状态码含义为上游模型服务不可用,常见原因包括:上游模型服务暂不可用、特定模型负载过高暂不可用、流式响应过程中连接中断等。 | 个 |
用量明细 | 读缓存 Token 数(Count) | 部分模型支持 Input 方向命中缓存的 Token 计数。 | 个 |
| 写缓存 Token 数(Count) | 部分模型支持 Input 方向写缓存的 Token 计数。 | 个 |
| 常规非缓存 Token 数(Count) | Input 方向没有命中任何缓存的 Token 计数。 | 个 |
| 上游模型内置工具使用次数(Count) | 部分模型支持工具调用的次数计数。 | 个 |
| 推理思考 Token 数(Count) | 部分模型支持把推理思考部分的 Token 进行计数。 | 个 |
| 常规文本输出 Token 数(Count) | 模型 Output 方向输出的 Token 计数。 | 个 |
时延 | 上游模型调用时延(ms) | 模型路由访问上游模型的调用时延。 | ms |
| 流式请求的首 Token 时延(ms) | 模型路由从输入到输出首个 Token 间隔的时间。 | ms |
| CMR 自身处理开销时延(ms) | 模型路由自身进行处理逻辑的耗时。 | ms |
| CMR 请求时延(ms) | CMR 请求时延,为上游模型调用时延与 CMR 自身处理开销时延之和。 | ms |
上游模型 | 上游模型失败响应次数(Count) | 上游模型失败响应次数 | 个 |
| 上游模型请求总数(Count) | 上游模型的总请求次数 | 个 |
| 上游模型成功响应次数(Count) | 上游模型成功响应次数 | 个 |
| 上游模型 fallback 调用成功次数(Count) | 上游模型 fallback 调用成功次数 | 个 |
| 上游模型 fallback 调用失败次数(Count) | 上游模型 fallback 调用失败次数 | 个 |
查看监控指标
1. 登录模型路由控制台,在实例管理页面,单击目标实例名称,进入目标实例的实例管理页面。

2. 切换至用量详情页签,查看相关指标。也可以指定 API Key 或者模型进行筛选查看。
