负载均衡用量详情

腾讯云可观测平台为 CLB 模型路由产品提供数据收集与展示功能。腾讯云默认为所有用户开通，无需手动配置。只要您使用了 CLB 模型路由，腾讯云可观测平台即可自动收集相关监控数据。
监控指标说明 
CLB 模型路由提供如下监控指标。这些指标反映路由模型实例、API Key 及模型的使用状态和用量信息等。支持1分钟、5分钟、1小时和1天四种时间粒度。
类型
指标
说明
单位
核心用量
Token 总数(Count)
调用对话类模型时，输入和输出的 Token 数量总和。
个
﻿
输入 Token 数(Count)
调用对话类模型时，输入的 Token 数量总和。
个
﻿
输出 Token 数(Count)
调用对话类模型时，输出的 Token 数量总和。
个
﻿
请求积分消耗(Count)
根据配置的积分计算系数以及本次请求消耗的输入 Token 数、输出 Token 数计算
个
请求信息
CMR 成功请求次数(Count)
成功的 CMR 请求总数。
个
﻿
CMR 失败请求次数(Count)
失败的 CMR 请求总数。
个
﻿
CMR 调用上游模型失败的请求次数(Count)
CMR 调用上游模型失败的请求总数。
个
﻿
CMR 请求总数(Count)
CMR 请求总数。
个
﻿
请求返回的400状态码个数(Count)
CMR 返回400状态码含义为请求参数错误，常见原因包括：请求参数错误、上下文窗口超限等。
个
﻿
请求返回的401状态码个数(Count)
CMR 返回401状态码含义为鉴权失败，常见原因包括：访问 BYOK 模型时用户提供的 API Key 无效或过期、请求未携带 API Key 等。
个
﻿
请求返回的403状态码个数(Count)
CMR 返回403状态码含义为权限不足，常见原因包括：访问 BYOK 模型时 API Key 没有访问请求中模型的权限、厂商侧帐户被暂停或受限等。
个
﻿
请求返回的404状态码个数(Count)
CMR 返回404状态码含义为资源不存在，常见原因包括：请求的模型名称在厂商侧不存在、BYOK 模型自定义 API Base 的路径错误等。
个
﻿
请求返回的408状态码个数(Count)
CMR 返回408状态码含义为请求超时，常见原因包括：上游模型响应超时、与上游模型建立连接超时等。
个
﻿
请求返回的422状态码个数(Count)
CMR 返回422状态码含义为请求不可处理，常见原因为请求体语义错误。
个
﻿
请求返回的429状态码个数(Count)
CMR 返回429状态码含义为请求被限流，常见原因包括：每分钟请求数、消耗 Token 数超过上游模型厂商配额、并发请求数超过上游模型厂商限制等。
个
﻿
请求返回的500状态码个数(Count)
CMR 返回500状态码含义为上游模型服务端内部错误，常见原因包括：上游模型服务端内部异常、上游模型 API 连接失败等。
个
﻿
请求返回的502状态码个数(Count)
CMR 返回502状态码含义为上游模型厂商网关错误，常见原因包括：上游模型服务不可达、上游模型网关层异常等。
个
﻿
请求返回的503状态码个数(Count)
CMR 返回503状态码含义为上游模型服务不可用，常见原因包括：上游模型服务暂不可用、特定模型负载过高暂不可用、流式响应过程中连接中断等。
个
用量明细
读缓存 Token 数(Count)
部分模型支持 Input 方向命中缓存的 Token 计数。
个
﻿
写缓存 Token 数(Count)
部分模型支持 Input 方向写缓存的 Token 计数。
个
﻿
常规非缓存 Token 数(Count)
Input 方向没有命中任何缓存的 Token 计数。
个
﻿
上游模型内置工具使用次数(Count)
部分模型支持工具调用的次数计数。
个
﻿
推理思考 Token 数(Count)
部分模型支持把推理思考部分的 Token 进行计数。
个
﻿
常规文本输出 Token 数(Count)
模型 Output 方向输出的 Token 计数。
个
时延
上游模型调用时延(ms)
模型路由访问上游模型的调用时延。
ms
﻿
流式请求的首 Token 时延(ms)
模型路由从输入到输出首个 Token 间隔的时间。
ms
﻿
CMR 自身处理开销时延(ms)
模型路由自身进行处理逻辑的耗时。
ms
﻿
CMR 请求时延(ms)
CMR 请求时延，为上游模型调用时延与 CMR 自身处理开销时延之和。
ms
上游模型
上游模型失败响应次数(Count)
上游模型失败响应次数
个
﻿
上游模型请求总数(Count)
上游模型的总请求次数
个
﻿
上游模型成功响应次数(Count)
上游模型成功响应次数
个
﻿
上游模型 fallback 调用成功次数(Count)
上游模型 fallback 调用成功次数
个
﻿
上游模型 fallback 调用失败次数(Count)
上游模型 fallback 调用失败次数
个
查看监控指标 
1. 登录模型路由控制台，在实例管理页面，单击目标实例名称，进入目标实例的实例管理页面。
﻿
2. 切换至用量详情页签，查看相关指标。也可以指定 API Key 或者模型进行筛选查看。
﻿
﻿
﻿
﻿

类型	指标	说明	单位
核心用量	Token 总数(Count)	调用对话类模型时，输入和输出的 Token 数量总和。	个
		输入 Token 数(Count)	调用对话类模型时，输入的 Token 数量总和。	个
		输出 Token 数(Count)	调用对话类模型时，输出的 Token 数量总和。	个
		请求积分消耗(Count)	根据配置的积分计算系数以及本次请求消耗的输入 Token 数、输出 Token 数计算	个
请求信息	CMR 成功请求次数(Count)	成功的 CMR 请求总数。	个
		CMR 失败请求次数(Count)	失败的 CMR 请求总数。	个
		CMR 调用上游模型失败的请求次数(Count)	CMR 调用上游模型失败的请求总数。	个
		CMR 请求总数(Count)	CMR 请求总数。	个
		请求返回的400状态码个数(Count)	CMR 返回400状态码含义为请求参数错误，常见原因包括：请求参数错误、上下文窗口超限等。	个
		请求返回的401状态码个数(Count)	CMR 返回401状态码含义为鉴权失败，常见原因包括：访问 BYOK 模型时用户提供的 API Key 无效或过期、请求未携带 API Key 等。	个
		请求返回的403状态码个数(Count)	CMR 返回403状态码含义为权限不足，常见原因包括：访问 BYOK 模型时 API Key 没有访问请求中模型的权限、厂商侧帐户被暂停或受限等。	个
		请求返回的404状态码个数(Count)	CMR 返回404状态码含义为资源不存在，常见原因包括：请求的模型名称在厂商侧不存在、BYOK 模型自定义 API Base 的路径错误等。	个
		请求返回的408状态码个数(Count)	CMR 返回408状态码含义为请求超时，常见原因包括：上游模型响应超时、与上游模型建立连接超时等。	个
		请求返回的422状态码个数(Count)	CMR 返回422状态码含义为请求不可处理，常见原因为请求体语义错误。	个
		请求返回的429状态码个数(Count)	CMR 返回429状态码含义为请求被限流，常见原因包括：每分钟请求数、消耗 Token 数超过上游模型厂商配额、并发请求数超过上游模型厂商限制等。	个
		请求返回的500状态码个数(Count)	CMR 返回500状态码含义为上游模型服务端内部错误，常见原因包括：上游模型服务端内部异常、上游模型 API 连接失败等。	个
		请求返回的502状态码个数(Count)	CMR 返回502状态码含义为上游模型厂商网关错误，常见原因包括：上游模型服务不可达、上游模型网关层异常等。	个
		请求返回的503状态码个数(Count)	CMR 返回503状态码含义为上游模型服务不可用，常见原因包括：上游模型服务暂不可用、特定模型负载过高暂不可用、流式响应过程中连接中断等。	个
用量明细	读缓存 Token 数(Count)	部分模型支持 Input 方向命中缓存的 Token 计数。	个
		写缓存 Token 数(Count)	部分模型支持 Input 方向写缓存的 Token 计数。	个
		常规非缓存 Token 数(Count)	Input 方向没有命中任何缓存的 Token 计数。	个
		上游模型内置工具使用次数(Count)	部分模型支持工具调用的次数计数。	个
		推理思考 Token 数(Count)	部分模型支持把推理思考部分的 Token 进行计数。	个
		常规文本输出 Token 数(Count)	模型 Output 方向输出的 Token 计数。	个
时延	上游模型调用时延(ms)	模型路由访问上游模型的调用时延。	ms
		流式请求的首 Token 时延(ms)	模型路由从输入到输出首个 Token 间隔的时间。	ms
		CMR 自身处理开销时延(ms)	模型路由自身进行处理逻辑的耗时。	ms
		CMR 请求时延(ms)	CMR 请求时延，为上游模型调用时延与 CMR 自身处理开销时延之和。	ms
上游模型	上游模型失败响应次数(Count)	上游模型失败响应次数	个
		上游模型请求总数(Count)	上游模型的总请求次数	个
		上游模型成功响应次数(Count)	上游模型成功响应次数	个
		上游模型 fallback 调用成功次数(Count)	上游模型 fallback 调用成功次数	个
		上游模型 fallback 调用失败次数(Count)	上游模型 fallback 调用失败次数	个

用量详情

本页目录：

监控指标说明

查看监控指标