大模型服务平台 TokenHub 模型监控

功能概述
﻿模型监控 提供实时的模型推理性能监控仪表板，帮助您追踪各模型的请求并发、Token 吞吐、响应延迟等核心指标，及时发现性能瓶颈。
分类筛选
提供以下能力分类筛选：
分类
监控内容
文本生成
文本生成模型的 RPM（Requests Per Minute）、TTFT（Time To First Token）、TPOT（Time Per Output Token）等指标。
图像生成
图像生成模型的调用量、并发量等指标。
视频生成
PixVerse 系列：模型的请求数、Token 消耗数、视频秒数、成功率、任务时长等指标。
﻿
HY、YT、Kling、VIdu 系列：模型的调用量、并发量等指标。
3D 生成
3D 生成模型的调用量、并发量等指标。
语音生成
语音模型的请求数、Token 消耗数、音乐数量、成功率、任务时长等指标。
筛选条件
筛选项
说明
筛选维度
支持按服务/按模型筛选，切换不同的聚合视角。
服务选择
下拉选择特定推理服务（默认显示全部服务）。
时间范围
1小时/今天/近3天/近7天/近30天，或自定义时间区间。
监控指标说明
文本生成核心指标
以时序折线图的形式展示以下核心性能指标：
指标
全称
单位
说明
每分钟请求数（RPM）
Requests Per Minute
reqs/min
每分钟的请求并发数，反映当前的请求吞吐量。
首 Token 延迟（TTFT）
Time To First Token
ms
从请求发送到收到第一个 Token 的响应时间（单位时间内流式请求的 TTFT 均值，不包含非流式请求）。
每 Token 输出时延（TPOT）
Time Per Output Token
ms
生成每个输出 Token 的平均耗时。
非流式接口延时
Non-Stream Latency
ms
单位时间内针对非流式请求的 latency，端到端耗时。
限流错误率
Rate Limited Ratio
-
限流次数 / 总调用次数。
超时错误率
Request Canceled Ratio
-
因超时等原因触发的取消请求 / 总调用次数。
错误率
Request Error Ratio
-
HTTP 状态码非200请求数 / 总请求数。
缓存命中率
Cache Hit Ratio
-
请求缓存命中 token 数 / 输入总 token 数。
每项指标均提供最大值、最小值、平均值三项统计摘要，帮助用户快速定位性能异常。
示例如下：
﻿
视觉模型核心指标
PixVerse 系列视频生成模型，以时序折线图的形式展示以下核心性能指标：
指标
说明
每分钟请求数
每分钟的任务请求数。
视频秒数
单位时间内所有生成视频的时长总和。
Token 消耗数
单位时间内所有任务请求的 Token 消耗数。
错误率
单位时间内任务请求的失败率。
任务时长
单位时间内任务请求的端到端平均耗时。
图像/视频/3D 生成核心指标
图像生成，3D 生成，HY、YT、Kling、Vidu 系列视频生成模型 的监控指标与文本生成不同，具体指标如下：
指标
说明
调用次数
每个时间点的调用请求数。
消耗积分数（仅视频生成、3D 生成提供）
每个时间点的积分消耗数。
语音生成核心指标
以时序折线图的形式展示以下核心性能指标：
指标
说明
每分钟请求数
每分钟的任务请求数。
音乐数量
单位时间内生成音乐的数量。
Token 消耗数
单位时间内所有任务请求的 Token 消耗数。
错误率
单位时间内任务请求的失败率。
任务时长
单位时间内任务请求的端到端平均耗时。

分类	监控内容
文本生成	文本生成模型的 RPM（Requests Per Minute）、TTFT（Time To First Token）、TPOT（Time Per Output Token）等指标。
图像生成	图像生成模型的调用量、并发量等指标。
视频生成	PixVerse 系列：模型的请求数、Token 消耗数、视频秒数、成功率、任务时长等指标。
视频生成		HY、YT、Kling、VIdu 系列：模型的调用量、并发量等指标。
3D 生成	3D 生成模型的调用量、并发量等指标。
语音生成	语音模型的请求数、Token 消耗数、音乐数量、成功率、任务时长等指标。

筛选项	说明
筛选维度	支持按服务/按模型筛选，切换不同的聚合视角。
服务选择	下拉选择特定推理服务（默认显示全部服务）。
时间范围	1小时/今天/近3天/近7天/近30天，或自定义时间区间。

指标	全称	单位	说明
每分钟请求数（RPM）	Requests Per Minute	reqs/min	每分钟的请求并发数，反映当前的请求吞吐量。
首 Token 延迟（TTFT）	Time To First Token	ms	从请求发送到收到第一个 Token 的响应时间（单位时间内流式请求的 TTFT 均值，不包含非流式请求）。
每 Token 输出时延（TPOT）	Time Per Output Token	ms	生成每个输出 Token 的平均耗时。
非流式接口延时	Non-Stream Latency	ms	单位时间内针对非流式请求的 latency，端到端耗时。
限流错误率	Rate Limited Ratio	-	限流次数 / 总调用次数。
超时错误率	Request Canceled Ratio	-	因超时等原因触发的取消请求 / 总调用次数。
错误率	Request Error Ratio	-	HTTP 状态码非200请求数 / 总请求数。
缓存命中率	Cache Hit Ratio	-	请求缓存命中 token 数 / 输入总 token 数。

指标	说明
每分钟请求数	每分钟的任务请求数。
视频秒数	单位时间内所有生成视频的时长总和。
Token 消耗数	单位时间内所有任务请求的 Token 消耗数。
错误率	单位时间内任务请求的失败率。
任务时长	单位时间内任务请求的端到端平均耗时。

指标	说明
调用次数	每个时间点的调用请求数。
消耗积分数（仅视频生成、3D 生成提供）	每个时间点的积分消耗数。

模型监控

本页目录：

功能概述

分类筛选

筛选条件

监控指标说明

文本生成核心指标

视觉模型核心指标

图像/视频/3D 生成核心指标

语音生成核心指标