功能概述
分类筛选
提供四个能力分类筛选:
分类 | 监控内容 |
文本生成 | 文本生成模型的 RPM(Requests Per Minute)、TTFT(Time To First Token)、TPOT(Time Per Output Token)等指标。 |
图像生成 | 图像生成模型的调用量、并发量等指标。 |
视频生成 | 视频生成模型的调用量、并发量等指标。 |
3D 生成 | 3D 生成模型的调用量、并发量等指标。 |
筛选条件
筛选项 | 说明 |
筛选维度 | 支持按服务/按模型筛选,切换不同的聚合视角。 |
服务选择 | 下拉选择特定推理服务(默认显示全部服务)。 |
时间范围 | 1小时/今天/近3天/近7天/近30天,或自定义时间区间。 |
监控指标说明
文本生成核心指标
以时序折线图的形式展示以下核心性能指标:
指标 | 全称 | 单位 | 说明 |
每分钟请求数(RPM) | Requests Per Minute | reqs/min | 每分钟的请求并发数,反映当前的请求吞吐量。 |
首 Token 延迟(TTFT) | Time To First Token | ms | 从请求发送到收到第一个 Token 的响应时间(单位时间内流式请求的 TTFT 均值,不包含非流式请求)。 |
每 Token 输出时延(TPOT) | Time Per Output Token | ms | 生成每个输出 Token 的平均耗时。 |
非流式接口延时 | Non-Stream Latency | ms | 单位时间内针对非流式请求的 latency,端到端耗时。 |
限流错误率 | Rate Limited Ratio | - | 限流次数 / 总调用次数。 |
超时错误率 | Request Canceled Ratio | - | 因超时等原因触发的取消请求 / 总调用次数。 |
错误率 | Request Error Ratio | - | HTTP 状态码非200请求数 / 总请求数 |
缓存命中率 | Cache Hit Ratio | - | 请求缓存命中 token 数 / 输入总 token 数 |
每项指标均提供最大值、最小值、平均值三项统计摘要,帮助用户快速定位性能异常。
示例如下:

图像/视频/3D 生成核心指标
图像、视频和 3D 生成模型的监控指标与文本生成不同,具体指标如下:
指标 | 说明 |
调用次数 | 每个时间点的调用请求数。 |
消耗积分数(仅视频生成、3D 生成提供) | 每个时间点的积分消耗数。 |
示例如下:
