操作场景
配置管理为模型评测提供统一的资源沉淀与复用入口,将评测任务运行所需的评测集、评测模板、基线标准集中管理,可直接复用平台已沉淀的标准资源快速发起评测,也可通过自定义新增、编辑配置项的方式构建专属的评测资产,其功能的详细描述为:
评测集:集中管理效果评测集与性能评测集以及其指标和参数,支持自定义上传或引用平台内置评测集,供自动评测与性能评测在数据集来源中一键引用。
评测模板:将一组评测配置(评测集、模型、指标、压测模式等)固化为可复用的模板,新建评测任务时可直接基于模板批量发起,统一团队评测口径。
基线标准:维护各模型/场景下的基线指标数据,作为后续评测结果的对比基准,支持在评测报告中关联基线进行差异分析,便于版本回归与质量判断。
操作步骤
创建评测集
评测集用于集中管理效果评测和性能评测所需的数据集以及其指标,支持引用平台内置评测集,也支持基于 CFS、GooseFSx、数据中心、数据源、COS 等多种来源新建自定义评测集。操作步骤如下:
1. 登录 TI-ONE 控制台,在左侧导航栏单击模型评测。
2. 在模型评测页面,单击配置管理> 评测集。

3. 进入评测集 Tab,可在顶部切换平台内置 / 用户自定义两类视图:
平台内置:展示平台预置的标准评测集(如 MMLU、GSM8K 等),可直接查看名称、来源、备注、标签等基础信息。
用户自定义:展示当前账号下自定义创建的评测集,支持新建、编辑、删除及详情查看。
4. 切换至 用户自定义 视图,单击列表上方的新建,进入新建评测集弹窗。
5. 在弹窗中选择评测方式,根据所选方式填写以下信息:
效果评测
参数 | 说明 |
评测集名称 | 用于在评测模板、新建评测任务时引用。 |
负责人 | 仅负责人和创建人可编辑该评测集。 |
备注 | 建议描述该评测集的覆盖场景与适用业务。 |
评测集标签 | 多个标签时,每输入一个标签使用回车键输入,便于在列表中检索归类。 |
评测集指标 | 多个标签时,每输入一个标签使用回车键输入,便于后续在评测模板中使用。请注意,该指标名称需要和镜像中的名称保持一致。 |
镜像 | 填写评测镜像地址,例如 ccr.ccs.tencentyun.com/eval/xxxxx。也可单击从已有配置中选择快速复用历史配置。 |
挂载路径设置 | 可对评测集、评测脚本进行配置。配置源路径 → 容器路径 的映射关系,并选择读写或只读模式。 |
启动命令 | 自定义启动命令,如 python run_eval.py。 |
环境变量 | 每行一个,格式为 KEY=VALUE。 |
性能评测
参数 | 说明 |
数据来源 | 支持 CFS、GooseFSx、GooseFS、数据中心、数据源、COS 五种来源。 选择来源后,需要进一步选择具体实例并填写评测集路径。 |
评测集名称 | 自定义输入评测集名称,当数据来源为“从配置中选择”时,由系统自动填充。 |
推理超参设置 | 以 JSON 格式填写推理参数。 { "repetition_penalty": 1, "temperature": 0, "top_p": 1, "top_k": 50, "do_sample": false} |
评测指标 | 可选择用于报告展示的指标,实际会评测所有指标并提供下载。 |
负责人 | 仅负责人和创建人可编辑该评测集。 |
备注 | 建议描述该评测集的覆盖场景与适用业务。 |
评测集标签 | 多个标签时,每输入一个标签使用回车键输入,便于在列表中检索归类。 |
6. 信息填写完成后,单击确定完成创建。新建的评测集会出现在 用户自定义列表的顶部。
7. 在列表中可对评测集进行以下操作:
查看详情:单击评测集名称进入详情页,可查看基础信息、参数配置、自定义评测配置等。
编辑:仅评测集的负责人或创建人可编辑。
删除:仅评测集的负责人或创建人可删除。删除后不可恢复,请谨慎操作。
创建评测模板
评测模板用于将一组完整的评测配置(评测集、评测指标、压测模式、资源组等)固化为可复用的"评测配置",新建评测任务时可直接基于模板批量发起,从而统一团队评测口径。操作步骤如下:
1. 登录 TI-ONE 控制台,在左侧导航栏单击模型评测。
2. 在模型评测页面单击配置管理> 评测模板。

3. 进入评测模板 Tab,列表中将展示当前账号下的所有模板及其评测类型、负责人、更新时间等信息。
4. 单击列表上方的新建,进入新建评测模板页面。
5. 填写模板基础信息。
参数 | 说明 |
评测类型 | 可选“效果评测”或“性能评测”。模板创建完成后该字段不可修改。 |
模板名称 | 建议体现适用场景,例如"通用知识评测-标准版"。 |
备注 | 可描述模板的适用范围、注意事项等。 |
负责人 | 仅负责人和创建人可编辑该模板。 |
评测集 | 选择评测集,并对详情信息(参数配置)、环境变量做配置,用于后续创建任务时使用。 性能评测可输入多个配置,可选择多并发压测和容量探测,需要配置对应的通用参数: 多并发压测:测试方式(每轮时长 / 每轮请求数)、上下文上下限(tokens)、并发数(支持枚举多个)、最大输出 Tokens、评测持续时间、预热请求数等。 容量探测:发送次序(顺序 / 切片)、起始并发数、递增步长、梯度时长、预热时长等。 |
资源 | 可选择机器资源、资源组和申请的资源。这里为预先配置,后续创建评测任务时也可以修改。 |
6. 列表中支持以下操作:
查看详情:单击模板名称进入详情,查看评测配置、评测集与资源组等。
编辑:仅负责人或创建人可编辑,评测类型字段不可修改。
发起评测:单击操作列的发起评测,即可基于该模板发起一次评测任务。
删除:删除后不可恢复。
创建基线标准
评测模板用于将一组完整的评测配置(评测集、评测指标、压测模式、资源组等)固化为可复用的"评测配置",新建评测任务时可直接基于模板批量发起,从而统一团队评测口径。操作步骤如下:
1. 登录 TI-ONE 控制台,在左侧导航栏单击模型评测。
2. 在模型评测页面单击配置管理> 评测模板。

基线标准用于沉淀模型在某一评测集上的指标基准值(如准确率、QPS、TTFT 等),后续评测结果可在报告中关联基线进行差异分析与质量是否通过判定。
3. 进入基线标准 Tab,列表展示当前账号下已沉淀的全部基线标准,可按 基线标准名称 / 模型 进行搜索。
4. 单击列表上方的新建按钮,进入新建基线标准页面。
5. 填写基线标准基础信息:
参数 | 说明 |
基线标准名称 | 建议体现"模型 + 场景",便于后续检索引用。 |
备注 | 可描述基线的来源、版本等。 |
负责人 | 仅负责人和创建人可编辑。 |
类型 | 可选“效果评测”、“性能评测”、“功能评测”。 |
来源 | 可选“供应商”或“其他”(即来自 TI-ONE 平台已有评测任务)。 |
指标 | 1. 在浮动标准中设置默认上下浮动值(百分比,默认 2.0%)。 2. 在评测指标列表中按需配置每个指标的 指标值、上浮动、下浮动。 注意:基线标准未配置任何评测集时,系统会标记为不可用,无法在评测报告中作为对比基准。 |
6. 信息填写完成后,单击确定完成创建。新建的基线标准会出现在列表顶部。
7. 列表中支持以下操作:
查看详情:单击名称进入详情页,可查看模型信息、评测集、指标规则、性能数据、基线来源等。
编辑:仅负责人和创建人可编辑。
复制:快速基于现有基线创建副本,便于版本迭代。
删除:删除后不可恢复。