文档中心>TI-ONE 训练平台>操作指南>数据中心>创建大模型的数据标注任务

创建大模型的数据标注任务

最近更新时间:2026-04-29 19:17:03

我的收藏

概述

腾讯云 TI 平台支持针对 LLM&MLLM 大模型数据集进行标注,支持用户自定义数据集的 schema 信息来灵活搭建定制的标注操作台。

新建标注任务

数据中心 > 数据集管理模块,选择已新建好的大模型数据集,单击“操作-标注”按钮,后台会自动依据该数据集的 schema 配置信息创建对应的标注操作台。
重要的注意事项:
数据中心仅仅是将该数据集关联到用户的 cfs 路径上,数据中心并不会将用户的原始数据文件进行复制、转存。
用户在 TI 平台对该数据集进行标注时,标注结果会直接且实时的写到您数据集的原始文件中。所以,若您不希望原始文件被修改,请提前完成原始文件备份。




大模型标注操作台

TI 平台灵活的 schema 能支持的标注场景包括但不限于:高质量文本问答对筛选、文本数据清洗、图片问答对审核/修改、图片问答竞品评测、图片多轮问答、多模态阅读理解图片文本描述等。
以下给出 3 个不同 schema 配置对应的标注操作台示例:
1. 针对多图的多轮问答
desc: 多图多轮问答 record_fields: - name: img # 标注工作台展示的标注组件名称 key: img # 导出标注结果的json字段名称 type: ImageListInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: {{- range .Values.img }} # 使用循环引用图片列表 - {{ . }} {{- end }} - name: target # 标注工作台展示的标注组件名称 key: target # 导出标注结果的json字段名称 type: List # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: {{- range .Values.target }} # 使用循环展开List列表内容 - - name: 问题 # 标注工作台展示的标注组件名称 key: question # 导出标注结果的json字段名称 type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .question }}" size: MultiLine - name: 答案 # 标注工作台展示的标注组件名称 key: answer # 导出标注结果的json字段名称 type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .answer }}" size: LongArticle {{- end }}



在该场景下,可以配置 schema 实现多张图片的展示、问题和答案问答对配对展示,同时支持对问答对进行删除和添加,也支持调整问答对的先后顺序;同时用户还可以依据“问题、答案”两个字段不同的文本长度设置不同的输入框大小。
标注操作台功能细节:
可单击左侧图片区域上方的“缩放视图”调整图片展示大小。
可单击标题栏处右侧的“设置”按钮,设置字号大小以及文本中的 markdown 内容是否要展示。



可单击切换标注状态“未标/已标”;若当前样本有标注内容的修改,则后台会自动将状态流转为“已标”,若当前样本无任何修改,用户也可以手动单击“未标”按钮来切换成“已标”状态。

2. 针对单图的多模型评测
desc: 自动生成的YAML record_fields: - name: 图片 # 标注工作台展示的标注组件名称 key: Images # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: ImageViewer # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.Images }}" - name: 问题 # 标注工作台展示的标注组件名称 key: Query # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.Query }}" size: MultiLine - name: 参考答案 # 标注工作台展示的标注组件名称 key: sn_vl_0_6_0_10b_8k_beta_0624 # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.gtmodel }}" size: LongArticle - name: 选择最好的模型 # 标注工作台展示的标注组件名称 key: correct_model # 导出json标注结果时候该组件对应的json字段key type: StringSelector # 表明该组件类型是字符串选择组件 option: SingleSelector # 表明该组件是多选。字段取值范围:SingleSelector/MultiSelector help: 模型评测 # 组件帮助说明 choices: # 指定选项的内容 - 模型1 - 模型2 - 模型3 - 都舍弃 - name: 模型1的答案 # 标注工作台展示的标注组件名称 key: kzx2npurd5 # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: '{{ index .Values.model1 }}' size: MultiLine - name: 模型2的答案 # 标注工作台展示的标注组件名称 key: FT_qw15_sft_0626_v100_800 # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.model2 }}" size: MultiLine - name: 模型3的答案 # 标注工作台展示的标注组件名称 key: V4_FT_qw15_sft_0726_temp_old_500 # 导出标注结果的json字段名称(支持英文字母下划线,不能以数字开头) type: TextInput # 组件类型 help: "请添加字段描述" # 组件帮助说明 value: "{{ .Values.model3 }}" size: MultiLine



在该场景下,可以配置 schema 实现展示单张测试图片,以及配置展示不同模型的推理结果、设置待评测选择的模型名称。

3. 筛选高质量的文本问答对
desc: 筛选高质量的大模型训练数据
record_fields:
# 标注工作台展示的第一个组件定义
- name: question # 标注工作台展示的标注组件名称
key: question # 导出json标注结果时候该组件对应的json字段key
help: 请参考以下问题 # 组件帮助说明
type: TextViewer # 表明该组件类型是文本展示框,不可编辑
size: SingleLine # 表明该字段是单行文本框,字段取值范围:SingleLine/MultiLine/LongArticle
value: "{{ .Values.question }}" # 表明该字段的内容来源是单个json样本中的question字段
# 标注工作台展示的第二个组件定义
- name: answer # 标注工作台展示的标注组件名称
key: answer # 导出json标注结果时候该组件对应的json字段key
type: TextInput # 表明该组件类型是文本输入框
help: 请修正问题答案 # 组件帮助说明
size: MultiLine # 表明该字段是多行行文本框,字段取值范围:SingleLine/MultiLine/LongArticle
value: "{{ .Values.answer }}" # 表明该字段的默认内容来源是单个json样本中的answer字段
# 标注工作台展示的第三个组件定义
- name: 是否正确 # 标注工作台展示的标注组件名称
key: correct # 导出json标注结果时候该组件对应的json字段key
type: StringSelector # 表明该组件类型是字符串选择组件
help: 请判断答案是否正确 # 组件帮助说明
option: SingleSelector # 表明该组件是单选。字段取值范围:SingleSelector/MultiSelector
layout: RadioButton # 通过layout字段指定单选组件样式:RadioButton(点选框)或DropdownList(下拉单选框),选项较多时建议使用DropdownList避免文字溢出
choices: # 指定选项的内容
- 正确
- 舍弃
- 存疑
value: # 可以指定默认选中的选项,数组类型,单选为1个,多选可设置多个。
- 正确
# 标注工作台展示的第四个组件定义
- name: 舍弃存疑原因 # 标注工作台展示的标注组件名称
key: correct_reason # 导出json标注结果时候该组件对应的json字段key
type: StringSelector # 表明该组件类型是字符串选择组件
option: MultiSelector # 表明该组件是多选。字段取值范围:SingleSelector/MultiSelector
help: 答案不正确的原因 # 组件帮助说明
layout: Checkbox # 通过layout字段指定单选组件样式:CheckBox(点选框)或DropdownList(下拉多选框),选项较多时建议使用DropdownList避免文字溢出
choices: # 指定选项的内容
- 无错误
- 逻辑错误
- 答非所问
- 缺失内容
value: # 指定默认选中的选项,数组类型,单选为1个,多选可设置多个。
- 逻辑错误
- 缺失内容

在该场景下,可以配置 schema 实现展示不可编辑修改的“question”字段,防止标注人员在标注过程中的误操作,可设置“answer”字段为可编辑字段,同时支持用户配置自定义的筛选枚举值“正确、舍弃、存疑”,并设置以勾选的方式多选存疑或舍弃的原因。对于多选或单选组件,不仅可以自定义选择框的样式为平铺或下拉,还可以支持在标注过程中新增其他选项,无需重新修改标注任务配置。