评测 LLM 大模型精调效果

最近更新时间:2025-12-23 10:32:10

我的收藏
本文旨在介绍在 TI-ONE 平台的如何评测 LLM 大模型精调效果,做不同评测的合适时机。

前置准备

1. 评测模型:准备需要评测的模型,可以是开源模型或者您经过精调后的模型。
2. 评测数据集:用来评测的数据集,包括客观评测数据集与主观评测数据集。对于二者的要求可参考 评测集格式要求

第一步: 轻量体验

1. 轻量体验是指您将训练任务中保存的中间模型 checkpoint 进行部署,并对模型效果进行体验。轻量体验只关心模型的定性效果,不关心模型的定量指标。
2. 建议您训练到 0.5epoch 启动轻量体验。根据关键的任务要求,重点体验模型的回复是否符合预期。例如用户在训练集中加入了按 Markdown 格式输出,或者特殊语气回复的数据,则可以通过轻量体验,检验模型是否学到了这样的能力。
3. 如果模型在关键任务中的回复与预期差异较大,认为是模型学习失败,需要及时排查模型训练超参以及训练数据是否正确。
详细的操作流程您可参考 轻量体验

第二步: 自动评测

自动评测是指非人工介入即可评测模型效果的方式,通常包含使用内置的开源评测集进行模型通用能力评测,或者使用自定义评测集进行模型业务能力评测。在自动评测模块中,支持通过内置脚本自动计算分数,也支持通过AI模型(裁判模型)来进行打分。
详细的操作流程您可参考 自动评测

第三步: 人工评测

人工评测是人工对模型的推理结果进行打分。人工评测需要人工进行标注,建议您根据实际的业务需求仔细制作自定义评测集,包括问题、参考答案与打分标准。其中打分标准越细节越客观越好。例如针对摘要能力的人工评测,可以设置需要包含关键信息一、二、三等要求,如果有遗漏则扣1分。标注时需要对标注同学进行培训,并在标注过程中进行交叉校验,以确保多人审核标准的一致性。
详细的操作流程您可参考 人工评测