数据准备是模型训练的基础,本教程将详细介绍Transformer在自然语言处理任务中的数据准备过程。...、文档类数据也可筛选使用需要注意版权、知识产权等问题,避免使用存在法律风险的数据源。...训练集用于模型迭代训练,验证集用于调整超参数,测试集最终评估模型效果。一般按照7:2:1的比例进行划分训练数据。需要保证各个数据集同分布,类目平衡。否则会导致模型过拟合现象。...同时要独立于训练集,避免出现数据泄露。评估验证集时禁用dropout、数据增强等,关闭 shuffle,使用teacher forcing,以获得一个较为准确的模型效果指标。...七、测试集制作测试集只在模型训练结束后使用一次,来评估最终性能。测试集的样本应当只出现在此,不可复用其他数据集的内容。同时样本数量要足够大,至少超过1万,以使指标评估更稳定可信。