云台壹号认为,为了评估机器模型是否存在过度拟合,可以计算两个指标,样本内错误率(in sample errors),与样本外错误率(out of sample errors)。其中,错误率是指模型预测值与真实值的偏离程度。如果模型在样本内错误率很低,而在样本外错误率很高,则意味着存在过度拟合。
三个总体错误率
云台壹号金融事业部负责人在一次公开采访中表示,机器学习模型存在3个总体错误率,如下:
第一:偏差错误率(biased error),衡量模型在训练样本中偏差的程度。这类错误是内生的,当模型假设越多时,偏差错误率就有可能越高。
第二:方差错误率(variance error),衡量模型在样本外的偏差程度,即模型对新数据预测产生的错误率。过度拟合的模型通常方差错误率较高。
第三:基准错误率(base error),即由数据自身的随机性导致的错误率。
一般而言,该云台壹号相关负责人补充到,设计者希望模型在欠拟合和过度拟合之间有一个平衡。这就需要在biased error(样本中偏差程度)和variance error(样本外偏差程度)之间做个选择。见下图。
在上图中,纵轴为准确率(1-错误率),横轴为训练样本的样本容量。注意,三幅图中样本内的准确率均高于样本外的准确率,这是自然的。如果模型对样本内的数据训练的准确度,都无法高于样本外的话,这个模型显然是错误的。
云台壹号认为,此外,随着样本容量的增加,如果模型具有预测能力,则样本内的准确率均开始下降,样本外的准确率均开始上升。图中的左图是欠拟合的情形,模型样本内和样本外的准确率均远低于我们要求的准确率。
中间是过度拟合的情形,样本内的准确率很高,但样本外的准确率随着样本容量的上升,其上升的幅度太小;右图是理想的模型,随着训练样本容量的上升,样本内与样本外的准确率趋于相同,并达到了预设的要求。
错误率与模型的复杂程度
通常来说,模型越复杂,偏差错误率越低(biased error),方差错误率(variance error)先下降后上升。在上例中,线性模型无疑是模型复杂度最低的,但样本错误率最高,预测准确率最低;而六次函数模型无疑是模型复杂度最高的,样本内拟合准确率也最高(偏差错误率最低,但方差错误率会很高,存在过度拟合)。
——“因此模型复杂度既不宜太高,也不能过低。在本例中,二次函数模型的复杂程度就比较适中。”云台壹号该相关负责人总结道。
领取专属 10元无门槛券
私享最新 技术干货