在李宏毅机器学习笔记(三)回归:案例研究一文中我们分别用到了一次、二次、三次、四次、五次的模型,它们在Testing Data上的表现如下:
了解error的来源其实是重要的,因为我们会常常做一下machine learning,做完就我们就可以知道其error,接下来要怎么优化你的Model呢?如果毫无头绪的话,那就没有效率。如果现在可以判断error的来源,你就可以挑选适当的方法以优化你的Model。
图中, 与 之间的距离就是误差,过程有点像打靶。
图中蓝圈相当于 的期望,靶心就是 。Bias表示枪瞄得准不准,最后的期望是否落在目标上。Variance表示打的散不散。
按照李宏毅机器学习笔记(三)回归:案例研究提到的,我们只有10个数据,怎么能弄出那么多个 呢?
假设有100个Universes,将由每个Universe得到的函数绘制成图,
简单的Model受训练数据影响较小,复杂的Model则反之。
简单的Model有比较大的Bias,复杂的Model有比较小的Bias。
What to do with large bias?
What to do with large variance?
在选择模型的时候我们总是追求bias和variance的平衡,还有就是不能按照testing set的error来选择model,因为此testing set可能不具有代表性。
那么,该怎么做呢?
或者
以上。
领取专属 10元无门槛券
私享最新 技术干货