首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习学习笔记二

15

西瓜书:模型评估与选择

经验误差与过拟合

错误率:分类错误的样本数占样本总数的比例

精度:1-错误率

误差:学习器的实际预测输出与样本的真实输出之间的差异

训练误差(经验误差):学习器在训练集上的误差

泛化误差:在新样本上的误差

过拟合:学习器把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,从而导致泛化性能下降。

欠拟合:学习器不能完全学习训练样本的一般性质

举例:在训练识别树叶时过拟合分类结果中将树叶识别错误,认为树叶必须有锯齿,欠拟合认为绿色的都是树叶

多项式时间(Polynomial time):在计算复杂度理论中,指的是一个问题的计算时间m(n)不大于问题大小n的多项式倍数。任何抽象机器都拥有一复杂度类,此类包括可于此机器以多项式时间求解的问题。

P问题:指的是能够在多项式的时间里得到解决的问题。

NP问题:指的是能够在多项式的时间里验证一个解是否正确的问题。

:过拟合是机器学习的关键障碍,任何算法都不能彻底的避免,即“P≠NP”,只能尽可能的减少其影响,在模型选择时,对模型的泛化误差进行评估,选择最优模型。

模型评估

通过测试集来测试学习器对新样本的判别能力,将测试误差近似为泛化误差,测试集是从样本真实分布中采样得来,但应尽可能与训练集互斥。

训练集与测试集划分方法

留出法:直接将数据集D划分为两个互斥的集合,一个为训练集S,一个为训练集T,即D=S∪T,S∩T=空集。

数据集的划分的三个方面

1、要尽可能保持数据分布的一致性,避免引入额外的误差。

2、确定样本比例后,仍存在多种分割方式,因此需要若干次随机划分、重复进行试验评估后取平均值作为评估结果。

3、一般将数据集的2/3~4/5作为训练,剩余作为测试。

分层采样:保留类别比例的采样方式,例如对一个包含500个正例、500个反例的数据集进行分层采样获得含70%的训练集和30%的测试集,则得到的训练集中包含350个正例、350个反例,测试集中包含150个正例以及150个反例。

交叉验证法:先将数据集划分为K个大小相似的互斥子集,每个自己都尽可能保持数据分布独立性,然后每次用k-1个子集的并集作为训练集,剩下一个作为测试集,进行k次训练和测试,将k次结果的均值作为最终结果。

K折交叉验证:交叉验证法评估结果的稳定性和保真性很大程度上取决于k的取值,因此交叉验证法成为“k折交叉验证”,常用值为10,即为10折交叉验证。

p次k折交叉验证:k折交叉验证要随机使用不同的划分重复P次,最终结果为P次k折交叉验证结果的均值。

留一法:,数据集中包含m个样本,令K=m可得到交叉验证的一个特例。留一法中被实际评估的模型与期望评估的用数据集训练的模型相似,评估结果相对准确,但当数据集较大时,计算量太大。

自助法:给定m个样本的数据集,对其采样产生数据集D':每次随机从数据集D取一个样本放入D',然后将此样本放回初始数据集中,重复取m次(有放回取m次)。保证了D'和D的规模一致。但D'虽然也有m个样本,可其中会出现重复的样本,而D中会存在D'采样没有采到的样本,这些样本就留作测试集。

某样本在m次采样中均不会被采到的概率是:,取极限可得

即通过自助采样,理论上有36.8%的样本没有出现在D′之中。于是将D'用作训练集,D\D'用作测试集。

包外估计:通过自助采样,实际评估的模型与期望评估的模型都使用m个训练样本,而仍有数据总量约1/3的,没有在训练集中出现的样本用于测试,其结果为“包外估计”。

:自助法主要用于数据集较小、难以有效划分训练/测试集时,在数据量够时一般使用留出法和交叉验证法。

调参:对算法参数进行设定以获得最好的模型

机器学习的两类参数:一类是算法参数,一类是模型参数

验证集:模型评估与选择中用于评估测试的数据集

第二章模型评估内容较多,明天继续更新性能度量与比较检验。

欢迎关注

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180707G0877E00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券