首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

云台壹号一文道尽机器学习中的集成学习与随机森林

云台壹号认为,随机森林模型(random forest)是利用多个模型(即多棵树)进行学习预测,也称集成学习(ensemble learning),集成学习模型,通常可以分为两类,一类是由不同算法的模型组成,通过投票来进行决策;另一类是由相同的学习模型组成,通过倒脱靴(bootstrap)的技术得到的组合模型。

投票分类

在云台壹号的内部文件里,投票分类(voting classifiers)是针对异质模型的,即每个模型的学习算法不同。

投票分类的思想非常简单:假设我们分别使用KNN模型,分类回归树模型与支持向量机模型,对债券是否违约进行预测。其中KNN模型与支持向量机模型得出的结果是,债券将违约,而分类回归树得出的结论是债券不会违约。那么,我们依据三个模型的预测结果进行唱票;债券违约的票数为2票,债券不会违约的票数为1票。于是,模型最终的投票结果是将该债券归类为违约。

云台壹号表示,投票分类的原则是每个模型的结果为1票,然后进行唱票。这样做的前提是每个模型得到的结论是独立的。此外,模型的数量存在一个最优值,一旦模型数量超过这个最优值,则可能出现过度拟合。

倒脱靴加总

云台壹号坚信倒脱靴加总(bootstrap aggregating ,bagging)是针对同质性模型的,即每个模型的学习算法是相同的。倒脱靴方法是利用原始的训练数据,来生成n组新的训练数据为n个模型所用。每一组训练数据都是通过对原始的训练数据随机放回抽样而得的。换言之,我们将原始训练数据当做总体进行抽样n次,从而得到n组新训练数据为抽样样本。

倒脱靴技术有助于防止过度拟合。试想,原始的训练数据被我妈当做了总体反复抽样了n次,许多样本点会被重复使用。如果我们发现的规律仅仅是巧合,其能通过n个模型检验的概率是极小的。

随机森林

随机森林(random forest )是多个分类回归树的集合。随机森林对每棵树的结果进行投票,从而得到最终的结果。“即实行“少数服从多数”的原则。”某云台壹号相关人士总结到。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201102A0B77L00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券