首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Out of bag error in Random Forest

Out of bag error in Random Forest

作者头像
GavinZhou
发布于 2018-01-02 07:54:12
发布于 2018-01-02 07:54:12
1.5K0
举报

sklearn中的RandomForestClassifier有一个参数:

oob_score : bool (default=False) Whether to use out-of-bag samples to estimate the generalization accuracy.

中文叫‘袋外误差’,可以看出这个参数的意思是:使用oob来衡量test error.

关于oob的解释,stackoverflow上有比较全面的解释:OOB的解释 说下自己的理解:

  • RF需要从原始的特征集中随机sampling,然后去分裂生成单颗树.
  • 每个树的训练样本是从原始的训练集boostraping而来.
  • 由于boostraping的有放回抽样方式,导致每个树的训练集合不同且只是原始训练集的一个部分.
  • 对于第t个树来说,原始训练集中那些不在第t个树的训练集的数据,可以使用第t个树来进行test.
  • 现在生成n(n是原始数据集的大小)个树,每个树的训练样本大小为n-1,对第i个树来说其训练集不包含(xi,yi)这个样本.
  • 使用不包含(xi,yi)这个样本的所有的树(n-1个),vote的结果作为最终(xi,yi)这个样本的test结果.

这样就可以在训练的时候来进行测试了,经验表明:

out-of-bag estimate is as accurate as using a test set of the same size as the training set.

意思就是,oob是test error的一个无偏估计.

一句话总结下: 假设Zi=(xi,yi)

The out-of-bag (OOB) error is the average error for each Zi calculated using predictions from the trees that do not contain Zi in their respective bootstrap sample. This allows the RandomForestClassifier to be fit and validated whilst being trained.

参考

stackoverflow上OOB的解释 sklearn上OOB的解释

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-08-15 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器器学习算法系列列(1):随机森林随机森林原理随机森林的生成随机采样与完全分裂随机森林的变体
顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决 策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每 一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一 类被选择最多,就预测这个样本为那一类。 我们可以这样⽐比喻随机森林算法:每一棵决策树就是一个精通于某一个窄领域的专家(因为我们 从M个特征中选择m个让每一棵决策树进行行学习),这样在随机森林中就有了了很多个精通不不同领 域的专家,对一个新的问题(新的输⼊入数据),可以用不不同的角度去看待它,最终由各个专家, 投票得到结果。 随机森林算法有很多优点:
用户1359560
2018/10/15
2.2K0
机器学习入门 13-4 oob(Out-of-Bag)和关于Bagging的更多讨论
上一小节介绍了 Bagging 这种集成学习方式,我们不再使用不同的机器学习算法进行集成,而是使用同一种机器学习算法,让这个算法在不同的样本上进行训练,而这些不同的样本是通过对全部样本数据有放回取样得到的,这些在不同样本上训练的子模型有一定的差异性。
触摸壹缕阳光
2021/05/06
4.2K0
随机森林算法及其实现(Random Forest)
  作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销到医疗保健保险,既可以用来做市场营销模拟的建模,统计客户来源,保留和流失,也可用来预测疾病的风险和病患者的易感性。最初,我是在参加校外竞赛时接触到随机森林算法的。最近几年的国内外大赛,包括2013年百度校园电影推荐系统大赛、2014年阿里巴巴天池大数据竞赛以及Kaggle数据科学竞赛,参赛者对随机森林的使用占有相当高的比例。此外,据我的个人了解来看,一大部分成功进入答辩的队伍也都选择了Random Forest 或者 GBDT 算法。所以可以看出,Random Forest在准确率方面还是相当有优势的。
全栈程序员站长
2022/07/25
1.1K0
随机森林算法及其实现(Random Forest)
中国台湾大学林轩田机器学习技法课程学习笔记10 -- Random Forest
上节课我们主要介绍了Decision Tree模型。Decision Tree算法的核心是通过递归的方式,将数据集不断进行切割,得到子分支,最终形成数的结构。C&RT算法是决策树比较简单和常用的一种
红色石头
2017/12/28
9350
中国台湾大学林轩田机器学习技法课程学习笔记10 -- Random Forest
特征选择的几种方法[通俗易懂]
  使用方差选择法,先要计算各个特征的方差,然后根据阈值,选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下:
全栈程序员站长
2022/07/23
6.2K0
特征选择的几种方法[通俗易懂]
Random Forest
随机森林还是没有脱离聚合模型这块,之前学过两个aggregation model,bagging和decision tree,一个是边learning边uniform。首先是boostrap方式得到数据D1,之后训练做平均;另一个也是边learning但是做的是condition,直接用数据D做conditional切分。
西红柿炒鸡蛋
2018/09/07
9490
统计学习导论 Chapter8 -- Tree-Based Methods
Book: An Introduction to Statistical Learning with Applications in R http://www-bcf.usc.edu/~g
用户1148525
2018/01/03
1.4K0
统计学习导论 Chapter8 -- Tree-Based Methods
通俗解释随机森林算法
首先我们来复习一下之前介绍过的两个机器学习模型:Bagging和Decision Tree。Bagging是通过bootstrap的方式,从原始的数据集D中得到新的D^;然后再使用一些base algorithm对每个D^都得到相应的gt;最后将所有的gt通过投票uniform的形式组合成一个G,G即为我们最终得到的模型。Decision Tree是通过递归形式,利用分支条件,将原始数据集D切割成一个个子树结构,长成一棵完整的树形结构。Decision Tree最终得到的G(x)是由相应的分支条件b(x)和分支树Gc(x)递归组成。
红色石头
2022/01/12
4010
通俗解释随机森林算法
100天搞定机器学习|Day56 随机森林工作原理及调参实战(信用卡欺诈预测)
前文对随机森林的概念、工作原理、使用方法做了简单介绍,并提供了分类和回归的实例。本期我们重点讲一下:
Ai学习的老章
2019/12/06
8160
100天搞定机器学习|Day56 随机森林工作原理及调参实战(信用卡欺诈预测)
机器学习实战 | 第三章:集成学习
集成学习肯定是在实战中最不可或缺的思想了.毕竟都想把错误率低一点,再低一点,再低一点.看看kaggle大量的集成学习就知道这节肯定绕不过去了. 在这里,仅仅说一下最基本的bagging的类,至于更加具体的随机森林或者boosting方法会具体的开一篇来写。bagging有两个类,一个是BaggingClassifier,还有一个是BaggingRegressor,两种形式都是类似的,所以之详细说BaggingClassifier,另外一个类比就行。 class sklearn.ensemble.Baggi
用户1332428
2018/03/08
5430
Decision stump、Bootstraping、bagging、boosting、Random Forest、Gradient Boosting
本文介绍了机器学习中的Decision Tree、Bootstrap、bagging、Random Forest、Gradient Boosting等算法,以及它们的应用和原理。这些算法在机器学习领域中具有广泛的应用,如分类、回归、聚类等。
用户1148525
2018/01/03
1.2K0
Decision stump、Bootstraping、bagging、boosting、Random Forest、Gradient Boosting
原理+代码,总结了 11 种回归模型
本文所用数据说明:所有模型使用数据为股市数据,与线性回归模型中的数据一样,可以做参考,此处将不重复给出。
数据STUDIO
2021/06/24
4.8K0
集成算法 | 随机森林分类模型
随机森林是非常具有代表性的Bagging集成算法,它的所有基评估器都是决策树,分类树组成的森林就叫做随机森林分类器,回归树所集成的森林就叫做随机森林回归器。
数据STUDIO
2021/06/24
1.2K0
《Scikit-Learn与TensorFlow机器学习实用指南》第7章 集成学习和随机森林
第7章 集成学习与随机森林 来源:ApacheCN《Sklearn 与 TensorFlow 机器学习实用指南》翻译项目 译者:@friedhelm739 校对:@飞龙 假设你去随机问很多人一个很复杂的问题,然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要好。这就叫做群体智慧。同样的,如果你合并了一组分类器的预测(像分类或者回归),你也会得到一个比单一分类器更好的预测结果。这一组分类器就叫做集成;因此,这个技术就叫做集成学习,一个集成学习算法就叫做集成方法。 例如,你可
ApacheCN_飞龙
2018/05/16
1.4K0
Tuning a random forest model调试随机森林模型
In the previous recipe, we reviewed how to use the random forest classifier. In this recipe,we'll walk through how to tune its performance by tuning its parameters.
到不了的都叫做远方
2019/12/01
1.5K0
《Scikit-Learn与TensorFlow机器学习实用指南》 第07章 集成学习和随机森林
假设你去随机问很多人一个很复杂的问题,然后把它们的答案合并起来。通常情况下你会发现这个合并的答案比一个专家的答案要好。这就叫做群体智慧。同样的,如果你合并了一组分类器的预测(像分类或者回归),你也会得到一个比单一分类器更好的预测结果。这一组分类器就叫做集成;因此,这个技术就叫做集成学习,一个集成学习算法就叫做集成方法。
SeanCheney
2018/09/19
7330
《Scikit-Learn与TensorFlow机器学习实用指南》 第07章 集成学习和随机森林
随机森林随机选择特征的方法_随机森林步骤
摘要:当你读到这篇博客,如果你是大佬你可以选择跳过去,免得耽误时间,如果你和我一样刚刚入门算法调参不久,那么你肯定知道手动调参是多么的低效。那么现在我来整理一下近几日学习的笔记,和大家一起分享学习这个知识点。对于scikit-learn这个库我们应该都知道,可以从中导出随机森林分类器(RandomForestClassifier),当然也能导出其他分类器模块,在此不多赘述。在我们大致搭建好训练模型之后,我们需要确定RF分类器中的重要参数,从而可以得到具有最佳参数的最终模型。这次调参的内容主要分为三块:1.参数含义;2.网格搜索法内容;3.实战案例。
全栈程序员站长
2022/09/27
2.1K0
随机森林--你想到的,都在这了
Bagging是bootstrap aggregating。思想就是从总体样本当中随机取一部分样本进行训练,通过多次这样的结果,进行投票获取平均值作为结果输出,这就极大可能的避免了不好的样本数据,从而提高准确度。因为有些是不好的样本,相当于噪声,模型学入噪声后会使准确度不高。
mantch
2019/07/30
1.6K0
随机森林(RF),Bagging思想
Bagging是bootstrap aggregating。思想就是从总体样本当中随机取一部分样本进行训练,通过多次这样的结果,进行投票获取平均值作为结果输出,这就极大可能的避免了不好的样本数据,从而提高准确度。因为有些是不好的样本,相当于噪声,模型学入噪声后会使准确度不高。
大数据技术与机器学习
2019/11/20
3K0
临床预测模型/机器学习-随机森林树RSF(RandomForest/RandomForestSRC)算法学习
随机森林(Random Forest)是一种集成机器学习方法,由多棵决策树组成。它通过训练大量的决策树并结合这些树的预测结果,来提高模型的准确性和稳健性。随机森林常用于分类、回归和其他预测任务,尤其适合处理高维数据和噪声数据。
凑齐六个字吧
2024/11/04
9930
临床预测模型/机器学习-随机森林树RSF(RandomForest/RandomForestSRC)算法学习
推荐阅读
相关推荐
机器器学习算法系列列(1):随机森林随机森林原理随机森林的生成随机采样与完全分裂随机森林的变体
更多 >
交个朋友
加入[数据] 腾讯云技术交流站
获取数据实战干货 共享技术经验心得
加入数据技术工作实战群
获取实战干货 交流技术经验
加入[数据库] 腾讯云官方技术交流站
数据库问题秒解答 分享实践经验
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档