GBM和随机森林一样,在不同的数据集样本上构建每棵树,因此,遵循集成模型的精神,产生更高的精度。然而,我还没有看到GBM被用于每一棵树的维数抽样,就像随机森林中常见的做法一样。
是否有一些测试表明,用GBM进行的尺寸采样会降低其精度,因此无论是在文献形式还是在实际经验中,都避免了这种情况。
发布于 2016-03-29 22:58:54
sklearn的GradientBoostingClassifier / GradientBoostingRegressor有一个max_features参数,XGBoost有colsample_bylevel和colsample_bytree参数,它们控制对每棵树/拆分进行采样的特性。
发布于 2016-03-11 05:03:41
我从未在树的每个节点上读过(或尝试过)次抽样技术。我并不是说它们可能不存在,但似乎奇怪的是,“这是一种常见的随机森林做法”。
除此之外,对随机森林中的每一棵树进行次采样或引导样本,都会给出随机梯度增强弗里德曼,1999年年。在统计学习要素,第358页,10.12.2次抽样中,它们给出了更好的结果和更多的细节。
https://datascience.stackexchange.com/questions/2537
复制相似问题