GBDT算法总结

全栈程序员站长

发布于 2022-11-04 11:32:27

1.2K0

文章被收录于专栏：全栈程序员必看全栈程序员必看

大家好，又见面了，我是你们的朋友全栈君。

前向分布算法

负梯度拟合

在上一节中，我们介绍了GBDT的基本思路，但是没有解决损失函数拟合方法的问题。针对这个问题，大牛Freidman提出了用损失函数的负梯度来拟合本轮损失的近似值，进而拟合一个CART回归树。第t轮的第i个样本的损失函数的负梯度表示为

　　　　利用(xi,rti)(i=1,2,..m)(xi,rti)(i=1,2,..m),我们可以拟合一颗CART回归树，得到了第t颗回归树，其对应的叶节点区域Rtj,j=1,2,…,JRtj,j=1,2,…,J。其中J为叶子节点的个数。

　　　　针对每一个叶子节点里的样本，我们求出使损失函数最小，也就是拟合叶子节点最好的的输出值ctjctj如下：

　　　　这样我们就得到了本轮的决策树拟合函数如下：

　　　　从而本轮最终得到的强学习器的表达式如下：

　　　　通过损失函数的负梯度来拟合，我们找到了一种通用的拟合损失误差的办法，这样无轮是分类问题还是回归问题，我们通过其损失函数的负梯度的拟合，就可以用GBDT来解决我们的分类回归问题。区别仅仅在于损失函数不同导致的负梯度不同而已。

损失函数

在GBDT算法中，损失函数的选择十分重要。针对不同的问题，损失函数有不同的选择。

1.对于分类算法，其损失函数一般由对数损失函数和指数损失函数两种。

(1)指数损失函数表达式：

(2)对数损失函数可分为二分类和多分类两种。

2.对于回归算法，常用损失函数有如下4种。

(1)平方损失函数：

(2)绝对损失函数：

对应负梯度误差为：

(3)Huber损失，它是均方差和绝对损失的折中产物，对于远离中心的异常点，采用绝对损失误差，而对于靠近中心的点则采用平方损失。这个界限一般用分位数点度量。损失函数如下：

对应的负梯度误差为：

（4）分位数损失。它对应的是分位数回归的损失函数，表达式为：

其中

为分位数，需要我们在回归之前指定。对应的负梯度误差为：

对于Huber损失和分位数损失，主要用于健壮回归，也就是减少异常点对损失函数的影响。

回归问题

梯度提升算法（回归问题）：

输入：训练数据集T={

}，

；损失函数L(y,f(x))；

输出：回归树

(1)初始化

注：估计使损失函数极小化的常数值，它是只有一个根结点的树

(2)对m=1,2,…,M

(a)对i=1,2,…N，计算

注： 计算损失函数在当前模型的值，作为残差的估计

(b)对

拟合一个回归树，得到第m棵树的叶结点区域

,j=1,2,…,J

(c)对j=1,2,…,J，计算

注：在损失函数极小化条件下，估计出相应叶结点区域的值

(d)更新

(3)得到回归树

分类问题（二分类与多分类）

这里看看GBDT分类算法，GBDT的分类算法从思想上和GBDT的回归算法没有区别，但是由于样本输出不是连续的值，而是离散的类别，导致我们无法直接从输出类别去拟合输出类别的误差。

为了解决这个问题，主要有两个方法，一个是用指数损失函数，此时GBDT退化为Adaboost算法。另一种方法用类似逻辑回归的对数似然函数的方法。也就是说，我们用的是类别的预测概率值和真实概率值的差来拟合损失。此处仅讨论用对数似然函数的GBDT分类。对于对数似然损失函数，我们有又有二元分类和的多元分类的区别。

1.二分类GBDT算法

对于二分类GBDT，如果用类似逻辑回归的对数似然损失函数，则损失函数为：

其中

{-1,1}。此时的负梯度误差为：

对于生成的决策树，我们各个叶子节点的最佳负梯度拟合值为

由于上式比较难优化，我们一般使用近似值代替

除了负梯度计算和叶子节点的最佳负梯度拟合的线性搜索，二分类GBDT与GBDT回归算法过程相同。

2.多分类GBDT算法

多分类GBDT比二分类GBDT复杂些，对应的是多元逻辑回归和二元逻辑回归的复杂度差别。假设类别数为K，则此时我们的对数似然损失函数为：

其中如果样本输出类别为k，则

=1.第k类的概率

的表达式为：

集合上两式，我们可以计算出第t轮的第i个样本对应类别l的负梯度误差为：

观察上式可以看出，其实这里的误差就是样本i对应类别l的真实概率和t-1轮预测概率的差值。

对于生成的决策树，我们各个叶子节点的最佳负梯度拟合值为：

由于上式比较难优化，我们一般使用近似值代替

除了负梯度计算和叶子节点的最佳负梯度拟合的线性搜索，多分类GBDT与二分类GBDT以及GBDT回归算法过程相同。

正则化

对GBDT进行正则化来防止过拟合，主要有三种形式。

1.给每棵数的输出结果乘上一个步长a（learning rate）。

对于前面的弱学习器的迭代：

加上正则化项，则有

此处，a的取值范围为(0,1]。对于同样的训练集学习效果，较小的a意味着需要更多的弱学习器的迭代次数。通常我们用步长和迭代最大次数一起决定算法的拟合效果。

2.第二种正则化的方式就是通过子采样比例(subsample)。取值范围为(0,1]。

GBDT这里的做法是在每一轮建树时，样本是从原始训练集中采用无放回随机抽样的方式产生，与随机森立的有放回抽样产生采样集的方式不同。若取值为1，则采用全部样本进行训练，若取值小于1，则不选取全部样本进行训练。选择小于1的比例可以减少方差，防止过拟合，但可能会增加样本拟合的偏差。取值要适中，推荐[0.5,0.8]。

3.第三种是对弱学习器即CART回归树进行正则化剪枝。（如控制树的最大深度、节点的最少样本数、最大叶子节点数、节点分支的最小样本数等）

GBDT优缺点

1.GBDT优点

可以灵活处理各种类型的数据，包括连续值和离散值。
在相对较少的调参时间情况下，预测的准确率也比较高，相对SVM而言。
在使用一些健壮的损失函数，对异常值得鲁棒性非常强。比如Huber损失函数和Quantile损失函数。

2.GBDT缺点

由于弱学习器之间存在较强依赖关系，难以并行训练。可以通过自采样的SGBT来达到部分并行。

sklearn参数

在scikit-learning中，GradientBoostingClassifier对应GBDT的分类算法，GradientBoostingRegressor对应GBDT的回归算法。

具体算法参数情况如下：

GradientBoostingRegressor(loss=’ls’, learning_rate=0.1, n_estimators=100, 
                subsample=1.0, criterion=’friedman_mse’, min_samples_split=2,
                min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_depth=3,
                min_impurity_decrease=0.0, min_impurity_split=None, init=None, 
                random_state=None, max_features=None, alpha=0.9, verbose=0, 
                max_leaf_nodes=None, warm_start=False, presort=’auto’, 
                validation_fraction=0.1, n_iter_no_change=None, tol=0.0001)

参数说明：

n_estimators：弱学习器的最大迭代次数，也就是最大弱学习器的个数。
learning_rate：步长，即每个学习器的权重缩减系数a，属于GBDT正则化方化手段之一。
subsample：子采样，取值(0,1]。决定是否对原始数据集进行采样以及采样的比例，也是GBDT正则化手段之一。
init：我们初始化的时候的弱学习器。若不设置，则使用默认的。
loss：损失函数，可选{‘ls’-平方损失函数，’lad’绝对损失函数-,’huber’-huber损失函数,’quantile’-分位数损失函数}，默认’ls’。
alpha：当我们在使用Huber损失”Huber”和分位数损失”quantile”时，需要指定相应的值。默认是0.9，若噪声点比较多，可适当降低这个分位数值。
criterion：决策树节搜索最优分割点的准则，默认是”friedman_mse”，可选”mse”-均方误差与’mae”-绝对误差。
max_features：划分时考虑的最大特征数，就是特征抽样的意思，默认考虑全部特征。
max_depth：树的最大深度。
min_samples_split：内部节点再划分所需最小样本数。
min_samples_leaf：叶子节点最少样本数。
max_leaf_nodes：最大叶子节点数。
min_impurity_split：节点划分最小不纯度。
presort：是否预先对数据进行排序以加快最优分割点搜索的速度。默认是预先排序，若是稀疏数据，则不会预先排序，另外，稀疏数据不能设置为True。
validationfraction：为提前停止而预留的验证数据比例。当n_iter_no_change设置时才能用。
n_iter_no_change：当验证分数没有提高时，用于决定是否使用早期停止来终止训练。