社区首页 >专栏 >决策树剪枝算法：REP/PEP/CCP算法

决策树剪枝算法：REP/PEP/CCP算法

Steve Wang

发布于 2023-10-12 01:34:10

1.1K0

一颗完全生长的决策树会面临一个严重的问题——过拟合，因此我们需要剪掉一些枝叶来提高决策树的泛化能力。即使不存在过拟合，如果样本数量和分类数量是一个海量的级别，也需要预剪枝，因为计算资源不足以支撑生成完整的决策树，这也是强化学习中蒙特·卡罗尔树必须剪枝的原因。

决策树算法生成的一颗完整的决策树会非常的庞大，每个变量都被详细地考虑过。在每一个叶节点上，只要继续分支就会有信息增益的情况，不管信息增益有多大，都会进行分支操作。最终所达到的目的是决策树的叶节点所覆盖的训练样本都属于同一类。

如果我们用这个决策树来对训练集进行分类的话，那么这颗树的表现非常好。但是在测试集上的表现就远没有在训练集上的表现好，这就是过拟合问题。

顾名思义，树的剪枝就是剪掉树的一些枝叶，考虑一颗完整决策树的非叶结点枝（枝）代表着逻辑判断，也代表着分类后的子集。决策树的剪枝就是删掉一些不必要的逻辑判断，并且将子集合并。这样确实会造成在训练集上子集不纯的现象，但是因为我们最终目标是模型在测试集上的效果，所以牺牲在训练集上的效果换取解决测试集的过拟合问题这样的做法也是值得的。决策树剪枝根据先后顺序可以分为两类，一类是预剪枝（在计算资源不够的时候哪怕没有过拟合也必须预剪枝），一类是后剪枝。

预剪枝

预剪枝的核心思想是在树中结点进行扩展之前，先计算当前的划分能否带来模型泛化能力的提升，如果不能，则不再继续生长子树。此时可能存在不同类别的样本同时存于同一结点中，按照多数投票原则判断该结点所属类别。预剪枝对于何时停止决策树生长有以下几种方法。

当树达到一定深度时，停止树的生长。
当达到当前结点的样本数量小于某个阈值的时候，停止树的生长。
设置信息增益的一个阈值，只能信息增益大于这个阈值时才进行进一步的划分。
计算每次分裂对测试集的准确度提升，当小于某个阈值时，不再扩展（这个最有效，但计算复杂度也最高）。

预剪枝具有思想直接、算法简单、效率高的特点，适合解决大规模问题。但如何准确地估计何时停止树地生长（即上述方法中的深度或者阈值），针对不同情况下的问题会有很大差别，需要一定的经验进行判断。且预剪枝存在一定局限性，有欠拟合风险，虽然当前划分可能导致测试集准确度降低，但之后的划分可能会有显著上升（类似于局部极值点）。

后剪枝

后剪枝的核心思想是让算法生成一颗完全生长的决策树，然后经过计算决定是否剪枝（自底向上:REP、CCP，自顶向下：PEP）。剪枝过程中将子树删除，用一个叶子结点来替代，该结点的类别同样也可以通过测试集上的准确率来判断，如果剪枝过后准确率有提升，则进行剪枝。相比于预剪枝，后剪枝方法通常可以得到泛化能力更强的决策树，但时间开销会更大。

常见的后剪枝算法包括错误率降低剪枝（REP，Reduced Error Pruning），代价复杂度剪枝（Cost Complexity Pruning），最小误差剪枝（Minimum Error Pruning）、悲观剪枝（Pessimistic Error Purning）、CVP（Critical Value Purning）、OPP（Optimial Purning）等方法，这些方法各有利弊，在合适的场景下选择合适的方法即可。

本文介绍ERP/PEP/CCP方法。