文章/答案/技术大牛

发布

社区首页 >问答首页 >决策树-如何对分类特征进行拆分？

问决策树-如何对分类特征进行拆分？
EN

Data Science用户

提问于 2019-08-08 17:25:02

回答 3查看 4.9K关注 0票数 9

决策树在执行递归二进制分裂时，选择一个自变量(例如X_j)和一个阈值(例如t)，使得预测器空间被分割成区域{X|X_j < t}和{X|X_j >= t}，从而导致成本函数的最大降低。

现在让我们假设我们有一个变量，其中的categorical值在{X}中。假设我们对它进行了标签编码，它的值在0到9之间(10个类别)。

如果DT用上述算法分割一个节点，并将这10个值视为真数值，那么它不会导致错误/误解的拆分吗？
它是否应该对这个变量执行基于==和!=的拆分？但是，算法如何知道它是一个分类特征呢？
此外，在这种情况下，一个热编码值是否更有意义？

decision-trees

algorithms

machine-learning

random-forest

回答 3

Data Science用户

回答已采纳

发布于 2019-08-09 00:05:07

你在所有方面都是对的：

如果DT用上述算法分割一个节点，并将这10个值视为真数值，那么它不会导致错误/误解的拆分吗？

是的，完全正确，你所提到的原因如下：

它是否应该对这个变量执行基于==和!=的拆分？但是，算法如何知道它是一个分类特征呢？

是的，因为您正确地假设一个(真)范畴变量应该被比较，只为了相等，而不是顺序。

一般情况下，算法不能猜测特征的本质，在实现过程中必须有一些参数来提供这些信息。有些实现允许这样做，例如使用特征输入为“数字”或“名词”(分类)类型。。

此外，在这种情况下，一个热编码值是否更有意义？

再次更正，如果实现将所有功能视为数字值，则应该对分类特性执行此操作。

票数 9

Data Science用户

发布于 2019-12-13 11:11:01

是的，它会增加某些偏差，因为我们插入的顺序不是类别的固有的。
不怎么有意思。处理具有L类的分类特性的自然方法是探索所有可能的分区！这意味着2^L-1分区！
只是部分。OHE在理论上是有意义的，但是对于高基数的特性来说却不太好。一般来说，对于回归和二元分类问题，最优解是目标编码，正如Breiman在其关于分类和回归树的原始论文(1984)中所表达的那样。实际上，他证明了，通过按平均响应值(或概率)排序，只需评估有序范畴的L-1分裂，就可以在2^L-1可能的类别之间找到最优的分裂。

一种热编码对树不是很好，因为它迫使树产生许多只能分离少数特性的稀疏分割，而且在基数较高的情况下尤其有害。从这个意义上说，二进制编码甚至数字编码可能有助于以较低的深度实现更好的分离，尽管它们确实会对某些类型的分裂产生偏见。

票数 3

Data Science用户

发布于 2019-08-08 20:30:17

无论如何，决策树必须将连续变量转换为有类别。对于数值变量，有不同的方法可以找到最佳的拆分。在0:9的范围内，这些值仍然有意义，需要像一个常规的连续变量一样被拆分。如果您将每个值看作单独的类别，那么基本上就是在每个可能的点上分割。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/57256

复制

相似问题

问决策树-如何对分类特征进行拆分？
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问决策树-如何对分类特征进行拆分？EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问决策树-如何对分类特征进行拆分？
EN