首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >决策树-如何对分类特征进行拆分?

决策树-如何对分类特征进行拆分?
EN

Data Science用户
提问于 2019-08-08 17:25:02
回答 3查看 4.9K关注 0票数 9

决策树在执行递归二进制分裂时,选择一个自变量(例如X_j)和一个阈值(例如t),使得预测器空间被分割成区域{X|X_j < t}和{X|X_j >= t},从而导致成本函数的最大降低。

现在让我们假设我们有一个变量,其中的categorical值在{X}中。假设我们对它进行了标签编码,它的值在0到9之间(10个类别)。

  1. 如果DT用上述算法分割一个节点,并将这10个值视为真数值,那么它不会导致错误/误解的拆分吗?
  2. 它是否应该对这个变量执行基于==!=的拆分?但是,算法如何知道它是一个分类特征呢?
  3. 此外,在这种情况下,一个热编码值是否更有意义?
EN

回答 3

Data Science用户

回答已采纳

发布于 2019-08-09 00:05:07

你在所有方面都是对的:

  1. 如果DT用上述算法分割一个节点,并将这10个值视为真数值,那么它不会导致错误/误解的拆分吗?

是的,完全正确,你所提到的原因如下:

  1. 它是否应该对这个变量执行基于==!=的拆分?但是,算法如何知道它是一个分类特征呢?

是的,因为您正确地假设一个(真)范畴变量应该被比较,只为了相等,而不是顺序。

一般情况下,算法不能猜测特征的本质,在实现过程中必须有一些参数来提供这些信息。有些实现允许这样做,例如使用特征输入为“数字”或“名词”(分类)类型。

  1. 此外,在这种情况下,一个热编码值是否更有意义?

再次更正,如果实现将所有功能视为数字值,则应该对分类特性执行此操作。

票数 9
EN

Data Science用户

发布于 2019-12-13 11:11:01

  1. 是的,它会增加某些偏差,因为我们插入的顺序不是类别的固有的。
  2. 不怎么有意思。处理具有L类的分类特性的自然方法是探索所有可能的分区!这意味着2^L-1分区!
  3. 只是部分。OHE在理论上是有意义的,但是对于高基数的特性来说却不太好。一般来说,对于回归和二元分类问题,最优解是目标编码,正如Breiman在其关于分类和回归树的原始论文(1984)中所表达的那样。实际上,他证明了,通过按平均响应值(或概率)排序,只需评估有序范畴的L-1分裂,就可以在2^L-1可能的类别之间找到最优的分裂。

一种热编码对树不是很好,因为它迫使树产生许多只能分离少数特性的稀疏分割,而且在基数较高的情况下尤其有害。从这个意义上说,二进制编码甚至数字编码可能有助于以较低的深度实现更好的分离,尽管它们确实会对某些类型的分裂产生偏见。

票数 3
EN

Data Science用户

发布于 2019-08-08 20:30:17

无论如何,决策树必须将连续变量转换为有类别。对于数值变量,有不同的方法可以找到最佳的拆分。在0:9的范围内,这些值仍然有意义,需要像一个常规的连续变量一样被拆分。如果您将每个值看作单独的类别,那么基本上就是在每个可能的点上分割。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/57256

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档