前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >决策树的个人理解

决策树的个人理解

作者头像
卡伊德
发布2022-09-13 14:58:56
2100
发布2022-09-13 14:58:56
举报
文章被收录于专栏:caidblogcaidblog

决策树

所谓决策数,多个特征,对于每个特征进行评估,对于结果为True和False分别进行处理,处理完之后,在当前的处理结果的基础上,在评估其他特征,直至评估完成。

特征的处理顺序选择

1. 信息增量

熵:混乱程度
信息熵:纯度
信息增量:
决策树的生成:

如现有abc三个特征,其中a特征有三种分类:a1,a2,a3,b和c也对应有三种分类。那么假如数据在a的分类已完成,那么需要分别对a1、a2、a3的分类结果进行下一步的处理。处理过程如下,纯属个人描述,自己慢慢品:

  • 首先计算在处理完a1的情况下,以b作为切割属性,对应的信息增量(Gain)为0.2,而以c作为切割属性,对应的信息增量(Gain(D,a), 其中D为原有数据,即就是在处理当前特征的根节点数据,a为按哪列划分)为0.5,那么在a1做完处理之后,下一个判断属性应该是c。

公式理解:a有v中分类,Dv是分类v所包含数据量,D为总数据量。

  • 计算处理完a2的情况下,以b作为切割属性,对应的信息增量(Gain)为0.8,而以c作为切割属性,对应的信息增量(Gain(D,a), 其中D为原有数据,即就是在处理当前特征的根节点数据,a为按哪列划分)为0.1,那么在a1做完处理之后,下一个判断属性应该是b。
决策树的生成
  • 当某分类的数据全是同一种类型

2. 信息增益率

信息熵

信息增益率Cain_ratio(D, a)

因此Iv(a)就是Ent(D),就是a相关的信息熵。

用法:

同样,在选择特征时优先使用信息增益率大的特征。从式子可以看出来的是分割的种类如果太多的话,Iv(a)也即是更小。而信息增益率会更加倾向于取值数目比较多的内容。所以先找信息增益中几个比较大的增益特征,判断他们的增益率,找最大的增益率

3.基尼指数

基尼值

,指的是连续两次抽取相同分类的概率

p1的平方是指抽取两次都出现1的概率。

所以基尼值就是连续两次都抽取到不同分类的概率。如果基尼值大,则纯度低。

信息熵大,则纯度低。

基尼指数

基尼指小,代表纯度越高

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020/09/08 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 决策树
    • 特征的处理顺序选择
      • 1. 信息增量
        • 熵:混乱程度
        • 信息熵:纯度
        • 信息增量:
        • 决策树的生成:
        • 决策树的生成
      • 2. 信息增益率
        • 3.基尼指数
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档