使用“打高尔夫”或“玩球”数据(在底部列出),选择根节点,我们查看Outlook、温度、湿度和风,看看哪一个有最高的GainRatio。
现在,将选择Outlook作为具有最高GainRatio的属性。然而,我感到困惑的是,湿度(一个连续属性)选择了具有GainRatio=0.1087,的拆分点80,而65具有更高的GainRatio=0.1285.。分裂点80确实有更高的增益,但没有GainRatio。
我见过文献粗略地说过“选择一个连续属性的分裂点,使其获得最大的收益”.这似乎违反了我的直觉,即拆分点仅基于增益,而不是在比较您选择的最高GainRatio作为下一个决策节点的所有属性时。
我希望能在这里有所澄清。
谢谢。
计算如下:
展望:
增益= 0.2467
SplitInfo = 1.5774
增益比= 0.1564
温度:
增益= 0.0292
SplitInfo = 1.5566
增益比= 0.0187
湿度:
可能分裂点={ 65、70、75、78、80、85、90、95、96 }
分裂65:
增益= 0.0477
SplitInfo = 0.3712
增益比= 0.1285
分裂80:
增益= 0.1022
SplitInfo = 0.9402
增益比= 0.1087
风:
增益= 0.0481
SplitInfo = 0.9852
增益比= 0.0488
数据:
Outlook Temperature Humidity Wind Play
--------------------------------------------
sun hot 85 low no
sun hot 90 high no
overcast hot 78 low yes
rain sweet 96 low yes
rain cold 80 low yes
rain cold 70 high no
overcast cold 65 high yes
sun sweet 95 low no
sun cold 70 low yes
rain sweet 80 low yes
sun sweet 70 high yes
overcast sweet 90 high yes
overcast hot 75 low yes
rain sweet 80 high no
发布于 2017-02-20 07:30:15
在选择属性时,通过考虑分支的数目和大小,利用信息增益比来减少对具有大量值的属性的偏倚。在这里,我们已经选择了属性。因此,我们应该尽量使信息收益最大化,而不是信息增益比。
https://stackoverflow.com/questions/28919094
复制相似问题