10963字▕ 14图▕ 预计阅读25分钟
Rattle包基于R语言开发的强大数据挖掘工具,图形交互式可视化界面,如同SPSS Molder一样,可以让很多R初学者或R语言薄弱的同学完成数据挖掘工作。Rattle提供了数据清洗、简单统计检验、数据建模分析和模型评估。
数据建模包括:聚类、关联规则、决策树、随机森林、支持向量机、回归、神经网络和生存分析。
模型评估包括:混淆矩阵、风险图、Cost curve、Roc曲线、Hand图、Prv Ob图、Score等
上篇文章学习了Rattle的聚类、关联规则建模,今天主要学习决策树模型,Rattle提供了传统决策树、随机森林决策树和自适应选择决策树,如下如所示:
图1 Rattle决策树模型
决策树(Decision tree )是通过一系列规则对数据进行分类的过程,具体讲是利用信息论中的互信息 (信息增益 )寻找数据库中具有最大信息量的属性字段,建立决策树的一个节点,再根据该属性字段的不同取值建立树的分支 ,在每个分支子集中重复建立树的下层节点和分支的过程。决策树树形图如下所示:
图2 决策树树形图,SPSS25.0制作
图3 决策树树形图,来源网络
决策树在医学研究领域的应用:疾病诊断治疗,疾病程度分级、筛选危险因素,基因与高分子序列分析,医院信息系统挖掘,医疗政策分析、医疗卫生保健、医疗资源利用评价,感兴趣可在知网检索第二军医大学徐蕾的硕士学位论文《决策树技术及其在医学中的应用》及发表在《数理医药学杂志》的两篇文献,目前知网下载2400余次,被引100余次。下面是通过知网检索的决策树在医学领域应用的13篇文献,如下所示:
(左右滑动查看)
目前,常用决策树算法有ID3算法、CHAID算法、CART算法、C4. 5 /C5. 0算法 ,SPSS提供了CHAID算法、穷举CHAID算法、CRT算法和QUEST算法,如下所示:
图4 SPSS决策树算法
1
传统决策树模型
Rattle的传统决策树模型算法有Tradional和Conditional两种,Min Split为最小分支节点数、Min Bucket为叶子节点最小样本数、Max Depth树的最大深度、Complexity为某个点的复杂程度、Loss Matrix损失矩阵,Draw可以输出可视化树形图。
以自带数据集weather.csv为例,默认参数设置,传统决策树模型结果如下所示:
可视化决策树树形图输出,如下所示:
2
随机森林决策树
随机森林(Random froests)决策树可以克服传统决策树过拟合的缺点,算法分为传统随机森林算法(Traditional)、约束随机森林算法(Conditional),Trees表示决策树个数,Variables表示每棵树节点分支处选择变量的数量,Importtance绘制模型各变量的重要性可视化图,Errors绘制误判率图像,Rules输出规则集合,OOB ROC绘制误判率ROC图。
以自带数据集weather.csv为例,Trees设置为500,Variables设置为4,传统随机森林算法模型输出如下:
误判率和ROC可视化图如下所示:
规则图
3
自适应选择决策树模型
Boost自适应决策树模型的算法有Extreme和Adaptive两种,Max Depth、Min Split、Complexity的参数同传统决策树模型,Importance表示变量的重要性、Errors输出训练误差曲线、Continue可增加新的树。
以自带数据集weather.csv为例,选择Extreme算法,默认参数设置,自适应决策树模型输出如下:
参考文献:
1.https://rattle.togaware.com/
2.https://bit.ly/rattle_data_mining
3.https://bit.ly/essentials_data_science
—END—
领取专属 10元无门槛券
私享最新 技术干货