首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

决策树的相关实践

相关概念

信息熵:关于信息不确定性的度量

信息增益:熵 - 条件熵

表示信息不确定性减少的程度

例子:明天下雨例如信息熵是2,条件熵是0.01(在已知阴天的情况下)

那么2-0.01=1.99就是条件熵

Gini系数:表示样本集合的不确定性

随机森林是常用的衡量特征重要度的方法,若信息增益比较大,表示在这一步选择上它的特征比较明显

#今天先拿iris数据做个小测试,

from sklearn import tree

from sklearn.datasets import load_iris

from sklearn import tree

iris = load_iris()

clf = tree.DecisionTreeClassifier()

clf = clf.fit(iris.data, iris.target)

import graphviz

dot_data = tree.export_graphviz(clf, out_file=None)

graph = graphviz.Source(dot_data)

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180106G0SGLV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券