相关概念
信息熵:关于信息不确定性的度量
信息增益:熵 - 条件熵
表示信息不确定性减少的程度
例子:明天下雨例如信息熵是2,条件熵是0.01(在已知阴天的情况下)
那么2-0.01=1.99就是条件熵
Gini系数:表示样本集合的不确定性
随机森林是常用的衡量特征重要度的方法,若信息增益比较大,表示在这一步选择上它的特征比较明显
#今天先拿iris数据做个小测试,
from sklearn import tree
from sklearn.datasets import load_iris
from sklearn import tree
iris = load_iris()
clf = tree.DecisionTreeClassifier()
clf = clf.fit(iris.data, iris.target)
import graphviz
dot_data = tree.export_graphviz(clf, out_file=None)
graph = graphviz.Source(dot_data)
领取专属 10元无门槛券
私享最新 技术干货