基于github上的一个学习项目进行https://github.com/Avik-Jain/100-Days-Of-ML-Code
由浅入深,省去前期手工推导,练习中引入库来完成。
一般一天更新一次练习,我会将里面的英文引导翻译成中文。
久违的,终于赶上进程,不过似乎已经有人做了100天的翻译,这里就是学习记录了。
什么是决策树
决策树是一种监督学习算法,它主要应用于分类问题,适用于可分类、连续输入和输出变量。
决策树是一棵树,其每一个分支节点代表多个选项,每一个叶片节点代表最终的决策。
举例
图中的散点图是二维的,决策树如何处理?
在几次迭代中切片处理会有什么结果?
我们将数据分割,并构建决策树。稍后使用决策树完成任务。
决策树算法:ID3
ID3(Iterative Dichotomizer 3 迭代二分器),其基本思路是通过对一个数据集使用从上至下的贪婪查找测试每一个树节点的属性来构建决策树。
听起来很简单,但是哪些节点我们应该选择用来建立正确和最有价值的决策树?我们如何确定这些?我们有一些评估方法能够帮助我们选择最好的选项。
流程
A是最好的属性,将A分配为每个节点的决策属性。
对A的每个值创建一个子节点,将训练示例排序。
如果示例分类良好就停止
如果没有很好分类就进一步迭代
信息增益
最好属性是给出最大信息增益。广义上说是一种数学方法,通过选择特定属性来获取需要的信息量。其真正意义在于,基于已有的特定属性值,我们有的数据表格随机性下降。
Gain(S,A)=Entropy(S)-\Sigma_v\cfrac{|S_v|}{|S|}Entropy(S_v)
S:训练样本集
A:特别属性
|S_v|:|S_v|个数
|S|:|S|个数
v:属性的可能值
熵
熵在机器学习中的含义与热力学中的一致,如果是随机性度量的话。
Entropy=-\Sigma_vp(v)log_2p(v)
v:属性的可能值
步骤:
1.计算数据集的熵
2.对于每一个属性/特征:
计算每一个分类的熵
计算正确属性的平均信息熵
计算正确属性的增益
3.拾取最高增益属性
4.重复知道完成决策树
实现一个决策树分类,并进行可视化
和之前我们完成的demo相比,这是一个简单的决策树分类,没有做任何约束
引入必要库和数据集
分割数据并进行特征缩放
训练模型并使用测试集进行预测
数据可视化
领取专属 10元无门槛券
私享最新 技术干货