在北京喝白开水都特别的开心
单枪匹马你别怕,一腔孤勇又如何,
这一路你可以苦,但不能怂,
总得熬过无人问津的日子,
才能迎来成功的和鲜花。
活着,
不是靠泪水博得同情,
而是开汗水赢的掌声。
2018 · 8 · 北京
买电脑?or 不买 AL神预测
什么是决策树/判定树(decision tree)?
判定树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。
机器学习中分类方法中的一个重要算法构造决策树的基本算法
树叶
这里就要提到熵(entropy)概念啦,有兴趣的同学也可以参看考研408试题,难度是有滴,但是痛苦过后的收获还是蛮大的。
对于上诉表格的信息如此抽象,如何度量?
1948年,香农提出了 ”信息熵(entropy)“的概念
一条信息的信息量大小和它的不确定性有直接的关系,要搞清楚一件非常非常不确定的事情,或者是我们一无所知的事情,需要了解大量信息==>信息量的度量就等于不确定性的多少
例子:猜最近刚过去的世界杯冠军,假如一无所知,猜多少次?
每个队夺冠的几率不是相等的
咋们用比特(bit)来衡量信息的多少
pi是第i个队的夺冠的概率,当pi均为1/12时,是6,否则均小于6。
变量的不确定性越大,熵也就越大
决策树归纳算法 (ID3)
选择属性判断结点
信息获取量(Information Gain):Gain(A) = Info(D) - Infor_A(D)(没有的信息量加上按A来分的信息量)
通过A来作为节点分类获取了多少信息
买电脑两种情况,买与不买,14种情况当中,9中买,5不买,所有信息结果是在0~1内哈,别计算发错啦!具体参考本科教材《计算机网络》
年轻人当中个5个2买,3不买
类似,Gain(income) = 0.029, Gain(student) = 0.151, Gain(credit_rating)=0.048
所以,选择最大的age作为第一个根节点
其他算法
C4.5: Quinlan
共同点:都是贪心算法,自上而下
区别:属性选择度量方法不同
树剪枝叶
小时候家里有桃园,爸爸每年早春都会对桃树的枝蔓进行修剪一番,在这里,我们依然可以利用仿生学原理,当然不是我啦,多感谢有一群默默为IT奋斗的学术研究者
为了避免overfitting, 如果长的这个数,叶子太大,训练比较好,但是分的情况太细化,新数据就不好了
决策树的特点
直观,便于理解,小规模数据集有效
处理连续变量不好
类别较多时,错误增加的比较快
可规模性一般
明日推文,利用Python对已有数据进行机器训练,然后将一个陌生人的输入输入,让自己自动识别,预测是否买电脑,预知后事如何,赶快关注把!明晚8点与你不见不散。
完
码龙社
一个有趣,有料,专注于传播技术,以技术会天下IT的公众号
领取专属 10元无门槛券
私享最新 技术干货