首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

掌握机器学习数学基础之信息论及其他(一)

这篇文章主要讲述信息论部分基础知识,下面开始分节讲述:

信息熵

条件熵

相对熵 (KL散度)

互信息

几种常用的距离度量

图论

树论

信息熵

信息熵:也叫香农熵(信息论之父——克劳德·香农,在 1948 年提出“ 信息熵解决了信息的度量问题),就是用来衡量信息量的大小。熵这个字出自与热力学,表示系统混乱的程度,在信息论中我们用信息熵来表示信息的大小。简单理解信息的不确定性越大,信息熵就越大,信息的不确定性越小,信息熵也就越小。

嗯,有点抽象,那就来结合例子来理解:–-以下例子(稍稍改动)来自《数学之美》(是本好书)。

假设我错过了某年的世界杯比赛,现在要去问一个知道比赛结果的朋友“哪支球队最终获得世界杯冠军”?他很不要脸的要求我猜,猜完会告诉我是对还是错,但我每猜一次就要给他一块钱。那么我需要付给他多少钱才能知道谁是冠军?我可以把球队编号,从1到32,然后问“冠军的球队在1-16号中吗?”。假如他告诉我对了,我就问“冠军的球队在1-8号中吗?”。如果他告诉我不对,我就自然就知道冠军队在9-16号中。这样我只需要猜5次就可以知道哪支球队是冠军了。所以,“谁是世界杯冠军”这个问题的答案的信息量只值5块钱。

而香农用“比特”(bit)来作为信息量的单位。像上边“谁是世界杯冠军”这个问题的答案的信息量是5比特。如果是64支球队,“谁是世界杯冠军”这个问题的答案的信息量就是6比特,因为我还要多猜一次。

对足球了解的朋友看到这有疑问了,他觉得他不需要5次来猜。因为他知道巴西,西班牙,德国等这些强队夺冠的可能性比日本,韩国等球队大的多。所以他可以先把强队分成一组,剩下的其它队伍一组。然后问冠军是否在夺冠热门组里边。重复这样的过程,根据夺冠的概率对剩下的候选球队分组,直至找到冠军队。这样也许三次或四此就猜出结果了。因此,当每支球队夺冠的可能性(概率)不一样时,“谁是世界杯冠军”这个问题的答案的信息量比5比特少。

而香农指出,“谁是世界杯冠军”这个问题的答案的信息量是:

, 其中log是以2为底数的对数,以下本文中的log都是以2为底的对数,下边不再特别说明。这就是衡量信息量多少的公式,它的单位是比特。之所以称为熵是因为它的定义形式和热力学的熵有很大的相似性。

给出二元信源信息熵图:

可以看到,在当 X 只有两个取值,且在时(意味着在二元中概率事件发生概率相等的情况下)的时候熵值是最大的,也就是说这个时候是是确定性最低的,最混乱的。(延伸到在足球的例子中的意思就是每个队的获胜概率都相等的时候,那个时候信息量(熵)最大,你就越难猜那个队会赢)

条件熵

条件熵:表示在已知第二个随机变量 X 下第一个随机变量 Y 信息熵的大小。条件上用表示

咦,看到上面式子就想起条件概率,其实,条件熵可以类比条件概率,他表示:在随机变量 X 的基础上我们引入随机变量 Y,假设 Y 和 X 有一定的关系。那么 Y 的信息熵会相对减小。

条件熵还是很好理解的吧!不理解吗?还是结合足球的例子,比如你知道其中一个队是铁定不会赢的了,那你要现在要猜那个队会赢,那个难度就下降了是吧,因为信息熵下降了!

再讲下联合熵:两个随机变量X和Y的联合分布可以形成联合熵,定义为联合自信息的数学期望,它是二维随机变量XY的不确定性的度量,用H(X,Y)表示:

为什么突然又说到联合熵?因为:实际上,熵、联合熵和条件熵之间存在关系:

而知道知道条件熵之后,信息增益就很简单了,信息增益:就是:

,表示的就是条件熵和原来熵的差值。(注意:信息增益也是相对熵的一个别称,指用来描述两个概率分布X和Y差别的非对称性的度量,下面讲相对熵)

上面是信息论的基础,而信息增益也是在机器学习中有很多的应用,比如在ID3算法中,衡量最佳特征的标准就是信息增益。

相对熵 (KL散度)

KL散度:是两个概率分布P和Q差别的非对称性的度量。 KL散度是用来 度量使用基于Q的编码来编码来自P的样本平均所需的额外的比特个数。这里肯定不易理解,没事,看下面例子, 典型情况下,P表示数据的真实分布,Q表示数据的理论分布,模型分布,或P的近似分布。

而KL散度的计算公式如下:

交叉熵:用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。而交叉熵和相对熵的关系如下:

相对熵=交叉熵-信息熵:

注意:很多时候“相对熵”也就称为“交叉熵”,虽然公式上看相对熵=交叉熵-信息熵,但由于真实分布p是固定的,D(pq)由H(p,q)决定。当然也有特殊情况,彼时2者须区别对待。

相对熵和交叉熵也是一个非常重要的概念,比如机器学习中有个交叉熵损失函数,用了交叉熵的重要性质,比如在GAN模型中,KL散度也是解释GAN原理的重要基础。

AI遇见机器学习

mltoai

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180124G10LTY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券