Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >信息熵、条件熵、联合熵、互信息、相对熵、交叉熵

信息熵、条件熵、联合熵、互信息、相对熵、交叉熵

作者头像
统计学家
发布于 2019-07-30 07:27:48
发布于 2019-07-30 07:27:48
4.5K1
举报

信息熵、联合熵、条件熵、互信息的关系

1、信息量

信息量是通过概率来定义的:如果一件事情的概率很低,那么它的信息量就很大;反之,如果一件事情的概率很高,它的信息量就很低。简而言之,概率小的事件信息量大,因此信息量可以定义如下:

下面解释为什么要取倒数再去对数。

(1)先取倒数:

这件事表示:“信息量”和“概率”呈反比;

(2)在取对数:

取对数是为了将区间

映射到

再总结一下:

2、信息熵

信息熵是信息量的数学期望。理解了信息量,信息熵的定义式便不难理解。定义如下:

  • 熵越小表示越“纯”,决策树算法在进行特征选择时的其中标准之一就是选择使得通过该特征分类以后的类的熵最小;
  • 上面是熵越小越好,而有的时候,我们需要熵越大越好,简单来说就是“鸡蛋不要放在一个篮子里”(见吴军《数学之美》),最大熵原理就是这样,这部分内容可以参考李航《统计机器学习》逻辑回归模型相关部分。

3、条件熵

条件熵的定义为:在

给定的条件下,

的条件概率分布的熵对

的数学期望。

条件熵一定要记住下面的这个定义式,其它的式子都可以由信息熵和条件熵的定义式得出。

理解条件熵可以使用决策树进行特征选择的例子:我们期望选择的特征要能将数据的标签尽可能分得比较“纯”一些,特征将数据的标签分得“纯”,则熵就小,信息增益就大。

因为

条件熵可以变形成如下:

说明:有些教材直接把最后一步

定义成条件熵,其实是一个意思,我个人觉得

这种定义式更好理解,而这个定义式可以参考李航《统计学习方法》P61 ,并不难记忆,其实条件熵就是“被特征分割以后的信息熵的加权平均”。

4、联合熵

两个变量

的联合熵的表达式:

5、互信息

根据信息熵、条件熵的定义式,可以计算信息熵与条件熵之差:

同理

因此:

定义互信息:

即:

互信息也被称为信息增益。用下面这张图很容易明白他们的关系。

信息熵、联合熵、条件熵、互信息的关系

信息熵:左边的椭圆代表

,右边的椭圆代表

。 互信息(信息增益):是信息熵的交集,即中间重合的部分就是

。 联合熵:是信息熵的并集,两个椭圆的并就是

。 条件熵:是差集。左边的椭圆去掉重合部分就是

,右边的椭圆去掉重合部分就是

还可以看出:

5、相对熵

相对熵又称 KL 散度,如果我们对于同一个随机变量

有两个单独的概率分布

,使用 KL 散度(Kullback-Leibler (KL) divergence)来衡量这两个分布的差异。差异越大则相对熵越大,差异越小则相对熵越小。

计算公式如下:

如何记忆:如果用

来描述样本,那么就非常完美(因为

认为是真实的情况)。而用

来描述样本,虽然可以大致描述,但是不是那么的完美,信息量不足,需要额外的一些“信息增量”才能达到和

一样完美的描述。如果我们的

通过反复训练,也能完美的描述样本,那么就不再需要额外的“信息增量”,

等价于

。即

的分布完全一致的时候,KL 散度的值等于

6、交叉熵

我是这样记忆交叉熵的定义的,通过逻辑回归的损失函数记忆交叉熵。

认为是类标,是独热编码(也可以认为是概率分布),而

认为是逻辑回归预测的概率分布。

  • 交叉熵是对数似然函数的相反数。对数似然的值我们希望它越大越好,交叉熵的值我们希望它越小越好。

结论:KL 散度 = 交叉熵 - 熵 。这一点从相对熵的定义式就可以导出。

这里

就是交叉熵的定义式。

相对熵与交叉熵的关系:

参考资料

1、一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉

地址:https://blog.csdn.net/tsyccnh/article/details/79163834

2、机器学习各种熵:从入门到全面掌握

地址:https://zhuanlan.zhihu.com/p/35423404

3、信息增益(互信息)非负性证明

地址:https://blog.csdn.net/MathThinker/article/details/48375523

4、如何通俗的解释交叉熵与相对熵?

地址: https://www.zhihu.com/question/41252833

5、相对熵(KL散度)

地址: https://blog.csdn.net/ACdreamers/article/details/44657745

6、KL(kullback-Leibler-devergence)散度(相对熵)非负性

地址:https://blog.csdn.net/KID_yuan/article/details/84800434

7、简单的交叉熵,你真的懂了吗? https://zhuanlan.zhihu.com/p/61944055

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
为了更好的理解,需要了解的概率必备知识有:大写字母X表示随机变量,小写字母x表示随机变量X的某个具体的取值;P(X)表示随机变量X的概率分布,P(X,Y)表示随机变量X、Y的联合概率分布,P(Y|X)表示已知随机变量X的情况下随机变量Y的条件概率分布;p(X = x)表示随机变量X取某个具体值的概率,简记为p(x);p(X = x, Y = y) 表示联合概率,简记为p(x,y),p(Y = y|X = x)表示条件概率,简记为p(y|x),且有:p(x,y) = p(x) * p(y|x)。
为了更好的理解,需要了解的概率必备知识有:大写字母X表示随机变量,小写字母x表示随机变量X的某个具体的取值;P(X)表示随机变量X的概率分布,P(X,Y)表示随机变量X、Y的联合概率分布,P(Y|X)表示已知随机变量X的情况下随机变量Y的条件概率分布;p(X = x)表示随机变量X取某个具体值的概率,简记为p(x);p(X = x, Y = y) 表示联合概率,简记为p(x,y),p(Y = y|X = x)表示条件概率,简记为p(y|x),且有:p(x,y) = p(x) * p(y|x)。
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
自然语言中的重要概念——熵(Entropy)
一、背景 熵是热力学中的一个重要的概念,最早是由香农(Claude Shannon)将熵应用于信息的度量。 熵(Entropy)是描述事物无序性的一个重要的参数,熵越大则无序性越强,同时,熵表示一个随机变量的不确定性。 二、熵 1、信息熵 香农指出,一条信息的信息量和它的不确定性之间有着直接的关系。因此可以使用信息熵来描述信息量的多少。 信息熵的定义为:设一个随机变量X,其可能的mm种取值为x1,x2,⋯,xm,对于每一种取值的概率为:p1,p2,⋯,那么随机变量XX的不确定度,即信息熵,用H(X)H表示:
felixzhao
2018/03/19
7930
机器学习各种熵:从入门到全面掌握
作者: 黄海安 编辑: 陈人和 概述 信息熵是信息论和机器学习中非常重要的概念,应用及其广泛,各种熵之间都存在某些直接或间接的联系,本文试图从宏观角度将各种熵穿插起来,方便理解。本文首先讲解机器学习算法中常用的各种熵的概念、公式、推导,并且联系机器学习算法进行说明熵的应用,最后是简单总结。希望通过本文能够全面的梳理熵的各方面知识,由于本人水平有限,如写的不好地方,敬请原谅! 机器学习常用熵定义 熵是什么?熵存在的意义是啥?为什么叫熵?这是3个非常现实的问题。
机器学习算法工程师
2018/03/30
1.9K0
机器学习各种熵:从入门到全面掌握
互信息(Mutual Information, MI)
互信息(Mutual Information, MI)这一概念最早由克劳德·香农在信息论的开创性工作中引入,主要用来量化两个随机变量之间的相互依赖程度。它是一种衡量变量间统计相关性的非参数度量,不仅能够捕捉线性关系,还能反映非线性关系。
jack.yang
2025/04/05
1300
互信息(Mutual Information, MI)
决策树与随机森林(从入门到精通)[通俗易懂]
决策树(decision tree)是一种基本的分类与回归方法,本文主要讨论用于分类的决策树。决策树学习通常包括三个步骤:特征选择,决策树的生成和决策树的修剪。而随机森林则是由多个决策树所构成的一种分类器,更准确的说,随机森林是由多个弱分类器组合形成的强分类器。
全栈程序员站长
2022/08/01
7660
决策树与随机森林(从入门到精通)[通俗易懂]
自然语言中的重要概念——熵(Entropy)
熵是热力学中的一个重要的概念,最早是由香农(Claude Shannon)将熵应用于信息的度量。
felixzhao
2019/02/13
1.1K0
一文理解机器学习中的各种熵
自信息公式 事件的不确定性越大(概率 pi 越小),自信息 I(pi) 越大。 比如买彩票,中彩票的自信息大,而不中彩票的自信息小。
echobingo
2018/08/09
8380
一文理解机器学习中的各种熵
信息熵理论
信息熵是随机数据源产生信息的均量。信息熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。
Johns
2022/06/22
2K0
图解AI数学基础 | 信息论
教程地址:http://www.showmeai.tech/tutorials/83
ShowMeAI
2022/02/25
7520
图解AI数学基础 | 信息论
信息量,熵,交叉熵,相对熵与代价函数
如果有⼈告诉我们⼀个相当不可能的事件发⽣了,我们收到的信息要多于我们被告知某个很可能发⽣的事件发⽣时收到的信息。如果我们知道某件事情⼀定会发⽣,那么我们就不会接收到信息。 也就是说,信息量应该连续依赖于事件发生的概率分布p(x) 。因此,我们想要寻找⼀个基于概率p(x)计算信息量的函数h(x),它应该具有如下性质:
llhthinker
2018/10/09
7210
信息量,熵,交叉熵,相对熵与代价函数
Entroy
熵可以从随机变量状态需要的平均信息量角度理解, 也可以从描述统计力学中无序程度的度量角度理解.
爱编程的小明
2022/09/06
5270
Entroy
最大熵模型(MaxEnt)
当我们想要得到一个随机事件的概率分布时,如果没有足够的信息来完全确定其概率分布,那么最为保险的方法就是选择一个使得熵最大的分布。
Cyril-KI
2022/07/29
2K0
最大熵模型(MaxEnt)
信息论中的基本概念
1 信息量 定义:信息量是对信息的度量。 就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢? 多少信息用信息量来衡量,我
用户1432189
2019/02/25
1.1K0
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
选自Medium 作者:Frank Preiswerk 机器之心编译 参与:Nurhachu Null、蒋思源 信息论与信息熵是 AI 或机器学习中非常重要的概念,我们经常需要使用它的关键思想来描述概率分布或者量化概率分布之间的相似性。在本文中,我们从最基本的自信息和信息熵到交叉熵讨论了信息论的基础,再由最大似然估计推导出 KL 散度而加强我们对量化分布间相似性的理解。最后我们简要讨论了信息熵在机器学习中的应用,包括通过互信息选择决策树的特征、通过交叉熵衡量分类问题的损失和贝叶斯学习等。 信息论是应用数学的
机器之心
2018/05/10
1.2K0
想学好深度学习,你需要了解——熵!
熵的概念比较晦涩难懂。但是,我们还是想最大化的用容易理解的语言将它说明白。尽量不要让这部分知识成为大家学习的绊脚石。
代码医生工作室
2020/01/02
2.3K1
互信息
对于两个随机变量,MI是一个随机变量由于已知另一个随机变量而减少的“信息量”(单位通常为比特)。互信息的概念与随机变量的熵紧密相关,熵是信息论中的基本概念,它量化的是随机变量中所包含的“信息量”。
为为为什么
2024/04/08
2440
信息量,熵,交叉熵,相对熵与代价函数
本文将介绍信息量,熵,交叉熵,相对熵的定义,以及它们与机器学习算法中代价函数的定义的联系。 1. 信息量 信息的量化计算: 解释如下: 信息量的大小应该可以衡量事件发生的“惊讶程度”或不确定性: 如果
llhthinker
2018/03/13
7340
信息量,熵,交叉熵,相对熵与代价函数
信息熵(entropy)
information entropy 信息熵用来描述信息的不确定性,如果不确定性越高,那么信息熵越大,否则则越低。 自信息(信息量) I(X)称为自信息,I(x)=-logP(x)。通过公式可以看出
ke1th
2018/01/02
3.9K0
信息熵(entropy)
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。而本文主要探讨信息熵在 AI 或机器学习中的应用,一般在机器学习中,我们可以将信息论应用在连续型变量上,并使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性。 因此在机器学习中,通常要把与随机事件相关信息的期望值进行量化,此外还要量化不同概率分布之间的相似性
IT派
2018/03/27
8910
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
机器学习—最大熵模型(MEM)小结
当我们想要得到一个随机事件的概率分布时,如果没有足够的信息来完全确定其概率分布,那么最为保险的方法就是选择一个使得熵最大的分布。
全栈程序员站长
2022/11/02
1.2K0
机器学习—最大熵模型(MEM)小结
信息论中的各种熵
摘要总结:本文介绍了信息论中的熵、条件熵、联合熵、交叉熵等概念,以及它们在机器学习、深度学习、信息论等领域的应用。作者通过详细举例,阐述了这些概念在逻辑回归、最大熵模型、贝叶斯推断等方面的应用。同时,作者还介绍了交叉熵在逻辑回归中的计算方式,以及交叉熵与逻辑回归的关系。
用户1147754
2018/01/02
1.5K0
信息论中的各种熵
相关推荐
自然语言中的重要概念——熵(Entropy)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档