Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >交叉熵 KL散度

交叉熵 KL散度

原创
作者头像
用户10713522
发布于 2023-08-17 15:37:54
发布于 2023-08-17 15:37:54
1670
举报
文章被收录于专栏:Backup@zzkBackup@zzk

#熵/KL散度 #熵/交叉熵 #熵/信息熵

香农熵,交叉熵和KL散度 视频

熵(Entropy)

熵这个概念在信息表示中就是“信息含量”,有时候我们常会说“这句话信息含量好多啊”,这也是一种熵的体现。对于一个事件来说,熵越大,也就是信息含量越大,其能实现的可能性越小,反之则亦然。

信息量

假设 X 是一个离散随机变量,则概率分布可表示为 $P(X=x)$ ,其中所含的信息量可表示为

$$I(x)=-logP(x)\tag{1}$$

信息熵

当一个事件发生的概率为 P(x) ,那么根据公式(1)可以得知其信息量为 -logP(x) ,那么如果我们把这个事件的所有可能性罗列出来,就可以求得该事件信息量的期望。

假设事件 X 有 n 种可能性,其中 $x{i}$ 的发生概率为 $P(x{i})$,那么该事件的熵 H(X) 为:

$$H(X)=-\sum{i=1}^{n}P(x{i})logP(x_{i})\tag{2}$$

KL散度(相对熵)

KL散度是衡量两个事件/分布之间的不同。假设一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x) ,那么如何计算这两个分布的区别,我们一般使用KL散度用于计算两个分布之间的不同。看名字似乎跟计算两个点之间的距离也很像,但实则不然,因为KL散度不具备有对称性。在距离上的不对称性就是 $distance(P\rightarrow Q) \neq distance(Q \rightarrow P)$ 。

在我们的实际模型应用中,经常就是一个表示样本的真实分布,另一个表示模型的预测分布。我们常采用的就是这两个东西计算$loss$值,也就是衡量预测的分布与真实分布之间的差异性,然后利用梯度下降的思想来最小化二者间的差异。

对于一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x) ,其 KL散度 为

$$D{KL}(P||Q)=\sum{i=1}^{n}P(x{i})log(\frac {P(x{i})}{Q(x_{i})})\tag{3}$$

观察公式可以看出, $Q(x{i})$ 越接近 $P(x{i})$ ,KL散度就越小,即loss越小。由于对数函数是凸函数,所以KL散度的值为非负数。 ^17f179

交叉熵(Cross Entropy)

对于KL散度的公式,我们可以进行以下的变形:

$$D{KL}(P||Q)=\sum{i=1}^{n}P(x{i})log(\frac {P(x{i})}{Q(x{i})})\= \sum{i=1}^{n}P(x{i})logP(x{i})-\sum{i=1}^{n}P(x{i})logQ(x_{i})\tag{4}$$

观察上式,可以看出,前半式表示的是 $P(x_{i})$ 的熵,那么可得

$$D{KL}(P||Q)=-H(P(x{i}))+-\sum{i=1}^{n}P(x{i})logQ(x_{i})\tag{5}$$

熟悉交叉熵的小伙伴就可以看出,等式的后半部分表示的就是交叉熵

$$H(P,Q)=-\sum{i=1}^{n}P(x{i})logQ(x_{i})\tag{6}$$

由式(5)可以看出,如果 $P(x{i})$ 的熵 -$H(P(x{i}))$ 为常数,则KL散度与交叉熵是等价的。

! 最终可以得到

 KL散度=交叉熵-信息熵

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
信息量,熵,交叉熵,相对熵与代价函数
如果有⼈告诉我们⼀个相当不可能的事件发⽣了,我们收到的信息要多于我们被告知某个很可能发⽣的事件发⽣时收到的信息。如果我们知道某件事情⼀定会发⽣,那么我们就不会接收到信息。 也就是说,信息量应该连续依赖于事件发生的概率分布p(x) 。因此,我们想要寻找⼀个基于概率p(x)计算信息量的函数h(x),它应该具有如下性质:
llhthinker
2018/10/09
7220
信息量,熵,交叉熵,相对熵与代价函数
交叉熵
仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大。究其原因,是因为事件A发生的概率很大,事件B发生的概率很小。
小小杨
2021/10/13
4870
相对熵和交叉熵
相对熵也称为 KL 散度(Kullback-Leibler divergence),相对熵是两个概率分布 和 差别的度量。具体来说, 和 的相对熵是用来度量使用基于 的分布来编码服从 的分布的样本所需的额外平均比特数。典型情况下, 表示真实分布, 表示数据的理论分布或者是估计的模型分布。
hotarugali
2022/04/22
8970
自然语言中的重要概念——熵(Entropy)
一、背景 熵是热力学中的一个重要的概念,最早是由香农(Claude Shannon)将熵应用于信息的度量。 熵(Entropy)是描述事物无序性的一个重要的参数,熵越大则无序性越强,同时,熵表示一个随机变量的不确定性。 二、熵 1、信息熵 香农指出,一条信息的信息量和它的不确定性之间有着直接的关系。因此可以使用信息熵来描述信息量的多少。 信息熵的定义为:设一个随机变量X,其可能的mm种取值为x1,x2,⋯,xm,对于每一种取值的概率为:p1,p2,⋯,那么随机变量XX的不确定度,即信息熵,用H(X)H表示:
felixzhao
2018/03/19
7940
自然语言中的重要概念——熵(Entropy)
熵是热力学中的一个重要的概念,最早是由香农(Claude Shannon)将熵应用于信息的度量。
felixzhao
2019/02/13
1.1K0
图解AI数学基础 | 信息论
教程地址:http://www.showmeai.tech/tutorials/83
ShowMeAI
2022/02/25
7520
图解AI数学基础 | 信息论
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
选自Medium 作者:Frank Preiswerk 机器之心编译 参与:Nurhachu Null、蒋思源 信息论与信息熵是 AI 或机器学习中非常重要的概念,我们经常需要使用它的关键思想来描述概率分布或者量化概率分布之间的相似性。在本文中,我们从最基本的自信息和信息熵到交叉熵讨论了信息论的基础,再由最大似然估计推导出 KL 散度而加强我们对量化分布间相似性的理解。最后我们简要讨论了信息熵在机器学习中的应用,包括通过互信息选择决策树的特征、通过交叉熵衡量分类问题的损失和贝叶斯学习等。 信息论是应用数学的
机器之心
2018/05/10
1.2K0
机器学习 | 交叉熵
定义:在信息论中,交叉熵是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,用非真实分布q来表示某个事件发生所需要的平均比特数。从这个定义中,我们很难理解交叉熵的定义。下面举个例子来描述一下。
努力在北京混出人样
2019/02/18
1.1K0
深度学习 | 交叉熵损失函数
任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同。如昨天下雨这个已知事件,因为已经发生,是既定事实,那么它的信息量就为0。如明天会下雨这个事件,因为未有发生,那么这个事件的信息量就大。
Justlovesmile
2021/12/14
2.7K0
信息熵理论
信息熵是随机数据源产生信息的均量。信息熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。
Johns
2022/06/22
2K0
信息量,熵,交叉熵,相对熵与代价函数
本文将介绍信息量,熵,交叉熵,相对熵的定义,以及它们与机器学习算法中代价函数的定义的联系。 1. 信息量 信息的量化计算: 解释如下: 信息量的大小应该可以衡量事件发生的“惊讶程度”或不确定性: 如果
llhthinker
2018/03/13
7350
信息量,熵,交叉熵,相对熵与代价函数
深度学习基础知识(三)--交叉熵损失函数
在监督学习进行训练的过程中,我们学习的目的是得到输入到输出的映射关系,在给定 后,预测出 ,期望 尽可能的接近 ,也就是 和 的差距尽可能小。而损失函数就是衡量 和 之间差距的指标,通过损失函数指明模型优化的方向。
languageX
2022/06/01
2.3K0
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。而本文主要探讨信息熵在 AI 或机器学习中的应用,一般在机器学习中,我们可以将信息论应用在连续型变量上,并使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性。 因此在机器学习中,通常要把与随机事件相关信息的期望值进行量化,此外还要量化不同概率分布之间的相似性
IT派
2018/03/27
8920
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
想学好深度学习,你需要了解——熵!
熵的概念比较晦涩难懂。但是,我们还是想最大化的用容易理解的语言将它说明白。尽量不要让这部分知识成为大家学习的绊脚石。
代码医生工作室
2020/01/02
2.3K1
理解熵与交叉熵
熵、交叉熵是机器学习中常用的概念,也是信息论中的重要概念。它应用广泛,尤其是在深度学习中。本文对交叉熵进行系统的、深入浅出的介绍。文章中的内容在已经出版的《机器学习与应用》(清华大学出版社,雷明著)中有详细的介绍。
SIGAI学习与实践平台
2019/03/01
2.3K0
理解熵与交叉熵
交叉熵--损失函数
语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。
zhangjiqun
2024/12/14
1310
交叉熵--损失函数
机器学习—最大熵模型(MEM)小结
当我们想要得到一个随机事件的概率分布时,如果没有足够的信息来完全确定其概率分布,那么最为保险的方法就是选择一个使得熵最大的分布。
全栈程序员站长
2022/11/02
1.2K0
机器学习—最大熵模型(MEM)小结
kl散度和交叉熵的区别_散度的概念
通用的说,熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty of a system)。在不同领域熵有不同的解释,比如热力学的定义和信息论也不大相同。
全栈程序员站长
2022/11/04
2.2K0
从概率角度出发,对交叉熵和 KL 散度进行分析和推导
交叉熵是一个衡量两个概率分布之间差异的指标。在机器学习中,这通常用于衡量真实标签的分布与模型预测分布之间的差异。对于两个概率分布
叶庭云
2024/05/25
3850
信息论中的基本概念
1 信息量 定义:信息量是对信息的度量。 就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢? 多少信息用信息量来衡量,我
用户1432189
2019/02/25
1.1K0
相关推荐
信息量,熵,交叉熵,相对熵与代价函数
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档