交叉熵 KL散度

原创

用户10713522

发布于 2023-08-17 15:37:54

1670

文章被收录于专栏：Backup@zzkBackup@zzk

#熵/KL散度 #熵/交叉熵 #熵/信息熵

香农熵，交叉熵和KL散度视频

熵(Entropy)

熵这个概念在信息表示中就是“信息含量”，有时候我们常会说“这句话信息含量好多啊”，这也是一种熵的体现。对于一个事件来说，熵越大，也就是信息含量越大，其能实现的可能性越小，反之则亦然。

信息量

假设 X 是一个离散随机变量，则概率分布可表示为 $P(X=x)$ ，其中所含的信息量可表示为

$$I(x)=-logP(x)\tag{1}$$

信息熵

当一个事件发生的概率为 P(x) ，那么根据公式(1)可以得知其信息量为 -logP(x) ，那么如果我们把这个事件的所有可能性罗列出来，就可以求得该事件信息量的期望。

假设事件 X 有 n 种可能性，其中 $x{i}$ 的发生概率为 $P(x{i})$，那么该事件的熵 H(X) 为：

$$H(X)=-\sum{i=1}^{n}P(x{i})logP(x_{i})\tag{2}$$

KL散度(相对熵)

KL散度是衡量两个事件/分布之间的不同。假设一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x) ，那么如何计算这两个分布的区别，我们一般使用KL散度用于计算两个分布之间的不同。看名字似乎跟计算两个点之间的距离也很像，但实则不然，因为KL散度不具备有对称性。在距离上的不对称性就是 $distance(P\rightarrow Q) \neq distance(Q \rightarrow P)$ 。

在我们的实际模型应用中，经常就是一个表示样本的真实分布，另一个表示模型的预测分布。我们常采用的就是这两个东西计算$loss$值，也就是衡量预测的分布与真实分布之间的差异性，然后利用梯度下降的思想来最小化二者间的差异。

对于一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x) ，其 KL散度为

$$D{KL}(P||Q)=\sum{i=1}^{n}P(x{i})log(\frac {P(x{i})}{Q(x_{i})})\tag{3}$$

观察公式可以看出， $Q(x{i})$ 越接近 $P(x{i})$ ，KL散度就越小，即loss越小。由于对数函数是凸函数，所以KL散度的值为非负数。 ^17f179