信息熵

alexqdjay

发布于 2018-05-11 06:00:56

1.1K0

文章被收录于专栏：alexqdjayalexqdjay

定义

在实际的情况中，每种可能情况出现的概率并不是相同的，所以熵（entropy）就用来衡量整个系统的平均信息量，二话不说上公式：

Pi 表示概率

Hs 计算结果衡量信息量大小，或者说不确定性（纯度），越大说明信息量越大，不确定性越大。

举例

中国队与巴西队进行比赛，谁获胜？假如中国队获胜的概率为0%，巴西获胜是100%，那么：

H = -0.0*log0.0 - 1.0*log1.0 = 0 (本文log基数都为2)

表明这种结果信息量为零，不确定性为零（人们一般都不关心比赛结果）

但是，如果巴西队跟德国队进行比赛呢？假如巴西队和德国队分别获胜概率为50%（虽然实际上有过惨败），那么：

H = -0.5*log0.5 - 0.5*log0.5 = 1

说明信息量很大，不确定性很大，大家也都非常关心这场世纪之战。

再一例

吴京博士在他的书《数学之美》中也举过一个例子：A要询问B世界杯谁得了冠军，B没有直接回答而要A进行猜测，每猜一次需要付给B一元，请问最少需要多少钱A才能知道谁是冠军？

这是一道很好的脑筋急转弯题。使用上面的公式你可能已经算出是5元，询问过程很像二分查找，先把32队分两堆，确定再那一堆，然后再在目标堆进行划分一直到找到目标队，而整个过程需要分5次（2^5=32）。

信息量

以中文和英文举例，英文字母有26个，每一个几乎概率一样，这样一个字母的信息量为4.7（-1/26*log1/26），常用汉字2500个，一个汉字信息量为11.3（-1/2500*log1/2500）,汉字包含的信息量要大于英文，所以在印刷字体大小差不读时，中文译本要比原文薄，可以去统计下应该差不多薄一半。

分类

信息熵也被应用一些分类算法中，衡量预测函数的结果是否不确定性很大，熵越小说明分类结果越准确。所以在参数拟合阶段会选择参数尽量使得熵最小。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

编程算法

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

编程算法

登录后参与评论

0 条评论

热度

信息熵

信息熵

定义

举例

再一例

信息量

分类

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐