Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >熵的理解

熵的理解

作者头像
吕海峰
发布于 2018-04-03 07:49:31
发布于 2018-04-03 07:49:31
7670
举报
文章被收录于专栏:BrianBrian

熵在信息论中代表随机变量不确定度的度量。一个离散型随机变量X的熵H(X)定义为:

明确定义的科学名词且与内容无关,而且不随信息的具体表达式的变化而变化。是独立于形式,反映了信息表达式中统计方面的性质。是统计学上的抽象概念。信息熵的一种解释是,它表示的是最短的平均编码长度。同样的,不确定性越大,熵就越大。信息熵的单位是比特(bit)。我们举两个简单的例子: 第一个例子: 32支球队,在无任何先验信息的前提下,用二分法猜冠军队伍,最多猜5次,即:

第二个例子:

相对熵(KL离散度)

相对熵又叫做KL离散度,其定义为:

KL 散度是两个概率分布f(x)和g(x)差别的非对称性的度量。KL散度是用来度量使用基于f(x)的编码来编码来自g(x)的样本平均所需的额外的位元数。 很容易证明,有三个结论: (1) 两函数完全相同时,KL=0 (2) KL越大,差异越大 (3) 对概率分布或者概率密度函数(>0), KL可用来衡量两个随机变量分布的差异性。

交叉熵

对一随机事件,其真实概率分布为p(i),从数据中得到的概率分布为q(i),则我们定义,交叉熵为:

核心理解

即:交叉熵=信息熵+KL散度(相对熵) 由于信息熵H(p)H(p)是固定不变的,因此我们在机器学习中就用交叉熵作为损失函数。常见的做法是先用Softmax函数将神经网络的结果转换为概率分布,然后用交叉熵刻画估算的概率分布与真实的概率分布的”距离”。

参考资料 1.数学之美 2.交叉熵的了解

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-08-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
详解机器学习中的熵、条件熵、相对熵、交叉熵
目录 信息熵 条件熵 相对熵 交叉熵 总结 一 信息熵 (information entropy) 熵 (entropy) 这一词最初来源于热力学。1948年,克劳德·爱尔伍德·香农将热力学中的熵引入信息论,所以也被称为香农熵 (Shannon entropy),信息熵 (information entropy)。本文只讨论信息熵。首先,我们先来理解一下信息这个概念。信息是一个很抽象的概念,百度百科将它定义为:指音讯、消息、通讯系统传输和处理的对象,泛指人类社会传播的一切内容。那信息可以被量化么?可以的!
磐创AI
2018/04/24
1.8K0
详解机器学习中的熵、条件熵、相对熵、交叉熵
交叉熵--损失函数
语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。
zhangjiqun
2024/12/14
1390
交叉熵--损失函数
机器学习各种熵:从入门到全面掌握
作者: 黄海安 编辑: 陈人和 概述 信息熵是信息论和机器学习中非常重要的概念,应用及其广泛,各种熵之间都存在某些直接或间接的联系,本文试图从宏观角度将各种熵穿插起来,方便理解。本文首先讲解机器学习算法中常用的各种熵的概念、公式、推导,并且联系机器学习算法进行说明熵的应用,最后是简单总结。希望通过本文能够全面的梳理熵的各方面知识,由于本人水平有限,如写的不好地方,敬请原谅! 机器学习常用熵定义 熵是什么?熵存在的意义是啥?为什么叫熵?这是3个非常现实的问题。
机器学习算法工程师
2018/03/30
1.9K0
机器学习各种熵:从入门到全面掌握
信息熵理论
信息熵是随机数据源产生信息的均量。信息熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。
Johns
2022/06/22
2K0
信息熵(entropy)
information entropy 信息熵用来描述信息的不确定性,如果不确定性越高,那么信息熵越大,否则则越低。 自信息(信息量) I(X)称为自信息,I(x)=-logP(x)。通过公式可以看出
ke1th
2018/01/02
4.1K0
信息熵(entropy)
信息量,熵,交叉熵,相对熵与代价函数
本文将介绍信息量,熵,交叉熵,相对熵的定义,以及它们与机器学习算法中代价函数的定义的联系。 1. 信息量 信息的量化计算: 解释如下: 信息量的大小应该可以衡量事件发生的“惊讶程度”或不确定性: 如果
llhthinker
2018/03/13
7430
信息量,熵,交叉熵,相对熵与代价函数
想学好深度学习,你需要了解——熵!
熵的概念比较晦涩难懂。但是,我们还是想最大化的用容易理解的语言将它说明白。尽量不要让这部分知识成为大家学习的绊脚石。
代码医生工作室
2020/01/02
2.4K1
信息论中的各种熵
摘要总结:本文介绍了信息论中的熵、条件熵、联合熵、交叉熵等概念,以及它们在机器学习、深度学习、信息论等领域的应用。作者通过详细举例,阐述了这些概念在逻辑回归、最大熵模型、贝叶斯推断等方面的应用。同时,作者还介绍了交叉熵在逻辑回归中的计算方式,以及交叉熵与逻辑回归的关系。
用户1147754
2018/01/02
1.5K0
信息论中的各种熵
LOSS:交叉熵损失函数
交叉熵(cross entropy)是深度学习中常用的一个概念,一般用来求目标与预测值之间的差距。以前做一些分类问题的时候,经常会用到,最近老师让看下交叉熵损失函数,今天就来看看他是何方神圣。
AngelNH
2020/07/17
1K0
LOSS:交叉熵损失函数
交叉熵
仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大。究其原因,是因为事件A发生的概率很大,事件B发生的概率很小。
小小杨
2021/10/13
4920
信息论中的基本概念
1 信息量 定义:信息量是对信息的度量。 就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢? 多少信息用信息量来衡量,我
用户1432189
2019/02/25
1.1K0
自然语言中的重要概念——熵(Entropy)
一、背景 熵是热力学中的一个重要的概念,最早是由香农(Claude Shannon)将熵应用于信息的度量。 熵(Entropy)是描述事物无序性的一个重要的参数,熵越大则无序性越强,同时,熵表示一个随机变量的不确定性。 二、熵 1、信息熵 香农指出,一条信息的信息量和它的不确定性之间有着直接的关系。因此可以使用信息熵来描述信息量的多少。 信息熵的定义为:设一个随机变量X,其可能的mm种取值为x1,x2,⋯,xm,对于每一种取值的概率为:p1,p2,⋯,那么随机变量XX的不确定度,即信息熵,用H(X)H表示:
felixzhao
2018/03/19
8010
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
选自Medium 作者:Frank Preiswerk 机器之心编译 参与:Nurhachu Null、蒋思源 信息论与信息熵是 AI 或机器学习中非常重要的概念,我们经常需要使用它的关键思想来描述概率分布或者量化概率分布之间的相似性。在本文中,我们从最基本的自信息和信息熵到交叉熵讨论了信息论的基础,再由最大似然估计推导出 KL 散度而加强我们对量化分布间相似性的理解。最后我们简要讨论了信息熵在机器学习中的应用,包括通过互信息选择决策树的特征、通过交叉熵衡量分类问题的损失和贝叶斯学习等。 信息论是应用数学的
机器之心
2018/05/10
1.2K0
信息论 - KL散度
KL 散度(Kullback–Leibler divergence,简称KLD),也称作相对嫡(relative entropy),信息散度(information divergence),信息增益(information gain)。
为为为什么
2022/08/05
1.2K0
信息论 - KL散度
最大熵模型(MaxEnt)
当我们想要得到一个随机事件的概率分布时,如果没有足够的信息来完全确定其概率分布,那么最为保险的方法就是选择一个使得熵最大的分布。
Cyril-KI
2022/07/29
2K0
最大熵模型(MaxEnt)
【数学基础】机器学习中的几个熵
相对熵又叫KL散度,也叫做信息增益,如果我们对于同一个随机变量,有两个单独的概率分布和,我们可以用KL散度来衡量这两个分布的差异。
zenRRan
2020/02/24
1K0
必须懂:深度学习中的信息论概念
信息论是对深度学习和AI有重大贡献的一个重要领域,当然,很多人对它知之甚少。如你所知,深度学习的基石是微积分、概率论和统计学,信息论可以视为是它们之间的复杂的融合。AI中的一些概念就来自于信息论或相关领域,例如:
老齐
2020/05/15
1.1K0
必须懂:深度学习中的信息论概念
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。而本文主要探讨信息熵在 AI 或机器学习中的应用,一般在机器学习中,我们可以将信息论应用在连续型变量上,并使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性。 因此在机器学习中,通常要把与随机事件相关信息的期望值进行量化,此外还要量化不同概率分布之间的相似性
IT派
2018/03/27
9060
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
交叉熵 KL散度
熵这个概念在信息表示中就是“信息含量”,有时候我们常会说“这句话信息含量好多啊”,这也是一种熵的体现。对于一个事件来说,熵越大,也就是信息含量越大,其能实现的可能性越小,反之则亦然。
用户10713522
2023/08/17
1700
关于深度学习你必须知道的几个信息理论概念
信息论是一个重要的领域,它对深度学习和人工智能作出了重大贡献,但很多人对它却并不了解。信息论可以看作是微积分、概率论和统计学这些深度学习基本组成部分的复杂融合。人工智能中的很多概念来自信息论或相关领域:
AI研习社
2019/07/04
4320
相关推荐
详解机器学习中的熵、条件熵、相对熵、交叉熵
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档