Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一文总结熵、交叉熵和交叉熵损失

一文总结熵、交叉熵和交叉熵损失

作者头像
磐创AI
发布于 2020-02-12 07:13:11
发布于 2020-02-12 07:13:11
1.2K0
举报

作者 | Vijendra Singh

编译 | VK

来源 |Medium

交叉熵损失是深度学习中应用最广泛的损失函数之一,这个强大的损失函数是建立在交叉熵概念上的。当我开始使用这个损失函数时,我很难理解它背后的直觉。在google了不同材料后,我能够得到一个令人满意的理解,我想在这篇文章中分享它。

为了全面理解,我们需要按照以下顺序理解概念:自信息, 熵,交叉熵和交叉熵损失。

自信息

"你对结果感到惊讶的程度"

一个低概率的结果与一个高概率的结果相比,低概率的结果带来的信息量更大。现在,如果是第i个结果的概率,那么我们可以把自信息s表示为:

现在我知道一个事件产生某个结果的自信息,我想知道这个事件平均带来多少自信息。对自信息s进行加权平均是很直观的。现在的问题是选择什么权重?因为我知道每个结果的概率,所以用概率作为权重是有意义的,因为这是每个结果应该发生的概率。自信息的加权平均值就是熵(e),如果有n个结果,则可以写成:

交叉熵

现在,如果每个结果的实际概率为却有人将概率估计为怎么办。在这种情况下,每个事件都将以的概率发生,但是公式里的自信息就要改成(因为人们以为结果的概率是)。现在,在这种情况下,加权平均自信息就变为了交叉熵c,它可以写成:

交叉熵总是大于熵,并且仅在以下情况下才与熵相同 ,你可以观看 https://www.desmos.com/calculator/zytm2sf56e的插图来帮助理解。

交叉熵损失

紫色线代表蓝色曲线下的面积,估计概率分布(橙色线),实际概率分布(红色线)

在上面我提到的图中,你会注意到,随着估计的概率分布偏离实际/期望的概率分布,交叉熵增加,反之亦然。因此,我们可以说,最小化交叉熵将使我们更接近实际/期望的分布,这就是我们想要的。这就是为什么我们尝试降低交叉熵,以使我们的预测概率分布最终接近实际分布的原因。因此,我们得到交叉熵损失的公式为:

在只有两个类的二分类问题的情况下,我们将其命名为二分类交叉熵损失,以上公式变为:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磐创AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
深度学习基础知识(三)--交叉熵损失函数
在监督学习进行训练的过程中,我们学习的目的是得到输入到输出的映射关系,在给定 后,预测出 ,期望 尽可能的接近 ,也就是 和 的差距尽可能小。而损失函数就是衡量 和 之间差距的指标,通过损失函数指明模型优化的方向。
languageX
2022/06/01
2.3K0
一文理解机器学习中的各种熵
自信息公式 事件的不确定性越大(概率 pi 越小),自信息 I(pi) 越大。 比如买彩票,中彩票的自信息大,而不中彩票的自信息小。
echobingo
2018/08/09
8380
一文理解机器学习中的各种熵
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
选自Medium 作者:Frank Preiswerk 机器之心编译 参与:Nurhachu Null、蒋思源 信息论与信息熵是 AI 或机器学习中非常重要的概念,我们经常需要使用它的关键思想来描述概率分布或者量化概率分布之间的相似性。在本文中,我们从最基本的自信息和信息熵到交叉熵讨论了信息论的基础,再由最大似然估计推导出 KL 散度而加强我们对量化分布间相似性的理解。最后我们简要讨论了信息熵在机器学习中的应用,包括通过互信息选择决策树的特征、通过交叉熵衡量分类问题的损失和贝叶斯学习等。 信息论是应用数学的
机器之心
2018/05/10
1.2K0
深度学习 | 交叉熵损失函数
任何事件都会承载着一定的信息量,包括已经发生的事件和未发生的事件,只是它们承载的信息量会有所不同。如昨天下雨这个已知事件,因为已经发生,是既定事实,那么它的信息量就为0。如明天会下雨这个事件,因为未有发生,那么这个事件的信息量就大。
Justlovesmile
2021/12/14
2.7K0
理解熵与交叉熵
熵、交叉熵是机器学习中常用的概念,也是信息论中的重要概念。它应用广泛,尤其是在深度学习中。本文对交叉熵进行系统的、深入浅出的介绍。文章中的内容在已经出版的《机器学习与应用》(清华大学出版社,雷明著)中有详细的介绍。
SIGAI学习与实践平台
2019/03/01
2.3K0
理解熵与交叉熵
信息论 - 交叉熵
在信息论中,交叉熵(Cross Entropy)是表示两个概率分布p,q,其中p表示真实分布,q表示非真实分布,在相同的一组事件中,其中,用非真实分布q来表示某个事件发生所需要的平均比特数。。
为为为什么
2022/08/05
3710
交叉熵损失函数的概念和理解
,则对每个符号所需的编码的长度就会更大.这正是交叉熵所发挥作用的时候. 他允许用户以另外一种次优编码方案计算对同一个字符串进行编码所需的平均最小位数.
演化计算与人工智能
2020/08/14
1.1K0
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。而本文主要探讨信息熵在 AI 或机器学习中的应用,一般在机器学习中,我们可以将信息论应用在连续型变量上,并使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性。 因此在机器学习中,通常要把与随机事件相关信息的期望值进行量化,此外还要量化不同概率分布之间的相似性
IT派
2018/03/27
8920
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
揭示相对熵和交叉熵的本质
在第4章4.4.3节介绍损失函数的时候,列出了几项常见的损失函数,其中就有神经网络中常用的以相对熵和交叉熵构建的损失函数。那么什么是相对熵和交叉熵呢?下面就分别进行介绍。
老齐
2022/01/27
1.1K0
揭示相对熵和交叉熵的本质
交叉熵的简单理解:真实分布与非真实分布的交叉,完全对应,熵为0
这个式子就是熵的表达式. 简单来说, 其意义就是在最优化策略下, 猜到颜色所需要的问题的个数。熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大。
zhangjiqun
2024/12/14
1050
交叉熵的简单理解:真实分布与非真实分布的交叉,完全对应,熵为0
【损失函数】常见的损失函数(loss function)总结
损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。不同的模型用的损失函数一般也不一样。
zenRRan
2020/05/26
3.1K0
交叉熵损失函数
注: 本文内容是对《机器学习数学基础》一书有关内容的补充资料。《机器学习数学基础》即将由电子工业出版社于2021年5月出版。与本书相关的更多资料,请查阅微信公众号:老齐教室,或者:https://qiwsir.gitee.io/mathmetics/
老齐
2021/03/11
1.4K3
交叉熵损失函数
机器学习基础——详解机器学习损失函数之交叉熵
我在看paper的时候发现对于交叉熵的理解又有些遗忘,复习了一下之后,又有了一些新的认识。故写下本文和大家分享。
TechFlow-承志
2020/03/05
1.1K0
机器学习基础——详解机器学习损失函数之交叉熵
神经网络中的损失函数
在《神经网络中常见的激活函数》一文中对激活函数进行了回顾,下图是激活函数的一个子集——
半吊子全栈工匠
2023/09/02
1.5K0
神经网络中的损失函数
【深度学习】一文读懂机器学习常用损失函数(Loss Function)
  损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:
10JQKA
2018/07/25
44.9K0
【深度学习】一文读懂机器学习常用损失函数(Loss Function)
机器学习各种熵:从入门到全面掌握
作者: 黄海安 编辑: 陈人和 概述 信息熵是信息论和机器学习中非常重要的概念,应用及其广泛,各种熵之间都存在某些直接或间接的联系,本文试图从宏观角度将各种熵穿插起来,方便理解。本文首先讲解机器学习算法中常用的各种熵的概念、公式、推导,并且联系机器学习算法进行说明熵的应用,最后是简单总结。希望通过本文能够全面的梳理熵的各方面知识,由于本人水平有限,如写的不好地方,敬请原谅! 机器学习常用熵定义 熵是什么?熵存在的意义是啥?为什么叫熵?这是3个非常现实的问题。
机器学习算法工程师
2018/03/30
1.9K0
机器学习各种熵:从入门到全面掌握
交叉熵--损失函数
语言模型的性能通常用交叉熵和复杂度(perplexity)来衡量。交叉熵的意义是用该模型对文本识别的难度,或者从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率。
zhangjiqun
2024/12/14
1310
交叉熵--损失函数
一文看完《统计学习方法》所有知识点
红色的是牛顿法的迭代路径,绿色的是梯度下降法的迭代路径.牛顿法起始点不能离极小点太远,否则很可能不会拟合.
统计学家
2019/08/09
1.3K0
一文看完《统计学习方法》所有知识点
【Pytorch 】笔记六:初始化与 18 种损失函数的源码解析
疫情在家的这段时间,想系统的学习一遍 Pytorch 基础知识,因为我发现虽然直接 Pytorch 实战上手比较快,但是关于一些内部的原理知识其实并不是太懂,这样学习起来感觉很不踏实,对 Pytorch 的使用依然是模模糊糊,跟着人家的代码用 Pytorch 玩神经网络还行,也能读懂,但自己亲手做的时候,直接无从下手,啥也想不起来,我觉得我这种情况就不是对于某个程序练得不熟了,而是对 Pytorch 本身在自己的脑海根本没有形成一个概念框架,不知道它内部运行原理和逻辑,所以自己写的时候没法形成一个代码逻辑,就无从下手。这种情况即使背过人家这个程序,那也只是某个程序而已,不能说会 Pytorch,并且这种背程序的思想本身就很可怕, 所以我还是习惯学习知识先有框架(至少先知道有啥东西)然后再通过实战(各个东西具体咋用)来填充这个框架。而「这个系列的目的就是在脑海中先建一个 Pytorch 的基本框架出来,学习知识,知其然,知其所以然才更有意思 ;)」。
阿泽 Crz
2020/09/04
2.8K0
熵、交叉熵和KL散度的基本概念和交叉熵损失函数的通俗介绍
为了开始了解熵到底指的是什么,让我们深入了解信息理论的一些基础知识。在这个数字时代,信息是由位(0和1)组成的。在通信时,有些位是有用的,有些是多余的,有些是错误的,等等。当我们传递信息时,我们希望尽可能多地向接收者传递有用的信息。
deephub
2020/07/02
1.1K0
推荐阅读
相关推荐
深度学习基础知识(三)--交叉熵损失函数
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档