首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >为什么当纸张中的值很大时,softmax会得到较小的梯度‘注意就是你所需要的’

为什么当纸张中的值很大时,softmax会得到较小的梯度‘注意就是你所需要的’
EN

Stack Overflow用户
提问于 2019-02-27 04:42:14
回答 1查看 902关注 0票数 4

这是原始文件的屏幕:纸的屏幕。我理解这篇论文的意思是,当点积值很大时,softmax的梯度就会很小。

然而,我试图用交叉熵损失来计算softmax的梯度,发现softmax的梯度与传递给softmax的值没有直接关系。

即使单值很大,当数值较大时,仍然可以得到较大的梯度。(很抱歉,我不知道如何在这里提出计算过程)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-02-27 04:55:59

实际上,在一个热编码向量上,具有softmax的交叉熵梯度就是对应类向量的索引处的梯度-log(softmax(x)) =(1-Softmax(X))。(https://eli.thegreenplace.net/2016/the-softmax-function-and-its-derivative/)。如果传递给softmax的值很大,那么softmax将产生1,从而产生0梯度。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54905774

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档