文章/答案/技术大牛

发布

社区首页 >问答首页 >为什么当纸张中的值很大时，softmax会得到较小的梯度‘注意就是你所需要的’

问为什么当纸张中的值很大时，softmax会得到较小的梯度‘注意就是你所需要的’
EN

Stack Overflow用户

提问于 2019-02-27 04:42:14

回答 1查看 902关注 0票数 4

这是原始文件的屏幕：纸的屏幕。我理解这篇论文的意思是，当点积值很大时，softmax的梯度就会很小。

然而，我试图用交叉熵损失来计算softmax的梯度，发现softmax的梯度与传递给softmax的值没有直接关系。

即使单值很大，当数值较大时，仍然可以得到较大的梯度。(很抱歉，我不知道如何在这里提出计算过程)

deep-learning

nlp

softmax

attention-model

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-02-27 04:55:59

实际上，在一个热编码向量上，具有softmax的交叉熵梯度就是对应类向量的索引处的梯度-log(softmax(x)) =(1-Softmax(X))。(https://eli.thegreenplace.net/2016/the-softmax-function-and-its-derivative/)。如果传递给softmax的值很大，那么softmax将产生1，从而产生0梯度。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54905774

复制

相似问题

问为什么当纸张中的值很大时，softmax会得到较小的梯度‘注意就是你所需要的’
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么当纸张中的值很大时，softmax会得到较小的梯度‘注意就是你所需要的’EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问为什么当纸张中的值很大时，softmax会得到较小的梯度‘注意就是你所需要的’
EN