这是原始文件的屏幕:纸的屏幕。我理解这篇论文的意思是,当点积值很大时,softmax的梯度就会很小。
然而,我试图用交叉熵损失来计算softmax的梯度,发现softmax的梯度与传递给softmax的值没有直接关系。
即使单值很大,当数值较大时,仍然可以得到较大的梯度。(很抱歉,我不知道如何在这里提出计算过程)
发布于 2019-02-27 04:55:59
实际上,在一个热编码向量上,具有softmax的交叉熵梯度就是对应类向量的索引处的梯度-log(softmax(x)) =(1-Softmax(X))。(https://eli.thegreenplace.net/2016/the-softmax-function-and-its-derivative/)。如果传递给softmax的值很大,那么softmax将产生1,从而产生0梯度。
https://stackoverflow.com/questions/54905774
复制相似问题