应用传统的RNN, LSTM, 在获取长距离语义特征和结构特征的时候, 需要按照序列顺序依次计算, 距离越远的联系信息的损耗越大, 有效提取和捕获的可能性越小....我们分两步对其进行一个推导, 首先就是假设向量q和k的各个分量是相互独立的随机变量, X = q_i, Y = k_i, X和Y各自有d_k个分量, 也就是向量的维度等于d_k, 有E(X) = E(Y...小结
self-attention机制的重点是使用三元组(Q, K, V)参与规则运算, 这里面Q=K=V.
self-attention最大的优势是可以方便有效的提取远距离依赖的特征和结构信息, 不必向...具体的推导过程见讲义正文部分, 注意要分两种情况讨论, 分别处理.
学习了softmax函数出现梯度消失现象的原因....学习了维度和点积大小的关系推导.
通过期望和方差的推导理解了为什么点积会造成方差变大.
理解了通过数学技巧除以sqrt(d_k)就可以让方差恢复成1.