对于skip-gram模型,出于训练目的,输入是一个单词(one-hot表示),输出是它的上下文单词(多个one-hot表示)。由于input是独热的,所以input (size |V|) x M的结果是一个大小为|V|的向量,它是单词向量矩阵的一行。我的问题是:当我们运行反向传播时,似乎只更新了单词向量矩阵的行。如果是这种情况,假设我们逐对训练模型对(A,B),(A,C),(A,
我试图使用批处理从头开始反向传播,但我在计算dx时遇到了问题。the output nodes
dx - The derivative of x 我知道这是x的导数如果我使用上面的公式,我会得到(x,batches)或(2,5)的形状。在使用上面的公式得到dx (导致形状为(2,1))后,我是否会对最后一个维度进行求和?下面是使用虚构的值表示的点积: w.T