Transformer模型中一共涉及到2个掩码张量的概念,pad mask与sequence mask。
从Transformer模型来看,我们知道Transformer模型中涉及到3个注意力机制的计算,包括encoder编码器的自注意力机制,decoder解码器的自注意力机制,decoder解码器第二子层的decoder-encoder-attention交互层。
从注意力机制的计算过程中,我们可以看到,其每个注意力的计算中都有涉及到pad mask矩阵,而且decoder的输入还涉及shifted right input 的序列屏蔽矩阵(sequence mask),pad mask 与sequence mask 各代表什么意思,如何来添加mask矩阵?
首先,在NLP机器翻译实例,当我们进行模型训练时,并不会提前告诉模型输入句子的信息,但是我们会提前输入模型句子信息,这就需要在模型训练时,使用sequence mask矩阵屏蔽未来的句子信息
2种掩码向量各代表什么意思,如何来实现,本期动画教程将重点讲解
领取专属 10元无门槛券
私享最新 技术干货