首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Transformer模型的2个掩码向量的概念

Transformer模型中一共涉及到2个掩码张量的概念,pad mask与sequence mask。

从Transformer模型来看,我们知道Transformer模型中涉及到3个注意力机制的计算,包括encoder编码器的自注意力机制,decoder解码器的自注意力机制,decoder解码器第二子层的decoder-encoder-attention交互层。

从注意力机制的计算过程中,我们可以看到,其每个注意力的计算中都有涉及到pad mask矩阵,而且decoder的输入还涉及shifted right input 的序列屏蔽矩阵(sequence mask),pad mask 与sequence mask 各代表什么意思,如何来添加mask矩阵?

首先,在NLP机器翻译实例,当我们进行模型训练时,并不会提前告诉模型输入句子的信息,但是我们会提前输入模型句子信息,这就需要在模型训练时,使用sequence mask矩阵屏蔽未来的句子信息

2种掩码向量各代表什么意思,如何来实现,本期动画教程将重点讲解

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OMK3M_4EmJEhVvCNxb7UwwOg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券