
这篇文章[1]主要提出了一种新的序列转录神经网络结构:Transformer。在主流的序列转录模型中,往往都是使用编码器+解码器并配合注意力机制,Transformer 也是如此。与以前的主流序列转录模型相比,Transformer 完全没有使用 RNN 和 CNN。在两项机器翻译任务上,Transformer 显示出了强大的性能。
RNN 是经典的处理序列数据的模型,然而它在处理较长的序列数据时,需要一步一步计算出每一个预测数据,因此训练较为困难。同时,如果序列较长时,早期的数据可能就被丢弃而无法被使用。为了解决 RNN 的这些问题,作者借鉴了 CNN 和自注意力的想法,提出了 Transformer 架构。
Transformer 的模型架构如下:


