在Transformer模型中,这些向量代表着词向量,是输入单词在word-embedding与位置编码后的 高维度空间的数值映射,当两个词向量的内积比较大时,代表词相关度比较大,当Transformer模型预测或者训练模型时,当关注某个单词时,应当密切关注与这个单词词向量内积比较大的其他单词。
两个向量的乘法,也是两个向量的内积,代表了两个向量的夹角,同时也表征着一个向量在另外一个向量上的投影,那么这个投影的值越大,说明其2个向量相似度越高,若两个向量的夹角为90度,甚至大于90度,那么这两个向量线性无关,完全没有相似性。
Attention注意力机制便是把输入数据通过预处理操作,变成可以计算的向量表示,通过向量的乘法计算,实现查找句子中相识性比较大的其它单词,这也是神经网络模型中说的权重。
有了权重的概念,我们就可以把句子或者图片预处理成一个一个的向量,然后通过attention机制来训练神经网络模型,毕竟这些权重的和也是1。
关于transformer模型应用于计算机视觉领域,这个在我们介绍完基础的transformer模型后,会重点介绍Vinsion transformer与Swin transformer模型。#动图详解Transformer
领取专属 10元无门槛券
私享最新 技术干货