首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何理解transformer 模型的注意力机制

在Transformer模型中,这些向量代表着词向量,是输入单词在word-embedding与位置编码后的 高维度空间的数值映射,当两个词向量的内积比较大时,代表词相关度比较大,当Transformer模型预测或者训练模型时,当关注某个单词时,应当密切关注与这个单词词向量内积比较大的其他单词。

两个向量的乘法,也是两个向量的内积,代表了两个向量的夹角,同时也表征着一个向量在另外一个向量上的投影,那么这个投影的值越大,说明其2个向量相似度越高,若两个向量的夹角为90度,甚至大于90度,那么这两个向量线性无关,完全没有相似性。

Attention注意力机制便是把输入数据通过预处理操作,变成可以计算的向量表示,通过向量的乘法计算,实现查找句子中相识性比较大的其它单词,这也是神经网络模型中说的权重。

有了权重的概念,我们就可以把句子或者图片预处理成一个一个的向量,然后通过attention机制来训练神经网络模型,毕竟这些权重的和也是1。

关于transformer模型应用于计算机视觉领域,这个在我们介绍完基础的transformer模型后,会重点介绍Vinsion transformer与Swin transformer模型。#动图详解Transformer

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OYlmG4eZQI_C1slfh8mcwq2A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券