前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Vision Transformer(ViT)

Vision Transformer(ViT)

作者头像
felixzhao
发布于 2023-03-13 01:44:09
发布于 2023-03-13 01:44:09
90300
代码可运行
举报
文章被收录于专栏:null的专栏null的专栏
运行总次数:0
代码可运行

1. 概述

Transformer[1]是Google在2017年提出的一种Seq2Seq结构的语言模型,在Transformer中首次使用Self-Atttention机制完全代替了基于RNN的模型结构,使得模型可以并行化训练,同时解决了在基于RNN模型中出现了长距离依赖问题,因为在Self-Attention中能够对全局的信息建模。

Transformer结构是一个标准的Seq2Seq结构,包含了Encoder和Decoder两个部分。其中基于Encoder的Bert[2]模型和基于Decoder的GPT[3]模型刷新了NLP中多个任务的记录,在NLP多种应用中取得了巨大的成功。以BERT模型为例,在BERT模型中,首先在大规模数据上利用无监督学习训练语言模型,对于具体的下游任务,如文本分类,利用预训练模型在下游数据上Fine-tuning。

基于Transformer框架的模型在NLP领域大获成功,而在CV领域还是基于CNN模型的情况下,能否将Transformer引入到CV中呢?ViT(Vision Transformer)[4]作为一种尝试,希望能够通过尽可能少的模型改动,实现Transformer在CV中的应用。

2. 算法原理

2.1. Transformer的基本原理

Transformer框架是一个典型的Seq2Seq结构,包括了Encoder和Decoder两个部分,其框架结构如下图所示:

在Transformer框架结构中,Encoder部分如上图的左半部分,Decoder部分如上图的右半部分。由于在ViT中是以Encoder部分为主要部分,同时,BERT模型也是以Transformer中Encoder为原型的模型,因此在这里对Bert模型做简单介绍,对于完整的Transformer框架的介绍可见参考文献[5]。BERT是基于上下文的预训练模型,BERT模型的训练分为两步:第一,pre-training;第二,fine-tuning。其中,在pre-training阶段,首先会通过大量的文本对BERT模型进行预训练,然而,标注样本是非常珍贵的,在BERT中则是选用大量的未标注样本来预训练BERT模型。在fine-tuning阶段,会针对不同的下游任务适当改造模型结构,同时,通过具体任务的样本,重新调整模型中的参数。

2.1.1. BERT模型的网络结构

BERT模型是Transformer结构的Encoder部分,其基本的网络结构如下图所示:

这个结构与Transformer中的Encoder结构是完全一致的。

2.1.2. BERT模型的输入Embedding

为了使得BERT能够适配更多的应用,模型在pre-training阶段,使用了Masked Language Model(MLM)和Next Sentence Prediction(NSP)两种任务作为模型预训练的任务,其中MLM可以学习到词的Embedding,NSP可以学习到句子的Embedding。在Transformer中,输入中会将词向量与位置向量相加,而在BERT中,为了能适配上述的两个任务,即MLM和NSP,这里的Embedding包含了三种Embedding的和,如下图所示:

其中,Token Embeddings是词向量,第一个单词是CLS标志,可以用于之后的分类任,Segment Embeddings用来区别两种句子,这是在预训练阶段,针对NSP任务的输入,Position Embeddings是位置向量,但是和Transformer中不一样,与词向量一样,是通过学习出来的。此处包含了两种标记,一个是[CLS],可以理解为整个输入特征的向量表示;另一个是[SEP],用于区分不同的句子。

2.1.3. 重要的Multi-Head Attention

Multi-Head Attention结构是所以基于Transformer框架模型的灵魂,Multi-Head Attention结构是由多个Scaled Dot-Product Attention模块组合而成,如下图所示:

其过程可以表示为:

MultiHead\left ( Q,K,V \right ) =Concat\left ( head_1,\cdots, head_h \right ) W^o

其中,每一个

head_i

就是一个Scaled Dot-Product Attention。Multi-head Attention相当于多个不同的Scaled Dot-Product Attention的集成,引入Multi-head Attention可以扩大模型的表征能力,同时这里面的h个Scaled Dot-Product Attention模块是可以并行的,没有层与层之间的依赖,相比于RNN,可以提升效率。而Scaled Dot-Product Attention的计算方法为:

Attention\left ( Q,K,V \right )=softmax\left ( \frac{QK^T}{\sqrt{d_k} }\right )V

其中

\frac{1}{\sqrt{d_k} }

最主要的目的是对点积缩放。计算过程可由下图表示:

2.1.4. 下游任务的fine-tuning

在预训练阶段,BERT采用了Masked Language Model和Next Sentence Prediction两个训练任务作为其语言模型的训练,其中,Masked Language Model的原理是随机将一些词替换成[MASK],在训练的过程中,通过上下文信息来预测被mask的词;Next Sentence Prediction的目的是让模型理解两个橘子之间的关系,训练的输入是两个句子,BERT模型需要判断后一个句子是不是前一个句子的下一句。这两个任务最大的特点就是可以无监督学习,这样就可以避免模型对大规模标注数据依赖的问题。

在预训练模型完成后,就可以在具体的下游任务中应用BERT模型。这里以文本分类为例,句子对的分类任务,即输入是两个句子,输入如下图所示:

输出是BERT的第一个[CLS]的隐含层向量

C\in \mathbb{R}^H

,在Fine-Tune阶段,加上一个权重矩阵

W\in \mathbb{R}^{K\times H}

K,其中,

为分类的类别数。最终通过Softmax函数得到最终的输出概率。

2.2. ViT的基本原理

ViT模型是希望能够尽可能少对Transformer模型修改,并将Transformer应用于图像分类任务的模型。ViT模型也是基于Transformer的Encoder部分,这一点与BERT较为相似,同时对Encoder部分尽可能少的修改。

2.2.1. ViT的网络结构

ViT的网络结构如下图所示:

ViT模型的网络结构如上图的右半部分所示,与原始的Transformer中的Encoder不同的是Norm所在的位置不同,类似BERT模型中[class]标记位的设置,ViT在Transformer输入序列前增加了一个额外可学习的[class]标记位,并且该位置的Transformer Encoder输出作为图像特征。

Vision Transformer(ViT)将输入图片拆分成

16\times 16

个patches,每个patch做一次线性变换降维同时嵌入位置信息,然后送入Transformer。类似BERT[CLS]标记位的设计,在ViT中,在输入序列前增加了一个额外可学习的[class]标记位,并将其最终的输出作为图像特征,最后利用MLP做最后的分类,如上图中的左半部分所示,其中,[class]标记位为上图中Transformer Encoder的0*。那么现在的问题就是两个部分,第一,如何将图像转换成一维的序列数据,因为BERT处理的文本数据是一维的序列数据;第二,如何增加位置信息,因为在Transformer中是需要对位置信息编码的,在BERT中是通过学习出来,而在Transformer中是利用sin和cos这两个公式生成出来。

2.2.2. 图像到一维序列数据的转换

对于

\mathbf{x}\in \mathbb{R}^{H\times W\times C}

的图像,首先需要将其变成

\mathbf{x}_p\in \mathbb{R}^{N\times \left (P^2\cdot C \right )}

的2D的patch的序列,这里面,

\left ( H,W \right )

表示的是原图的分辨率,

C

表示的通道(channel)的数目,

\left ( P,P \right )

表示的是每个patch的分辨率,

N=HW/p^2

表示的是patch的个数,对于一个通道,上述的这个过程可以如下图所示:

假设输入图片大小是

256\times 256

,每个patch的大小为

32\times 32

,则最后的总的patch个数为64。对于每个patch,我们还需要将其转换成embeding的表示,ViT中使用到了线性变换,即:

\mathbf{z}_0=\left [ \mathbf{x}_{class};\mathbf{x}_p^1\mathbf{E};\mathbf{x}_p^2\mathbf{E};\cdots ;\mathbf{x}_p^N\mathbf{E} \right ]+\mathbf{E}_{pos}

其中,

\mathbf{E}\in \mathbb{R}^{\left ( P^2\cdot C \right )\times D}

\mathbf{E}_{pos}\in \mathbb{R}^{\left ( N+1 \right )\times D}

。首先对于第i个patch,我们看到

\mathbf{x}_p^i\mathbf{E}

是将patch转换成D维的向量,具体过程如下:

这里的卷积操作中卷积核大小为

P\times P

,步长为P。参考文献[6]给出了较为容易理解的代码,注释的代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
class PatchEmbed(nn.Module):
    """
    2D Image to Patch Embedding
    """
    def __init__(self, img_size=224, patch_size=16, in_c=3, embed_dim=768, norm_layer=None):
        super().__init__()
        img_size = (img_size, img_size) # 图片原始大小
        patch_size = (patch_size, patch_size) # 每个patch的大小
        self.img_size = img_size
        self.patch_size = patch_size
        self.grid_size = (img_size[0] // patch_size[0], img_size[1] // patch_size[1]) # 拆分成每个patch后,每个维度的patch个数
        self.num_patches = self.grid_size[0] * self.grid_size[1] # 总共的patch个数

        self.proj = nn.Conv2d(in_c, embed_dim, kernel_size=patch_size, stride=patch_size) # 对每个patch做线性变换
        self.norm = norm_layer(embed_dim) if norm_layer else nn.Identity() # 归一化

    def forward(self, x):
        B, C, H, W = x.shape
        assert H == self.img_size[0] and W == self.img_size[1], \
            f"Input image size ({H}*{W}) doesn't match model ({self.img_size[0]}*{self.img_size[1]})."

        # flatten: [B, C, H, W] -> [B, C, HW]
        # transpose: [B, C, HW] -> [B, HW, C]
        x = self.proj(x).flatten(2).transpose(1, 2) # 这里C即为向量的维度,HW表示的是patch的个数
        x = self.norm(x)
        return x

除此之外还有两个向量,分别为

\mathbf{x}_{class}

\mathbf{E}_{pos}

\mathbf{x}_{class}

表示的给到一个用于最后图像表示的向量,用于最后的分类任务,

\mathbf{E}_{pos}

表示的是位置向量,这两个向量都是通过随机初始化的,并在训练过程中得到的,在参考文献[6]中的代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
self.cls_token = nn.Parameter(torch.zeros(1, 1, embed_dim))
self.pos_embed = nn.Parameter(torch.zeros(1, num_patches + self.num_tokens, embed_dim))

通过以上的过程后,便可以直接使用标准的BERT流程开始训练,这部分不再赘述,可参见参考文献[5]和参考文献[6]的具体实现。

2.2.3. 训练目标以及fine-tune

ViT的训练与BERT是不一样的,在BERT中采用的无监督的训练,而在ViT中使用的是监督训练,使用的数据集是有标签的分类数据集,如ILSVRC-2012 ImageNet数据集,该数据集是一个包含了1000个类别的带标签的数据集。[class]标记的向量最初为

\mathbf{z}_0^0=\mathbf{x}_{class}

,在训练过程中,通过Transformer Encoder得到[class]标记的最终向量为

\mathbf{z}_L^0

,对其进行归一化并以此作为图像的表示y:

\mathbf{y}=LN\left ( \mathbf{z}_L^0 \right )

在训练过程中,后接一个带一个隐含层的MLP,得到整个网络的结构。在Fine-tuning时,去掉最终的这部分,直接用一个线性曾代替这部分重新训练。

在参考文献[4]中,作者设计了不同大小的网络结构,如下图所示:

从最终的效果上来看,ViT模型的效果还是要优于传统的基于CNN的模型的:

2.2.4. 一个有意思的点

在上述的ViT的过程中,位置的向量

\mathbf{E}_{pos}

是随机初始化的,那么最终训练出来的这个向量的值能表示其在原始图像中的真实位置吗?在参考文献[4]中设计了这样一个方法,假设有

7\times 7

个patch,每个patch的位置向量与其他patch的位置向量计算相似度,得到了如下的一张图,其中自身的相似度为1。

我们发现最终训练出来的位置向量已经具有了空间了信息,即与同行同列之间具有相对较高的相似度。

3. 总结

ViT模型将Transformer引入到图像的分类中,更准确的说是Transformer中的Encoder模块。为了能够尽可能少地对原始模型的修改,在ViT中将图像转换成一维的序列表示,以改成标准的文本形式,通过这种方式实现Transformer在CV中的应用。

参考文献

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[2] Devlin J , Chang M W , Lee K , et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. 2018.

[3] Radford A, Narasimhan K, Salimans T, et al. Improving language understanding by generative pre-training[J]. 2018.

[4] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

[5] Transformer的基本原理

[6] vision_transformer 代码

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-02-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
纷析咨询|咨询顾问 |上海
纷析咨询是专注于帮助企业实现营销数字化转型与持续增长的专业咨询机构。成立于2017年的纷析,通过战略咨询、策略规划、项目陪跑、基建选择和落地监理、人才赋能等综合方式,帮助企业构建围绕消费者(DTC)的全链路沟通与增长策略,实现数据驱动的成功应用与资产积累,逐步构建营销数字化转型的战略、路径与增长体系,最终,助力企业实现营销数字化转型与可持续的生意增长。 (高级)咨询顾问 上海 工作职责 参与客户会议,并理解客户的需求,这些需求一般都聚焦在营销的数字化转型具体解决方案及效果提升上; 与项目组其他咨询顾问成员一
iCDO互联网数据官
2022/06/29
8840
纷析咨询|咨询顾问 |上海
我们做了20个营销数字化转型咨询项目,想和你说的几件事
我们的行业已经天翻地覆 数字营销行业在最近三四年发生了巨大的变化,不知道大家是否感受到了,特别是: 广告投放的方式已经彻底改变了,对人(优化师)本身的依赖在下降,而越来越依赖于数据、创意与资源。 营销运营化的趋势越来越明显,人们对私域的认识有了新的高度,并不是简单地将私域当做救命稻草,将用户圈起来后收割一下就完事,一定是往营销运营化的方向发展,尤其对品牌广告主来说,光懂营销不行,还得懂消费者运营,这对广告主来说也是前所未有的挑战,也是前所未有的机遇。 数据生态本身也发生了很大变化,进而推动营销数字
iCDO互联网数据官
2022/09/19
7060
我们做了20个营销数字化转型咨询项目,想和你说的几件事
京东|战略产品专家|北京
公司 | 京东 地点 | 北京 公司简介 京东于2004年正式涉足电商领域,2018年,京东集团市场交易额接近1.7万亿元。2019年7月,京东集团第四次入榜《财富》全球500强,位列第139位,是中国线上线下最大的零售集团。 京东集团定位于“以供应链为基础的技术与服务企业”,目前业务已涉及零售、数字科技、物流、技术服务、健康、保险、物流地产、云计算、AI和海外等领域,其中核心业务为零售、数字科技、物流、技术服务四大板块。 京东集团奉行客户为先 、诚信、 协作、 感恩 、拼搏 、担当的价值观,目标是成为全
iCDO互联网数据官
2022/03/29
6070
【金猿产品展】神策智能运营:基于用户行为洞察的一站式智能运营平台
神策智能运营可助力运营人员实现自主创建活动计划,从受众筛选 → 触发条件 → 触达配置 → 目标设置,均可自由、快速配置,自动执行。
数据猿
2019/12/30
9630
连续三年高速增长,时隔半年纷享销客再次完成新一轮融资|腾讯SaaS加速器·学员动态
来源|腾讯SaaS加速器一期项目-纷享销客 ---- 纷享销客(腾讯SaaS加速器首期同学)喜获新一轮融资 2021年5月17日,纷享销客宣布完成F轮数亿元人民币融资,此轮融资由鼎晖百孚独家完成。截至此前,纷享销客已获得IDG资本,北极光创投,DCM创投,高瓴,中信产业基金(CPE),华软投资,金蝶国际等知名投资机构连续多轮投资,累计融资十余亿人民币。 随着市场经济的成熟与商业竞争日趋激烈,价值运营理念已成为企业发展共识,以客户为中心的CRM成为企业最核心的营销赋能平台。纷享销客创始人兼CE
腾讯SaaS加速器
2021/05/18
4810
AdTech与MarTech数据厂商的最新动态(纷析数据行业雷达|2018年11月期)
《AdTech与MarTech数据厂商的最新动态(纷析数据行业雷达|2018年11月期)》,即互联网数据厂商与MarTech数据厂商最新动向雷达,由纷析数据科技出品。
iCDO互联网数据官
2018/12/19
8340
AdTech与MarTech数据厂商的最新动态(纷析数据行业雷达|2018年11月期)
产品运营是做什么的?新手运营必读篇
产品运营是产品取得成功,实现产品的商业目标的重要支撑。产品运营岗位的专业能力要求庞杂,在岗或准备入坑人员应该如何巩固自身的知识/技能树?
奔跑的小鹿
2023/11/03
1.5K0
产品运营是做什么的?新手运营必读篇
大象转身,一蹶不振还是华丽重生?| TW商业洞见
科技即商业 TECHNOLOGY IS BUSINESS 以社交媒体、移动、客户数据洞察、物联网(Internet of Things)为代表的数字技术正在革新商业生态圈。数字化风暴极速冲击着金融行业,第三方支付、P2P网贷、众筹融资、电商小贷、虚拟货币、金融网销、垂直金融搜索入口、理财工具和服务、金融咨询和法务援助等等创新金融模式,极大地颠覆着金融生态。来自花旗银行的报告称 ,以金融科技驱动的这些新型金融业务已经把传统金融业务逼上了绝路,以美国市场为例,到2023年,新型金融科技的收入将占到17%;在中国
ThoughtWorks
2018/04/20
9260
大象转身,一蹶不振还是华丽重生?| TW商业洞见
华润雪花郭华:每一个人都不简单,每一瓶酒才放光彩 | 极客时间企业版
2022 年 10 月 26 日,由极客时间企业版主办的“数字人才蓄能季高端论坛——夯实人才底座,掌控数字化未来机遇”成功举办。华润雪花啤酒数字化负责人郭华受邀参加本次峰会,并做了“每一个人都不简单,每一瓶酒才放光彩”主题分享,以下为分享内容整理,供大家阅读参考。
深度学习与Python
2022/11/28
7560
安排上了!上海1000名产品经理的周末已经被我们预定
这可能是2018年中国产品经理都不可错过的知识盛会! 14场高质量主题演讲 | 围绕新零售、人工智能、O2O、互联网教育、智慧出行等热议领域,与业内实战派大咖一起探索互联网产品圈的未来。 2天社交碰撞丨2天时间,深入沟通交流,提升行业人脉。千名互联网行业精英齐聚,思想的汇聚,机会无处不在! 距离上海大会开幕仅剩4天了 这个周末 以产品之名,揭秘产品创新、增长的方法 专业的内容,十足的干货 与你相约上海,共赴这场产品圈的年中知识盛典!  2018中国产品经理大会 · 上海站 嘉/宾/大/剧/透 周末两
腾讯大讲堂
2018/09/05
7620
安排上了!上海1000名产品经理的周末已经被我们预定
人工智能如何助力企业突围互联网运营困局?
互联网产品在近十年来呈现爆发式增长,然而它们中的大多数却面临着竞争力低下、用户大量流失而最终被市场淘汰的困境。如今,随着数字化和智能化的发展与变革,互联网企业纷纷拥抱新技术,不断尝试新的运营方式。用户运营始终是公司的核心战略之一,而AI技术也逐渐在营销领域的应用中脱颖而出。
DT数据侠
2019/03/04
1.2K0
人工智能如何助力企业突围互联网运营困局?
招聘 | 腾讯云大数据,期待您的加入!
1、计算机、通信等相关专业,本科及以上学历,3年以上大型互联网产品或分布式系统开发设计经验;
腾讯云大数据
2021/01/06
2K0
招聘 | 腾讯云大数据,期待您的加入!
顶流品牌全渠道服务经验加持,欧泰谱以闭环Know–how助力品牌商业绩增长 | 欧泰谱厂商评估
面对疫情冲击、行业承压、消费者需求多变等挑战,消费品零售行业企业加速向数字化转型升级,积极谋求破局发展之路。一方面,受疫情因素及经济疲软影响,消费品零售行业整体增速放缓,利润空间下滑,同时叠加行业市场份额竞争加剧,企业迫切需要通过数字化手段实现差异化、精细化运营,提升自身竞争力;另一方面,消费者的消费理念和消费行为不断发生改变,更加注重交互体验和个性化需求,以及便利性、及时性的需求,在触点方面也更加碎片和多元,相应驱动品牌零售企业对营销及运营模式、订单及库存管理、渠道管理、门店运营等多方面进行变革。
爱分析ifenxi
2023/01/18
4100
TAPD携手深圳市软件行业协会打造卓越领袖精研班:助力企业管理与项目执行迈向新高度
12月20日,由腾讯 TAPD与深圳市软件行业协会联合主办的 “卓越领袖精研班 — 企业管理与项目执行力”在腾讯滨海大厦成功举办。此次活动聚焦企业管理与项目执行领域的前沿知识与实践经验,吸引了来自协会会员企业的众多高层管理者及相关部门负责人参与,为深圳软件行业的人才培养与企业发展注入了新的活力。
TAPD敏捷研发
2024/12/24
1050
TAPD携手深圳市软件行业协会打造卓越领袖精研班:助力企业管理与项目执行迈向新高度
3年超30%的线上渗透率,元初食品的数字化营销是怎么做的
嘉宾|许毕峰 霍太稳 编辑|高玉娴 作为一个食品连锁企业,厦门元初食品股份有限公司(以下简称“元初食品”)早在 2018 年就开始试水到家业务。但随着线上业务的开展,新的问题接踵而至,比如,非标生鲜产品怎么卖?门店库存如何跟线上库存同步?售卖高峰期门店顾客和线上顾客的服务如何兼顾保障? 为了解决这一系列问题,元初自主开发了“元初到家”小程序——这也是最早一批生鲜到家小程序之一。举例来说,通过覆盖门店到家、产地到家、仓店联动,针对非标产品,元初在业内率先实现了线上生鲜退差价;而针对库存同步问题,元初则打
深度学习与Python
2023/03/29
4920
3年超30%的线上渗透率,元初食品的数字化营销是怎么做的
付晓岩等多名专家加盟,极客邦持续发力数字人才发展
为进一步履行“推动数字人才全面发展”的品牌使命,近日,极客邦科技宣布近期三位业界专家和高管加盟,付晓岩任副总裁兼双数(数字经济观察与数字人才发展)研究院院长,王洪利任副总裁兼极客时间训练营总经理,夏鑫琪任市场营销与品牌副总裁,共同推进极客邦科技成为服务数字全面人才发展的 KaaS(Knowledge as a Service- 知识即服务)平台企业。
深度学习与Python
2022/04/19
4690
【免费赠票】年度产品经理盛会:大厂实战专家齐聚广州,7大内容模块聊透产品经理未来“新可能”
作为产品圈每年的年度盛会,「产品经理大会」已经陪伴大家走过了6个年头。每年,我们聚焦当下的热点话题和行业趋势,汇聚众多的行业先行者,共同为产品经理发声。 今年,我们邀约了500多位在业内做得比较好的专家们,他们之中有30多位实战派来到了我们大会的舞台: 有的是在互联网摸爬滚打几十年,见证了PC互联网时代的高速发展,也经历了移动互联网变革的互联网老兵 有的是操盘过亿级用户体量的C端产品,也打造过千万营收B端产品的一线实战专家 有的是从产品经理入行,并一步步晋升,转型为业务负责人的高管 …… 在与他们沟通策
腾讯大讲堂
2020/11/04
5160
校招季,如何顺利拿到数据产品经理的offer
前段时间参加公司校招面试后,想把面试后的感想分享给大家,一直因为其他事情耽搁了,虽然现在很多大厂秋招都接近尾声,但最近还有不少同学留言问该如何准备面试,有没有书籍资料推荐。还是决定把数据产品经理校招求职建议总结分享给更多要找实习或者春招的同学。
数据干饭人
2022/07/01
2410
校招季,如何顺利拿到数据产品经理的offer
智慧零售全域人才岗位标准出台,零售业如何实现人才与业绩的同步增长?
随着数字经营与实体经济的逐步融合,零售业数字化进入全域经营阶段,同时发展出更多的新业态和新模式。在这个过程中,招募和培养全域人才成为了企业能否发挥原先积累的优势,实现全面数字化,并获得稳定持续新增长的重要因素。
庄帅
2023/11/21
2140
智慧零售全域人才岗位标准出台,零售业如何实现人才与业绩的同步增长?
关注AI技术的你,快来机器之心做产品经理、数据工程、分析报告和开源「气氛组」吧!
这是一篇机器之心的招聘推文,tl;dr 直接拉到文末点击阅读原文查看职位信息快速投递或将简历发送至 lab@jiqizhixin.com  机器之心是国内领先的人工智能专业信息服务平台,通过媒体、活动、社区、数据库和研究报告等业务,为专业用户传递高质量信息及知识,为相关企业提供技术品牌传播、市场推广、专业洞见和决策辅助等服务,以促进人工智能技术发展及落地,推动产业公司的数字化转型和智能升级。 在机器之心媒体读者较为熟悉的媒体及活动方面,机器之心凭借自身积累的独特的内容原则和价值观,领先于行业的信息筛选、研究
机器之心
2023/03/29
3020
关注AI技术的你,快来机器之心做产品经理、数据工程、分析报告和开源「气氛组」吧!
推荐阅读
纷析咨询|咨询顾问 |上海
8840
我们做了20个营销数字化转型咨询项目,想和你说的几件事
7060
京东|战略产品专家|北京
6070
【金猿产品展】神策智能运营:基于用户行为洞察的一站式智能运营平台
9630
连续三年高速增长,时隔半年纷享销客再次完成新一轮融资|腾讯SaaS加速器·学员动态
4810
AdTech与MarTech数据厂商的最新动态(纷析数据行业雷达|2018年11月期)
8340
产品运营是做什么的?新手运营必读篇
1.5K0
大象转身,一蹶不振还是华丽重生?| TW商业洞见
9260
华润雪花郭华:每一个人都不简单,每一瓶酒才放光彩 | 极客时间企业版
7560
安排上了!上海1000名产品经理的周末已经被我们预定
7620
人工智能如何助力企业突围互联网运营困局?
1.2K0
招聘 | 腾讯云大数据,期待您的加入!
2K0
顶流品牌全渠道服务经验加持,欧泰谱以闭环Know–how助力品牌商业绩增长 | 欧泰谱厂商评估
4100
TAPD携手深圳市软件行业协会打造卓越领袖精研班:助力企业管理与项目执行迈向新高度
1050
3年超30%的线上渗透率,元初食品的数字化营销是怎么做的
4920
付晓岩等多名专家加盟,极客邦持续发力数字人才发展
4690
【免费赠票】年度产品经理盛会:大厂实战专家齐聚广州,7大内容模块聊透产品经理未来“新可能”
5160
校招季,如何顺利拿到数据产品经理的offer
2410
智慧零售全域人才岗位标准出台,零售业如何实现人才与业绩的同步增长?
2140
关注AI技术的你,快来机器之心做产品经理、数据工程、分析报告和开源「气氛组」吧!
3020
相关推荐
纷析咨询|咨询顾问 |上海
更多 >
LV.0
这个人很懒,什么都没有留下~
目录
  • 1. 概述
  • 2. 算法原理
    • 2.1. Transformer的基本原理
      • 2.1.1. BERT模型的网络结构
      • 2.1.2. BERT模型的输入Embedding
      • 2.1.3. 重要的Multi-Head Attention
      • 2.1.4. 下游任务的fine-tuning
    • 2.2. ViT的基本原理
      • 2.2.1. ViT的网络结构
      • 2.2.2. 图像到一维序列数据的转换
      • 2.2.3. 训练目标以及fine-tune
      • 2.2.4. 一个有意思的点
  • 3. 总结
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档