Sora大模型使用到了vision Transformer 提出来的Patch embedding 操作。
Vision Transformer(ViT)是一种基于Transformer架构的视觉模型,用于处理图像分类任务。传统的卷积神经网络(CNN)在图像分类任务中表现出色,但是ViT提出了一种全新的思路,将图像分割成小块(patches)并将每个patch作为输入序列,然后通过Transformer模型进行处理。
ViT模型的输入是一张图像,首先将图像分割成固定大小的patch,然后将每个patch转换成一个向量(patch embedding)。这个操作可以通过简单的线性变换(通常是一个全连接层)来实现,将每个patch的像素值展平成一个向量作为输入。
Patch Embedding:
•首先,ViT将输入的二维图像分割成多个固定大小的 patches(例如,通常为16x16像素的小块)。
•这些patches被线性嵌入到一个高维向量空间中,每个patch可以看作是一个词或者token,与NLP中的单词嵌入相似。
•对于每个patch,通过一个线性层(如卷积层或全连接层)将其转换成向量表示,并且可能进行一层位置编码(Positional Encoding),以便模型能够捕捉到这些patch在原始图像中的相对位置信息。
而Sora 模型不仅使用了VIT相关的技术,还使用了transformer 以及扩散模型。open AI把技术与实际应用相结合的能力需要佩服。
领取专属 10元无门槛券
私享最新 技术干货