来源:OpenAI 链接:https://openai.com/research/video-generation-models-as-world-simulators 内容整理:王寒 OpenAI新提出了一种功能强大的视频生成大模型,采用tansformer结构处理视频图像的时空块,支持不同长度、不同分辨率和不同长宽比的视频生成。其中最大的Sora模型支持长达一分钟的高保真视频生成。OpenAI称大规模视频生成模型是构建物理世界通用模拟器的有前景的途径。
OpenAI给出的技术报告主要包含如下两部分:
虽然没有介绍模型和实现细节,但该模型优越的生成能力使得这一报告值得关注。
视频生成模型可以大致分为四种类别:
这些已有的工作仅针对有限的视觉数据,并且生成的视频时间短、分辨率及长宽比固定。本工作验证了在原有的大小上训练模型有优势:
受到大语言模型(LLM)对大规模多模态数据的使用的启发,本文认为视觉模型也可以用相似的思路训练多模态的大模型。参考LLM的文字token,本文使用针对视觉数据的视觉patch实现大规模训练。之前的工作也佐证了patch在视觉数据表征方面的有效性。我们发现视觉patch在不同类型的视频图像数据上表现出了高扩展性和高效性。
图 1
视觉数据转化为patch的整体流程如图1所示,首先通过一个编码器将视觉数据压缩到低维的隐藏空间,接下来将隐藏表征分解为时空patch。
训练了一个视觉编码器将输入的视频在时间和空间维度进行压缩,降低生成模型的复杂度,同时训练一个解码器用于将生成潜在编码对应到真实世界的视频。
从压缩后的视频中提取时空块,这些块在模型中作为transformer的token。这一方法使模型可以使用视频和图像数据训练(图像可以看作单帧视频)。同时,这种基于块的表征方式支持不同时长、分辨率、长宽比的视频生成,只需在推理阶段修改分割始化块的网格大小即可。
Sora是一个扩散模型,其原理是根据给定的有噪声的输入块和提示信息预测无噪的块。Transformer在多个领域(包括语言建模、计算机视觉和图像生成)都表现出了卓越的可扩展性,Sora模型是一个扩散transformer。作者发现扩散transformer可以高效扩展为视频模型。试验证明其计算量的提升显著提高采样质量。
训练文本到视频模型需要大量配对的数据,本文采用了DALL·E 3技术为视频添加描述,训练一个高度描述性的字幕模型为训练集中的视频添加描述信息,高度描述性的提示提升了生成视频的文字忠实性和总体质量。
Sora除了支持文生视频外还支持在已有的视频图像基础上的生成,这也使得Sora的应用场景可以扩展到视频图像编辑领域,例如生成完美循环的视频、让图片动起来、视频前后时间延伸等。
图 2 让图片动起来示例
SDEdit等编辑方法也可以应用到Sora模型中实现视频编辑。此外Sora还支持将两个差别较大的视频无缝衔接。下面的三个视频中中间的视频是由其他两个视频合成而来的。
Sora支持最高分辨率2048x2048的图片生成(看作单帧视频)。
图 3 Sora生成的图片
3D连续
在训练过程中作者发现,Sora习得了一些新的模拟功能,可以生成运动机位的视频,在镜头移动、旋转过程中物体保持3D特性的连续。
长短程依赖和物体保持
Sora经常(不是每次)能很好的处理长短程依赖问题,在一个视频中保持物体的连续性,即使是该物体曾经短暂离开画面的情况下也能保持前后一致,并且对一个物体的多个角度维持其外表不变。如下面的视频展示的狗在视频中被人遮挡短暂离开画面,却很好的保持了前后外表的一致。
与真实世界交互
Sora可以用简单的方式模拟动作对事物状态的影响,例如画家笔下的画面不会消失,人吃汉堡会在汉堡上留下咬痕。
模拟数字场景
Sora能模拟视频游戏中的画面,得到符合游戏场景的高保真画面。
多样化的应用场景表明,大视频模型可以通过大规模训练来实现物理世界和数字世界以及场景中的人、动物和物体实现模拟。
Sora对一些场景的物理交互模拟会出现失败现象,例如碎玻璃;此外还会出现一些不自然的状态,前面提到的食物咬痕问题并不是每次都能留下合理的痕迹;在长视频中不连续现象或物体自己出现也有发生。更多应用案例和失败案例在OpenAI网站上呈现:https://openai.com/research/video-generation-models-as-world-simulators