今日凌晨,openAI祭出了sora大杀器,整个AI圈子震动,所有人开始关注这一个新技术的来临。
Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。
Jim Fan 详细介绍了一下 Sora 的实现原理,如果你把OpenAI Sora当作一个和DALLE类似的创意小玩意……那你可能要重新认识它了。Sora实际上是一个基于数据的物理模拟引擎。它能够模拟各种各样的世界,不管是真实的还是幻想中的。通过一系列复杂的计算过程,比如去噪技术和梯度计算,这个模拟器能够学习到如何进行精细的渲染、模拟直观物理效果、进行长期的逻辑推理,以及实现语义理解。
如果说Sora是依赖使用Unreal Engine 5生成的大量合成数据进行训练,我一点都不会觉得意外。因为它的确需要这样做!
提示:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。
提示:逼真的特写视频,两艘海盗船在一杯咖啡中航行时相互争斗。
我们来分析上述一段视频。视频提示是:“在一杯咖啡中航行的两艘海盗船进行战斗的逼真特写镜头。”
下一步是增加更多的输入模式和条件设置,我们就能得到一个全面的数据驱动的虚拟引擎,它将有望取代所有传统手工编制的图形处理流程。
Sora 能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。
提示:镜头跟随一辆带有黑色车顶行李架的白色老式 SUV 在陡峭的山坡上被松树包围的陡峭土路上加速,轮胎上扬起灰尘,阳光照在 SUV 上,因为它沿着土路飞驰,为场景投下温暖的光芒。土路缓缓蜿蜒向远处,看不到其他汽车或车辆。道路两旁的树木都是红杉,到处都是绿色植物。从后方可以看到这辆车可以轻松地沿着弯道行驶,看起来好像是在崎岖的地形上崎岖不平地行驶。土路本身被陡峭的丘陵和山脉所环绕,上面是湛蓝的天空和轻薄的云彩。
提示:中国龙的中国农历新年庆祝视频。
龙年这个视频,以现有的AI文生视频,根本实现不了。
该模型对语言有深刻的理解,使其能够准确地解释提示并生成表达生动情感的引人注目的角色。Sora 还可以在单个生成的视频中创建多个镜头,以准确保留角色和视觉风格。
提示:美丽、白雪皑皑的东京市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,并在附近的摊位购物。绚丽的樱花花瓣与雪花一起在风中飘扬。
提示:纽约市像亚特兰蒂斯一样被淹没。鱼、鲸鱼、海龟和鲨鱼在纽约的街道上游来游去。
当然目前的模型有弱点。难以准确模拟复杂场景的物理特性,无法理解因果关系的具体实例,可能混淆提示的空间细节,难以精确描述随时间推移发生的事件,如遵循特定的相机轨迹。
提示:五只灰狼幼崽在一条偏远的碎石路上嬉戏和追逐,周围环绕着草地。幼崽们奔跑跳跃,互相追逐,互相啃咬,玩耍。
提示:篮球穿过篮筐然后爆炸。
在OpenAI的产品中提供Sora之前,将采取几个重要的安全措施。
提示:一只可爱的快乐水獭自信地站在冲浪板上,穿着黄色救生衣,沿着郁郁葱葱的热带岛屿附近的绿松石热带水域骑行,3D数字渲染艺术风格。
问题来了:Sora 这么强大,是怎么实现的?
Sora 是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐转换视频。
Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过让模型一次看到许多帧,我们解决了一个具有挑战性的问题,即确保一个主题即使暂时离开视野也能保持不变。与 GPT 模型类似,Sora 使用 transformer 架构,释放出卓越的扩展性能。
我们将视频和图像表示为称为patches补丁的较小数据单元的集合,每个补丁都类似于 GPT 中的一个令牌。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散变压器,跨越不同的持续时间、分辨率和纵横比。
在高层次上,首先将视频压缩为低维潜在空间,然后将表示分解为时空补丁,从而将视频转换为补丁。
我们训练了一个网络,可以降低视觉数据的维度。该网络将原始视频作为输入,并输出在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了一个相应的解码器模型,该模型将生成的潜在对象映射回像素空间。
给定一个压缩的输入视频,我们提取一系列时空补丁,这些补丁充当转换器令牌。此方案也适用于图像,因为图像只是单帧视频。我们基于补丁的表示使 Sora 能够对可变分辨率、持续时间和纵横比的视频和图像进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。
过去的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准大小,如分辨率为 256x256 的 4 秒视频。以原生大小对数据进行训练有几个好处。
Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频进行采样。这使 Sora 可以直接以原始纵横比为不同设备创建内容。它还使我们能够在以全分辨率生成之前以较小的尺寸快速制作内容原型 - 所有这些都使用相同的模型。
以原始纵横比对视频进行训练可以改善构图和取景。我们将 Sora 与模型的一个版本进行了比较,该模型将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。
训练文本到视频生成系统需要大量带有相应文本标题的视频。
可以用其他输入提示 Sora,如预先存在的图像或视频。Sora 能够执行各种图像和视频编辑任务——创建完美循环的视频、为静态图像制作动画、在时间上向前或向后扩展视频等。
Sora建立在DALL·E 和 GPT 模型。它使用了 DALL·E 3,涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循生成视频中用户的文本说明。
Sora 能够生成视频,提供图像和提示作为输入。
prompt:在一个华丽的历史大厅里,一个巨大的潮汐达到顶峰并开始崩溃。两名冲浪者抓住时机,熟练地驾驭海浪。
Sora 还能够向前或向后扩展视频。以下是四个视频,它们都是从生成的视频片段开始向后扩展的。四个视频的开头都与其他视频不同,但所有四个视频都指向相同的结局。
扩散模型已经实现了多种从文本提示中编辑图像和视频的方法。将其中一种方法 SDEdit应用于 Sora。这种技术使 Sora 能够零镜头转换输入视频的风格和环境。
可以使用 Sora 在两个输入视频之间逐渐插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡。
Sora 还能够生成图像。将高斯噪声的斑块排列在时间范围为一帧的空间网格中。该模型可以生成可变大小的图像,分辨率高达 2048x2048。
充满活力的珊瑚礁,到处都是五颜六色的鱼类和海洋生物
一个白雪皑皑的山村,有舒适的小木屋和北极光显示,高细节和逼真的数码单反相机,50mm f/1.2
视频模型在大规模训练时表现出许多有趣的涌现能力,使 Sora 能够模拟物理世界中人、动物和环境的某些方面。对3D、物体等没有任何明确的归纳偏差——纯粹是尺度现象。
现在看完本篇文章,就理解下面这张图了,hhh,欢迎关注转发。