首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI Sora发布:视频AI界的top1

OpenAI Sora发布:视频AI界的top1

作者头像
AIGC新知
发布2024-10-08 17:11:14
发布2024-10-08 17:11:14
2140
举报
文章被收录于专栏:AIGC新知AIGC新知

今日凌晨,openAI祭出了sora大杀器,整个AI圈子震动,所有人开始关注这一个新技术的来临。

Sora 可以生成长达一分钟的视频,同时保持视觉质量并遵守用户的提示。

Jim Fan 详细介绍了一下 Sora 的实现原理,如果你把OpenAI Sora当作一个和DALLE类似的创意小玩意……那你可能要重新认识它了。Sora实际上是一个基于数据的物理模拟引擎。它能够模拟各种各样的世界,不管是真实的还是幻想中的。通过一系列复杂的计算过程,比如去噪技术和梯度计算,这个模拟器能够学习到如何进行精细的渲染、模拟直观物理效果、进行长期的逻辑推理,以及实现语义理解

如果说Sora是依赖使用Unreal Engine 5生成的大量合成数据进行训练,我一点都不会觉得意外。因为它的确需要这样做!

提示:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。

提示:逼真的特写视频,两艘海盗船在一杯咖啡中航行时相互争斗。

我们来分析上述一段视频。视频提示是:“在一杯咖啡中航行的两艘海盗船进行战斗的逼真特写镜头。”

  • 模拟器创建了两艘装饰各异的精美3D海盗船模型。Sora需要在其内部空间隐式地完成从文本描述到3D模型的转换。
  • 这些3D模型能够在保持彼此距离的同时进行动态航行。
  • 它还模拟了咖啡流体的动力学效果,包括船只周围形成的泡沫。值得一提的是,流体模拟本身就是计算机图形学中一个非常复杂的分支,需要依赖复杂的算法和方程式。
  • 视频达到了近乎逼真的光影效果,仿佛是采用了光线追踪技术进行渲染。
  • 考虑到杯子相比海洋的小尺寸,模拟器还采用了移轴摄影技术,营造出了一种微观世界的视觉感受。
  • 虽然视频中的场景在现实世界中并不存在,但这个引擎还是按照我们所期望的物理规则正确地实现了场景模拟。

下一步是增加更多的输入模式和条件设置,我们就能得到一个全面的数据驱动的虚拟引擎,它将有望取代所有传统手工编制的图形处理流程。

Sora 能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。

提示:镜头跟随一辆带有黑色车顶行李架的白色老式 SUV 在陡峭的山坡上被松树包围的陡峭土路上加速,轮胎上扬起灰尘,阳光照在 SUV 上,因为它沿着土路飞驰,为场景投下温暖的光芒。土路缓缓蜿蜒向远处,看不到其他汽车或车辆。道路两旁的树木都是红杉,到处都是绿色植物。从后方可以看到这辆车可以轻松地沿着弯道行驶,看起来好像是在崎岖的地形上崎岖不平地行驶。土路本身被陡峭的丘陵和山脉所环绕,上面是湛蓝的天空和轻薄的云彩。

提示:中国龙的中国农历新年庆祝视频。

龙年这个视频,以现有的AI文生视频,根本实现不了。

该模型对语言有深刻的理解,使其能够准确地解释提示并生成表达生动情感的引人注目的角色。Sora 还可以在单个生成的视频中创建多个镜头,以准确保留角色和视觉风格。

提示:美丽、白雪皑皑的东京市熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天,并在附近的摊位购物。绚丽的樱花花瓣与雪花一起在风中飘扬。

提示:纽约市像亚特兰蒂斯一样被淹没。鱼、鲸鱼、海龟和鲨鱼在纽约的街道上游来游去。

当然目前的模型有弱点。难以准确模拟复杂场景的物理特性,无法理解因果关系的具体实例,可能混淆提示的空间细节,难以精确描述随时间推移发生的事件,如遵循特定的相机轨迹。

提示:五只灰狼幼崽在一条偏远的碎石路上嬉戏和追逐,周围环绕着草地。幼崽们奔跑跳跃,互相追逐,互相啃咬,玩耍。

提示:篮球穿过篮筐然后爆炸。

在OpenAI的产品中提供Sora之前,将采取几个重要的安全措施。

  • 避免错误信息、仇恨内容和偏见等,对模型进行对抗性测试。
  • 构建工具来帮助检测误导性内容,如检测分类器,判断视频何时由 Sora 生成。
  • 为使用 DALL·E 3,也适用于Sora。文本分类器将检查并拒绝那些请求极端暴力、色情内容、仇恨图像、名人肖像或他人 IP 的提示。
  • 开发了强大的图像分类器,用于查看生成的每个视频的帧数,以帮助确保在向用户显示视频之前,这些视频符合我们的使用政策。

提示:一只可爱的快乐水獭自信地站在冲浪板上,穿着黄色救生衣,沿着郁郁葱葱的热带岛屿附近的绿松石热带水域骑行,3D数字渲染艺术风格。

问题来了:Sora 这么强大,是怎么实现的?

Sora 是一种扩散模型,它从看起来像静态噪声的视频开始生成视频,然后通过多个步骤消除噪声来逐渐转换视频。

Sora 能够一次生成整个视频或扩展生成的视频以使其更长。通过让模型一次看到许多帧,我们解决了一个具有挑战性的问题,即确保一个主题即使暂时离开视野也能保持不变。与 GPT 模型类似,Sora 使用 transformer 架构,释放出卓越的扩展性能。

将可视化数据转换为patches

我们将视频和图像表示为称为patches补丁的较小数据单元的集合,每个补丁都类似于 GPT 中的一个令牌。通过统一我们表示数据的方式,我们可以在比以前更广泛的视觉数据上训练扩散变压器,跨越不同的持续时间、分辨率和纵横比。

在高层次上,首先将视频压缩为低维潜在空间,然后将表示分解为时空补丁,从而将视频转换为补丁。

视频压缩网络

我们训练了一个网络,可以降低视觉数据的维度。该网络将原始视频作为输入,并输出在时间和空间上都经过压缩的潜在表示。Sora在这个压缩的潜在空间中接受训练并随后生成视频。我们还训练了一个相应的解码器模型,该模型将生成的潜在对象映射回像素空间。

时空潜伏斑块

给定一个压缩的输入视频,我们提取一系列时空补丁,这些补丁充当转换器令牌。此方案也适用于图像,因为图像只是单帧视频。我们基于补丁的表示使 Sora 能够对可变分辨率、持续时间和纵横比的视频和图像进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的补丁来控制生成的视频的大小。

用于视频生成的缩放转换器

Sora 是一个扩散模型;给定输入的嘈杂补丁(以及文本提示等条件信息),它被训练来预测原始的“干净”补丁。Sora是一个扩散变压器。Transformer 在语言建模、计算机视觉和图像生成等多个领域都表现出了显著的缩放特性。

可变持续时间、分辨率、纵横比

过去的图像和视频生成方法通常将视频调整大小、裁剪或修剪为标准大小,如分辨率为 256x256 的 4 秒视频。以原生大小对数据进行训练有几个好处。

  • 采样灵活性

Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频进行采样。这使 Sora 可以直接以原始纵横比为不同设备创建内容。它还使我们能够在以全分辨率生成之前以较小的尺寸快速制作内容原型 - 所有这些都使用相同的模型。

  • 改进的取景和构图

以原始纵横比对视频进行训练可以改善构图和取景。我们将 Sora 与模型的一个版本进行了比较,该模型将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。

语言理解

训练文本到视频生成系统需要大量带有相应文本标题的视频。

  • 应用DALL·E 3 到视频。训练一个高度描述性的字幕器模型,然后使用它为训练集中的所有视频生成文本字幕。对高度描述性视频字幕的培训可以提高文本保真度以及视频的整体质量。
  • 利用 GPT 将简短的用户提示转换为更长的详细字幕,然后发送到视频模型。这使 Sora 能够准确遵循用户提示生成高质量的视频。

使用图像和视频进行提示

可以用其他输入提示 Sora,如预先存在的图像或视频。Sora 能够执行各种图像和视频编辑任务——创建完美循环的视频、为静态图像制作动画、在时间上向前或向后扩展视频等。

Sora建立在DALL·E 和 GPT 模型。它使用了 DALL·E 3,涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循生成视频中用户的文本说明。

  • 动画 DALL·E 图像

Sora 能够生成视频,提供图像和提示作为输入。

prompt:在一个华丽的历史大厅里,一个巨大的潮汐达到顶峰并开始崩溃。两名冲浪者抓住时机,熟练地驾驭海浪。

  • 扩展生成的视频

Sora 还能够向前或向后扩展视频。以下是四个视频,它们都是从生成的视频片段开始向后扩展的。四个视频的开头都与其他视频不同,但所有四个视频都指向相同的结局。

  • 视频到视频编辑

扩散模型已经实现了多种从文本提示中编辑图像和视频的方法。将其中一种方法 SDEdit应用于 Sora。这种技术使 Sora 能够零镜头转换输入视频的风格和环境。

  • 连接视频

可以使用 Sora 在两个输入视频之间逐渐插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡。

图像生成功能

Sora 还能够生成图像。将高斯噪声的斑块排列在时间范围为一帧的空间网格中。该模型可以生成可变大小的图像,分辨率高达 2048x2048。

充满活力的珊瑚礁,到处都是五颜六色的鱼类和海洋生物

一个白雪皑皑的山村,有舒适的小木屋和北极光显示,高细节和逼真的数码单反相机,50mm f/1.2

新兴的仿真功能

视频模型在大规模训练时表现出许多有趣的涌现能力,使 Sora 能够模拟物理世界中人、动物和环境的某些方面。对3D、物体等没有任何明确的归纳偏差——纯粹是尺度现象。

  • 3D 一致性【动态相机】。Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。
  • 远距离相干性和物体持久性【虚幻引擎建模?】。Sora通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。如模型可以保留人、动物和物体,即使它们被遮挡或离开框架。可以在单个样本中生成同一角色的多个镜头,从而在整个视频中保持它们的外观。
  • 与世界互动。Sora 有时可以以简单的方式模拟影响世界状态的动作。
  • 模拟数字世界。Sora还能够模拟人工过程。Sora 可以同时通过基本策略控制游戏玩家,同时还可以高保真地渲染世界及其动态。通过提示 Sora 提及“Minecraft”来触发。

现在看完本篇文章,就理解下面这张图了,hhh,欢迎关注转发。

  • 参考:https://openai.com/research/video-generation-models-as-world-simulators
  • 官网:https://openai.com/sora#research
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC新知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 将可视化数据转换为patches
  • 视频压缩网络
  • 时空潜伏斑块
  • 用于视频生成的缩放转换器
  • Sora 是一个扩散模型;给定输入的嘈杂补丁(以及文本提示等条件信息),它被训练来预测原始的“干净”补丁。Sora是一个扩散变压器。Transformer 在语言建模、计算机视觉和图像生成等多个领域都表现出了显著的缩放特性。
  • 可变持续时间、分辨率、纵横比
  • 语言理解
  • 使用图像和视频进行提示
  • 图像生成功能
  • 新兴的仿真功能
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档