首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OpenAI发布Sora技术报告深度解读!真的太强了!

OpenAI发布Sora技术报告深度解读!真的太强了!

作者头像
程序员洲洲
发布于 2024-06-07 06:11:56
发布于 2024-06-07 06:11:56
2510
举报
文章被收录于专栏:项目文章项目文章

导读

大家好,我是小洲。

昨天OpenAI推出的文生成视频大模型Sora可谓是在科技媒体头条一时风头无两,大放异彩。其惊人的逼真细节、流畅的视频动作,以及准确的文本语义还原令人惊叹。许多媒体、科技专家和电影导演纷纷指出,Sora的亮相不仅使一直在该领域深耕的Pika、Stability等知名企业相形见绌,甚至可能对整个影视行业产生颠覆性影响。

Sora主要令人惊艳的点在于可以生成60s的高清视频,一镜到底,并且多个场景镜头无缝衔接,视频主体不变,各个物体间的物理位置关系不变。

今天OpenAI发布了Sora的技术报告,我们来仔细研读一下Sora的技术原理~ (Sora官方技术报告链接:https://openai.com/research/video-generation-models-as-world-simulators)

报告总览

首先我们来梳理一下Sora报告的技术要点:

  • 模型训练

1、Sora的架构是扩散模型Diffusion Model和Transformer.

在最开始的文生视频领域,常用的有RNN\GAN\DM模型。Sora属于扩散模型。

扩散模型展现出卓越的优势,相较于GAN而言,它在生成多样性和训练稳定性方面更为出色。最为关键的是,在图片和视频生成领域,扩散模型呈现出更为广阔的发展空间。相较于GAN模型本质上是机器对人的模仿,扩散模型更像是机器真正学会了“成为一个人”。这不仅突显了其在生成领域的前沿地位,还彰显了其在理解和模拟人类特质方面的独特能力。因此,扩散模型不仅在技术上取得了显著的进步,更为全面地超越了传统的生成对抗网络。

说得直白一点,GAN模型就像是一位学徒,他一边不停地对着样本作画,一边接受着老师的不断评分以进行提升“训练”(生成器和判别器的相互博弈)。最终画家可能取得了不小的进步画出逼真的作品,但整个过程难以精确控制,有时候会走火入魔,输出一些难以理解的内容。而且,他的进步主要是在不断地模仿先前的作品,缺乏创造性。

相比之下,扩散模型则更像是一位勤奋且聪明的创作者。他不仅仅是机械地仿作,而是在学习大量作品的同时,深刻理解图像内涵及图像之间的关系。他具备对图像上的“美”和某种“风格”进行思考的能力,从而更有前途。不同于GAN的局限性,扩散模型在创造性方面表现更出色,为未来的发展提供了更广阔的可能性。

2、Sora模型在训练时是先用预训练模型把各种不同的视频源文件编码统一都转化为Patch表示,接着把时空要素作为Transformer的token进行训练。

大型语言模型之所以在之前取得成功,关键在于Token的出色应用。Token这一概念,可被视作一种巧妙的工具,它成功地将代码、数学以及各种自然语言有机地统一在一起,为进行大规模训练提供了高效而便捷的手段。这种统一不仅简化了模型的训练过程,还促使了不同领域知识的有效交融,为模型的全面学习提供了有力支持。

在视频模型Sora的训练中,OpenAI巧妙地将Token的思想延伸,并引入了“Patch”概念。这里,“Patch”可以被译为图块,这一概念的引入进一步加强了对视频信息的处理能力。通过将Token理解为词元,我们可以将“Patch”视为对图像信息进行分块处理的有效手段,为Sora在处理视频生成时提供了更灵活和精准的工具。

需要强调的是,在大型语言模型的成功背后,Token并非孤立存在。其背后还有Transformer架构的协同作用,这个架构为模型提供了更为智能和高效的学习方式。Transformer架构与Token相辅相成,相互配合,使得模型在各个层面都能更好地理解和处理复杂信息。

因此,Sora作为一种视频生成扩散模型,与主流采用U-Net架构的视频生成扩散模型不同,选择采用了Transformer架构。这种创新设计不仅使Sora在视频生成领域具备独特的优势,还为模型在理解和处理更丰富、更复杂信息方面开辟了新的可能性。这样的前瞻性设计使得Sora在实际应用中表现抢眼,并为视频生成技术的进一步发展贡献了重要的经验和启示。

  • 特点

1、自然语言的理解能力大大增强,可以贴切的理解prompt提示词。

2、可以将视频内容主体的特征保持不变。

3、可以生成长达60s的高清一镜到底视频(之前所有的文生视频大模型几乎都只能生成10s以内的视频内容)。

4、可以实现视频补全、视频延伸等等。

5、已经对真实的物理世界有了认知,可以自然理解一些简单的物理世界原理并做出视频。

Sora报告

(1) 将视觉数据转化为补丁

借鉴于大型语言模型的成功经验,这些模型通过海量的互联网数据训练,具备出色的通用能力。LLM范式的成功得益于其巧妙运用标记,这些标记巧妙地统一了文本、代码、数学以及各种自然语言模式。在研究中OpenAI思考了视觉数据生成模型如何能够继承并运用这些优势。相较于LLM拥有文本标记,Sora则通过引入视觉补丁实现其目标。过去的研究已经证明,补丁在表示视觉数据模型时是一种有效的方式。发现表明,补丁是一种高度可扩展和有效的表示方式,适用于在不同类型的视频和图像上进行生成模型的训练。在更高层面上,首先将视频压缩至较低维的潜在空间,然后通过将表示分解为时空补丁的方式,成功地将视频转换为补丁形式。这一方法为训练生成模型提供了更灵活、更有效的手段。

(2) 视频压缩网络

通过训练网络成功实现了对视觉数据维度的降低。这个网络以原始视频为输入,输出在时间和空间上经过压缩的潜在表示。Sora在这一压缩的潜在空间中接受训练,进而生成出新的视频。为了完善这一过程进行了解码器模型的训练,它能够将生成的潜在表示映射回像素空间,为最终的视觉输出提供了高质量的还原。

这个创新性的方法不仅能够在降低数据维度的同时保持信息的关键性,还为视觉数据处理领域带来了更为高效和灵活的解决方案。

(3) 时空潜补丁

这个“潜”,可以理解成“降维”或者“压缩”,意在用更少的信息去表达信息的本质。

给定一个压缩的输入视频,提取一系列时空补丁,充当变压器令牌。该方案也适用于图像,因为图像只是具有单帧的视频。基于补丁的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时可以通过在适当大小的网格中排列随机初始化的补丁来控制生成视频的大小。

(4) 改进的框架和构图

基于原始视频的长宽比进行训练有助于改善构图和取景效果。特别将Sora与一种常见的训练生成模型方式进行比较,即将所有训练视频裁剪为正方形的模型版本。在方形裁剪的模型训练中,有时会产生仅显示部分主体的视频的情况。相比之下,Sora模型的视频在取景效果上表现更佳,通过保留原始长宽比,成功改进了视频的构图,使其更加完整和有吸引力。

(5) 语言理解

为了训练文本到视频生成系统采用具备相应文本字幕的大量视频。引入了DALL·E 3中的重新字幕技术,首先培训了一个高度描述性的字幕生成器模型,并将其用于为训练集中的所有视频生成文本字幕。这一过程的关键是通过对高度描述性视频字幕的训练,提高文本的保真度,从而提升整体视频质量。

与DALL·E 3相似,巧妙地利用GPT将短小的用户提示转换为更为详细的字幕,然后将其发送到视频模型。这一策略使得Sora能够生成高质量视频,准确地符合用户的提示,为用户提供了更加个性化和令人满意的视觉体验。

(6) 通过图像和视频进行提示

Sora 也可以通过其他输入进行提示,例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务 - 创建完美的循环视频、动画静态图像、及时向前或向后扩展视频等。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。在Sora横空出世之前,Runway一直被视为AI生成视频的默认选择,尤其是自去年11月推出第二代模型以来,Runway还被称为“AI视频界的MidJourney”。第二代模型Gen-2不仅解决了第一代AI生成视频中每帧之间连贯性过低的问题,在从图像生成视频的过程中也能给出很好的结果。
汀丶人工智能
2024/02/19
2.5K0
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
Sora: 作为世界模拟器的视频生成模型
这些已有的工作仅针对有限的视觉数据,并且生成的视频时间短、分辨率及长宽比固定。本工作验证了在原有的大小上训练模型有优势:
用户1324186
2024/02/21
3820
Sora: 作为世界模拟器的视频生成模型
OpenAI 的 ​Sora 技术报告详解
里面有 Open AI的训练思路以及 Sora 详细的技术特性,我从里面找了一些要点,详细的可以去看完整内容。
周萝卜
2024/02/21
4530
OpenAI  的 ​Sora 技术报告详解
深入浅出熟悉OpenAI最新大作Sora文生视频大模型
蠢蠢欲动,惴惴不安,朋友们我又来了,这个春节真的过的是像过山车,Gemini1.5 PRO还没过劲,OpenAI又放大招,人类真的要认输了吗,让我忍不住想要再探究竟,到底是什么让文生视频发生了质的跃迁,再次不仅止不住唏嘘,那些老板们辛辛苦苦创起来的业,恐怕又被降维打击了一波!
朱晓霞
2024/02/26
2790
深入浅出熟悉OpenAI最新大作Sora文生视频大模型
浅析SORA视频生成原理
OpenAI发布了视频生成模型Sora,最大的Sora模型能够生成一分钟的高保真视频。同时OpenAI称,可扩展的视频生成模型,是构建物理世界通用模拟器的一条可能的路径。
码之有理
2024/03/13
1.1K0
万字长文 | Sora技术解析报告
在深度学习革命之前,传统的图像生成技术依赖于基于手工创建特征的纹理合成和纹理映射等方法。这些方法在生成复杂而生动的图像方面能力有限。
NewBeeNLP
2024/03/07
1.8K0
万字长文 | Sora技术解析报告
文本生成视频Sora技术解读——作为世界模拟器的视频生成模型 Video generation models as world simulators
OpenAI最近推出了一款全新的文本生成视频模型:Sora。其只要输入一些描述视频画面的提示词,它就能生成一段时长60秒的视频。这些视频的质量和准确性达到了令人惊艳的程度,创造出既真实又充满想象力的场景,号称“作为世界模拟器的视频生成模型”。
中杯可乐多加冰
2024/05/14
8150
真·降维打击,Sora与Runway、Pika的对比来了,震撼效果背后是物理引擎模拟现实世界
昨天,OpenAI 发布的首个文本生成视频模型 Sora 引爆了社区,其生成的长达 1 分钟的高清、流畅视频令人们惊叹不已,直呼「好莱坞的时代结束了」。
机器之心
2024/02/26
2880
真·降维打击,Sora与Runway、Pika的对比来了,震撼效果背后是物理引擎模拟现实世界
深入理解Sora技术原理
OpenAI 发布的视频生成模型 Sora(https://openai.com/sora),能根据文本生成长达一分钟的高质量视频,理论上支持任意分辨率,如 1920x1080 、1080x1920 ,生成能力远超此前只能生成 25 帧 576x1024 图像的顶尖视频生成模型 Stable Video Diffusion。
得物技术
2024/03/20
5840
深入理解Sora技术原理
Sora技术报告 视频生成模型作为世界模拟器 笔记 - plus studio
技术报告原题目叫做 Video generation models as world simulators,翻译一下就是 视频生成模型作为世界模拟器,地址在这里 。我写的时候是翻译和笔记并行,翻译感谢gpt4出色的翻译能力。
plus sign
2024/02/29
3480
Sora技术报告 视频生成模型作为世界模拟器 笔记 - plus studio
一锤降维!解密OpenAI超级视频模型Sora技术报告,虚拟世界涌现了
谷歌的Gemini Pro 1.5还没出几个小时的风头,天一亮,全世界的聚光灯就集中在了OpenAI的Sora身上。
新智元
2024/02/26
2250
一锤降维!解密OpenAI超级视频模型Sora技术报告,虚拟世界涌现了
Sora:技术细节推测与原理解读,行业影响与成功关键
每逢年节,都是普罗大众从繁重的工作中抽离出来,回归生活与家庭的欢聚时光。然而今年的大年初六,OpenAI 发布的“文生视频”工具 Sora,却以又一次的 AI 技术变革姿态席卷了大街小巷,成为每个饭局讨论的焦点。GPT-4 发布的震撼犹在眼前,又一次的行业冲击接踵而至。 被替代的危机论再次甚嚣尘上,未来真的没机会了吗?我们又该如何在变局中抓住机遇?或许,可以先从积极主动地了解危机本身,拥抱学习开始吧!
腾讯云开发者
2024/02/21
1.8K0
Sora:技术细节推测与原理解读,行业影响与成功关键
深度揭秘 Sora 关键技术:时空补丁如何变成OpenAI 的新“魔法”
人工智能工具如何将一张静态图像转化为一段动态、逼真的视频?OpenAI 的 Sora 通过时空补丁的创新使用给出了答案。
深度学习与Python
2024/02/29
4220
深度揭秘 Sora 关键技术:时空补丁如何变成OpenAI 的新“魔法”
Sora----打破虚实之间的最后一根枷锁----这扇门的背后是人类文明的晟阳还是最后的余晖
2.扩散模型与Diffusion Transformer,组合成强大的信息提取器 OpenAI讲Sora是一个Diffusion Transformer,这来自伯克利学者的工作Diffusion Transformer (摘取大佬原文https://blog.csdn.net/qq_44681809/article/details/135531494):“采用Transformer的可扩展扩散模型 Scalable diffusion models with transformers”[2],整体架构如下:
一枕眠秋雨
2024/03/11
2210
Sora----打破虚实之间的最后一根枷锁----这扇门的背后是人类文明的晟阳还是最后的余晖
一文带你了解OpenAI Sora
在国内外大多数AI厂商还在卷大语言模型之际,OpenAI悄无声息地发布了文生视频(text-to-video,简称t2v)模型Sora [1],仅仅几个视频demo,就让整个AI圈子从惊讶到恐惧,惊讶于Sora生成的视频已经到达工业应用级别,恐惧于现有的t2v模型与Sora的差距竟然如此之大。 先看个Sora官方博客展示的demo,当你向Sora输入:“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.”,Sora则根据该文本生成以下长达1分钟的高清视频。
腾讯技术工程官方号
2024/02/21
6430
一文带你了解OpenAI Sora
OpenAI Sora发布:视频AI界的top1
今日凌晨,openAI祭出了sora大杀器,整个AI圈子震动,所有人开始关注这一个新技术的来临。
AIGC新知
2024/10/08
2140
OpenAI Sora发布:视频AI界的top1
OpenAI Sora核心技术,被曝缝合自DeepMind和谢赛宁论文?机器模拟人类世界迈出第一步
像ChatGPT成功抢了Claude的头条一样,这一次,谷歌核弹级大杀器Gemini 1.5才推出没几个小时,全世界的目光就被OpenAI的Sora抢了去。
新智元
2024/02/26
1920
OpenAI Sora核心技术,被曝缝合自DeepMind和谢赛宁论文?机器模拟人类世界迈出第一步
【源头活水】OpenAI Sora文生视频模型技术报告中英全文
Video generation models as world simulators 视频生成模型作为世界模拟器
马上科普尚尚
2024/02/22
4700
【源头活水】OpenAI Sora文生视频模型技术报告中英全文
【Sora】发布,马斯克直言:人类要完
OpenAI全新的视频生成AI大模型Sora的发布,让各类“危言耸听”的言论甚嚣尘上。
用户10691975
2024/02/23
2630
【Sora】发布,马斯克直言:人类要完
从直观物理学谈到认知科学,Sora不是传统物理模拟器盖棺定论了?
最近,OpenAI 的文生视频模型 Sora 爆火。除了能够输出高质量的视频之外,OpenAI 更是将 Sora 定义为一个「世界模拟器」(world simulators)。
机器之心
2024/03/18
1720
从直观物理学谈到认知科学,Sora不是传统物理模拟器盖棺定论了?
推荐阅读
相关推荐
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档