Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >浅析SORA视频生成原理

浅析SORA视频生成原理

原创
作者头像
码之有理
修改于 2024-03-14 07:50:35
修改于 2024-03-14 07:50:35
9710
举报

介绍

官网:https://openai.com/sora

OpenAI发布了视频生成模型Sora,最大的Sora模型能够生成一分钟的高保真视频。同时OpenAI称,可扩展的视频生成模型,是构建物理世界通用模拟器的一条可能的路径。

Sora能够生成横屏1920*1080视频,竖屏1080*1920视频,以及之间的所有内容。这使得Sora可以兼容不同的视频播放设备,根据特定的纵横比来生成视频内容,这也会大大影响视频创作领域,包括电影制作,电视内容,自媒体等。

除了文生视频,也可以用其他输入提示 Sora,例如预先存在的图像或视频。此功能使 Sora 能够执行各种图像和视频编辑任务——创建完美循环的视频、为静态图像制作动画、在时间上向前或向后扩展视频等。

具体案例参考官方技术报告:https://openai.com/research/video-generation-models-as-world-simulators

Sora的核心作者是Bill Peebles(https://www.wpeebles.com/)和Tim brooks(https://www.timothybrooks.com/about/)。

Sora团队的Leader是Aditya Ramesh(http://adityaramesh.com/), 他是DALLE、DALLE2、DALLE3的主要作者。

最新能力突破

(1)画质突破:视频非常高清,细节极其丰富;

(2)帧率和连续性突破:视频帧率高、连续性好(无闪烁或明显的时序不一致);

(3)时长突破:相比之前t2v模型仅能生成几秒的时长,Sora可以生成长达1分钟的视频,这是之前t2v模型不敢想象的;

(4)物理规则理解突破:视频中物体的运动、光影等似乎都非常符合自然世界的物理规则,整个视频看上去都非常自然和逼真。

申请(红队网络),邀请外部专家在多个阶段评估我们的模型和系统。

https://openai.com/form/red-teaming-network

原理

Runway、Stable Diffusion 是基于扩散模型(Diffusion Model),扩散模型(Diffusion Model)的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片的时候,基于一张完全噪点的图片,逐步减少噪点,直到还原出一张清晰的图片。

文本模型像 GPT-4 则是 Transformer 模型。Transformer 则是一套编码器和解码器的架构,将文本编码成数字向量,然后解码的时候从数字向量还原出文本。

Sora 则是一个融合了两者的 Diffusion Transformer 模型。通过 Transformer 的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。编码器负责对含噪点的输入进行编码,而解码器则负责生成更清晰图像的预测。

GPT-4 被训练以处理一串 Token,并预测出下一个 Token。Sora 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。

在文本预测生成中,基本单位是 Token,Token 很好理解,就是一个单词或者单词的一部分。

将原始视频通过一个视觉编码器(visual encoder)编码到隐空间(latent space)形成隐时空块(spacetime latent patches),这些隐时空块(结合text信息)通过transformer做diffusion 的训练和生成,将生成的隐时空块再通过视觉解码器(visual decoder)解码到像素空间(pixel space)。

所以整个过程就是:visual encoding -> latent diffusion with diffusion transformer (DiT)-> visual decoding。

(1)Visual Encoding

通过一个变分自编码器(VAE)的encoder将高维的原始视频映射(压缩)到较为低维的隐空间(注意:不仅仅是空间上压缩了,时间上也进行了压缩),即得到该视频的低维隐空间特征(可以看成一个大的3D tensor),为了后续transformer计算方便,将这个特征切成不重叠的3D patches,再将这些patches拉平成一个token序列,这个token序列其实就是原始视频的表征了(即visual token序列)。

(2)Latent Diffusion with DiT

在得到视觉表征(上述visual token序列)后,Sora借鉴了DiT,使用transformer来做diffusion model的训练,使用transformer的好处在于可以输入任意长度的token序列,这样就不再限制输入视频的尺寸和时长,并且模型很容易scale up(OpenAI表示这个我熟)。同时,因为Sora想解决text2video的问题,所以Sora会将text的表征以某种形式condition到visual tokens上(Sora技术报告中未披露)来约束生成。

在diffusion transformer的训练中,给定噪声输入(e.g., 噪声patches)并conditioned on text特征,模型被训练去预测原始视频的patches(预测过程又叫denoising过程,具体可以参考DDPM中的训练算法),示意图如下,如今生成扩散模型的大火,则是始于 2020 年所提出的 DDPM(Denoising Diffusion Probabilistic Model)。

(3)Visual Decoding

第(2)步中,diffusion transformer可以生成的其实不是像素空间的视频,而是隐空间的视频表征(denoised patches),这些patches reshape成视频3D特征再经过第(1)步中的VAE的decoder,就可以映射回像素空间,得到最后生成的视频。

关键技术

(1)Sora可以灵活地采用不同时长、分辨率和长宽比的视频

OpenAI发现之前的方法大多采用固定尺寸的视频(比如4s的256x256视频)去训练模型,和现实中任意长度、长宽比有较大gap,而采用原始尺寸的视频训练模型效果更好。得益于Sora采用的transformer结构,Sora可以输入任意多个visual patches(初始为noise patches),即可生成任意尺寸的视频。

不同的分辨率输入在训练时候带来的是大量的计算负载不均衡,一个最简单的做法就是直接padding到固定大小这种做大会引入大量不必要的计算量, 我们从openai的reference中推测他可能使用了google的NaVit里的技术降低了计算量,支持动态输入。

(2)Sora有很强的语言理解能力

训练t2v模型需要大量带有文本标注的视频,OpenAI采用DALL·E 3中的re-captioning技术来解决。首先训练一个高质量的视频标注模型(captioner model),然后它为训练集中的所有视频生成文本字幕。

另外,进一步利用GPT将视频标注模型生成的简短文本扩展成更长的文本有利于还利用Sora准确遵循用户文本提示生成高质量视频。

(3)如何保证长视频的质量

首先训练数据一定是下了很多功夫,从report中我们也看到openai使用了类似DALLE3的cationining技术,训练了自己的video captioner,用以给视频生成详尽的文本描述,进行模型训练。

其次为了保证视频的一致性,模型层应该不是通过多个stage方式来进行视频预测,而是整体预测了整个视频的latent,同时在训练过程中应该引入了auto regressive的task来去帮助模型更好的进行视频特征和帧间关系的学习。具体可以参考谷歌的W.A.L.T ( https://arxiv.org/abs/2312.06662 ) 工作。

局限性

它不能准确地模拟许多基本相互作用的物理过程,例如玻璃破碎。其他交互过程(例如吃食物)也不总是能正确预测。我们在登陆页面中列举了模型的其他常见故障模式,例如长时间样本中出现的不连贯性或对象的凭空出现。”

总结一下主要是:

(1)对世界的物理规则的理解还不完美;

(2)长视频生成时容易出现不连贯或者物体凭空出现的现象。

应用

  • 视频创作:用户可以根据文本生成高质量视频;
  • 扩展视频:可以在给定的视频或图片基础上,继续向前或向后延伸视频;
  • Video-to-video editing:例如将SDEdit [7]应用于Sora,可以很容易改变原视频的风格;
  • 视频连结/过渡/转场:可以将两个视频巧妙地融合到一起,使用Sora在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡;
  • 文生图:图像可以视为单帧的视频,故Sora也能实现文生图。

训练

Jax:https://github.com/google/jax

一文带你掌握深度学习框架Jax

参考

Diffusion原理

https://yinglinzheng.netlify.app/diffusion-model-tutorial/

大世界模型

OpenAI官方信息从未表示Sora是world model,而是强调它是world simulator,我也觉得world simulator描述比较贴切。

https://github.com/LargeWorldModel/LWM

文章

复刻Sora有多难?一张图带你读懂Sora的技术路径

一文看Sora技术推演

一文带你了解OpenAI Sora

Sora 和之前 Runway 那些在架构上有啥区别呢?

Sora 的工作原理(及其意义) [译]

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
视频生成领域的发展概述:从多级扩散到LLM
2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。
deephub
2024/02/21
8080
视频生成领域的发展概述:从多级扩散到LLM
一文带你了解OpenAI Sora
在国内外大多数AI厂商还在卷大语言模型之际,OpenAI悄无声息地发布了文生视频(text-to-video,简称t2v)模型Sora [1],仅仅几个视频demo,就让整个AI圈子从惊讶到恐惧,惊讶于Sora生成的视频已经到达工业应用级别,恐惧于现有的t2v模型与Sora的差距竟然如此之大。 先看个Sora官方博客展示的demo,当你向Sora输入:“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.”,Sora则根据该文本生成以下长达1分钟的高清视频。
腾讯技术工程官方号
2024/02/21
5560
一文带你了解OpenAI Sora
Sora原理解读
创投圈有句名言——“领先半步是先驱,领先一步是先烈”,低代码的热度已经凋零,元宇宙的风随着 Vision Pro 的发布做了个仰卧起坐,又躺了回去。只有以 ChatGPT为代表的大语言模型,才真正把人工智能的热度重新拉了起来,推到了一个前所未有的高度——以前觉得 AGI 是痴人说梦,现在看发现自己可能才是坐井观天。
求索AI
2024/03/07
2380
Sora技术详解及影响分析!
从openai sora[1]的技术报告首段可以看出sora的野心远远不止视频生成,他们的目标是通过视频数据来学习一个世界模型或者世界模拟器,这才是真正令人兴奋和激动的部分。
Datawhale
2024/04/24
2400
Sora技术详解及影响分析!
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
最近几天,据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后,已经没有人愿意在新的 AI 生成视频赛道上落后了。
机器之心
2024/02/26
1860
揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
OpenAI Sora模型原理解析!
OpenAI Sora文生视频模型一经亮相再次沸腾了整个AI 圈,也是ChatGPT掀起GenAI热潮时隔一年后,OpenAI再次史诗级的更新。随后,OpenAI公布的技术综述[文献1]: 视频生成模型作为世界模拟器,更是充分展现了其勃勃雄心,这无疑为AI领域注入了新的活力与期待。
算法进阶
2024/02/29
4000
OpenAI Sora模型原理解析!
Sora 面世,视频生成的 GPT-3 时刻来了
2月16日凌晨,正值中国春节法定节假日期间,OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。看过视频效果后,网友纷纷感叹「现实,不存在了。」
AI科技评论
2024/02/27
2190
Sora 面世,视频生成的 GPT-3 时刻来了
爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
纽约大学助理教授谢赛宁(ResNeXt的一作)直言,Sora将改写整个视频生成领域。
量子位
2024/02/22
2580
爆火Sora参数规模仅30亿?谢赛宁等大佬技术分析来了
深入理解Sora技术原理
OpenAI 发布的视频生成模型 Sora(https://openai.com/sora),能根据文本生成长达一分钟的高质量视频,理论上支持任意分辨率,如 1920x1080 、1080x1920 ,生成能力远超此前只能生成 25 帧 576x1024 图像的顶尖视频生成模型 Stable Video Diffusion。
得物技术
2024/03/20
4720
深入理解Sora技术原理
文本生成视频Sora技术解读——作为世界模拟器的视频生成模型 Video generation models as world simulators
OpenAI最近推出了一款全新的文本生成视频模型:Sora。其只要输入一些描述视频画面的提示词,它就能生成一段时长60秒的视频。这些视频的质量和准确性达到了令人惊艳的程度,创造出既真实又充满想象力的场景,号称“作为世界模拟器的视频生成模型”。
中杯可乐多加冰
2024/05/14
6410
Sora:技术细节推测与原理解读,行业影响与成功关键
每逢年节,都是普罗大众从繁重的工作中抽离出来,回归生活与家庭的欢聚时光。然而今年的大年初六,OpenAI 发布的“文生视频”工具 Sora,却以又一次的 AI 技术变革姿态席卷了大街小巷,成为每个饭局讨论的焦点。GPT-4 发布的震撼犹在眼前,又一次的行业冲击接踵而至。 被替代的危机论再次甚嚣尘上,未来真的没机会了吗?我们又该如何在变局中抓住机遇?或许,可以先从积极主动地了解危机本身,拥抱学习开始吧!
腾讯云开发者
2024/02/21
1.8K0
Sora:技术细节推测与原理解读,行业影响与成功关键
攻陷短视频后,Sora将需要72万块H100 GPU
OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频,吸引了全世界的目光。
机器之心
2024/04/12
1960
攻陷短视频后,Sora将需要72万块H100 GPU
关于 Sora
最近,OpenAI 在 ChatGPT 后,再次推出王炸,发布了文生视频模型 Sora,引起 AI 圈大震动,Sora 在文生视频领域的突破,不亚于 ChatGPT 在 NLP 领域的突破。
关键帧
2024/03/13
1570
关于 Sora
Sora的前世今生:从文生图到文生视频
最近AI圈内乃至整个科技圈最爆的新闻莫过于OpenAI的Sora了,感觉热度甚至远超之前ChatGPT发布时的热度。OpenAI也是放出了Sora的技术报告(有一定的信息量,也留下了大量的想象空间)。
腾讯技术工程官方号
2024/02/23
1.4K0
Sora的前世今生:从文生图到文生视频
算法打工人对Sora模型的大胆猜测!
那无疑是OpenAI在2月15日发布的Sora大模型。如果说ChatGPT的大模型是根据文本信息进行对话,那么Sora则可以根据文本生成一分钟的高清视频,生成的视频画质、连续性、光影等都令人叹为观止,Sora无疑将视觉生成推到新的高度。
千与编程
2024/02/29
2050
算法打工人对Sora模型的大胆猜测!
Sora----打破虚实之间的最后一根枷锁----这扇门的背后是人类文明的晟阳还是最后的余晖
2.扩散模型与Diffusion Transformer,组合成强大的信息提取器 OpenAI讲Sora是一个Diffusion Transformer,这来自伯克利学者的工作Diffusion Transformer (摘取大佬原文https://blog.csdn.net/qq_44681809/article/details/135531494):“采用Transformer的可扩展扩散模型 Scalable diffusion models with transformers”[2],整体架构如下:
一枕眠秋雨
2024/03/11
1530
Sora----打破虚实之间的最后一根枷锁----这扇门的背后是人类文明的晟阳还是最后的余晖
Step-Video-T2V:全球最强开源视频生成
目前阶跃已经成为行业内公认的内卷王之一。其覆盖的领域包含了语音、图片、视频理解和生成等。就在2月中,其就发布了Step-Video-T2V,号称全球最强的开源视频模型。同时一经发布,就已经上线官网,目前所有用户都可以注册进行免费使用,感兴趣的可以来到这个网站进行尝试:
算法一只狗
2025/03/20
1730
除了Grok,Open-Sora也全面开源!
大家好,这里是顶尖架构师栈!点击上方关注,添加“星标”,切勿错过每日干货分享,一起学习大厂前沿架构!
架构狂人
2024/03/20
1410
除了Grok,Open-Sora也全面开源!
如何看待openai最新发布的sora?
Sora多么牛逼多么真实之类的就不多谈了,只用一句话就能概括:随便拿视频中的一帧出来,效果都不亚于Dalle-3精心生成一张图片,而且这些图片放在一起可以构成基本符合真实世界物理逻辑的视频。而且Sora本身其实也可以做图片生成,只是大材小用了。
周萝卜
2024/02/21
1630
如何看待openai最新发布的sora?
Sora简介与其对新媒体短视频行业的影响
当大家还在沉浸在GPT各种大语言模型的时候,OpenAI 悄无声息地发布了文生视频(text-to-video,简称 t2v)模型 Sora,这又是一个对AI冲击很大的突破了。Sora可以根据文本描述生成长达 60 秒的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。是不是惊呆了,简单来说,就是给它一段文字,可以生成一段十分真实的视频,未来看到的视频有可能不是真人拍摄的,大概率是通过Sora或者其他模型生成的短视频。本文也是蹭着这个新风口,稍微了解了一下什么是Sora,接下来简单其生成视频的效果、原理以及对短视频行业的影响。
小明爱吃火锅
2024/03/14
3760
推荐阅读
相关推荐
视频生成领域的发展概述:从多级扩散到LLM
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档