前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重

全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重

作者头像
量子位
发布于 2024-03-20 06:14:20
发布于 2024-03-20 06:14:20
2570
举报
文章被收录于专栏:量子位量子位
明敏 发自 凹非寺 量子位 | 公众号 QbitAI

全球首个开源的类Sora架构视频生成模型,来了!

整个训练流程,包括数据处理所有训练细节和模型权重,全部开放。

这就是刚刚发布的Open-Sora 1.0。

它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。

还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。

亦或是延时摄影下的浩瀚星空。

自Sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。

短短两周时间后,该团队再次发布最新进展,复现类Sora方案,并将技术方案及详细上手教程在GitHub上免费开源。

那么问题来了,复现Sora如何实现?

Open-Sora 开源地址:https://github.com/hpcaitech/Open-Sora

全面解读Sora复现方案

Sora复现方案包括四个方面:

  • 模型架构设计
  • 训练复现方案
  • 数据预处理
  • 高效训练优化策略

模型架构设计

模型采用了Sora同源架构Diffusion Transformer (DiT) 。

它以采用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到视频数据上。

具体来看,整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。

其中,STDiT 每层的结构如下图所示。

它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。

与全注意力机制相比,这样的结构大大降低了训练和推理开销

与同样使用空间-时间注意力机制的 Latte模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。

STDiT结构示意图

整个模型的训练和推理流程如下。

据了解,在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。

在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。

模型训练流程

训练复现方案

在训练复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。

一共分为3个阶段:

  1. 大规模图像预训练;
  2. 大规模视频预训练;
  3. 高质量视频数据微调。

每个阶段都会基于前一个阶段的权重继续训练。

相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。

训练方案三阶段

第一阶段是大规模图像预训练

团队利用互联网上丰富的图像数据和文生图技术,先训练出一个高质量的文生图模型,将该模型作为下一阶段视频预训练的初始化权重。

同时,由于目前没有高质量的时空VAE,他们采用Stable Diffusion预训练好的图像VAE。

这样不仅能保障初始模型的优越性能,还能显著降低视频预训练的整体成本。

第二阶段是大规模视频预训练

这一阶段主要增加模型的泛化能力,有效掌握视频的时间序列关联。

它需要使用大量视频数据训练,并且保障视频素材的多样性。

同时,第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。

Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。

Open-Sora生成效果(提示词:水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋)

第三阶段是高质量视频数据微调

据介绍,这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级,但是视频的时长、分辨率和质量都更高。

通过这种方式进行微调,能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。

值得一提的是,Colossal-AI还详细透露了每阶段的资源使用情况。

在Open-Sora的复现流程中,他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。

数据预处理

为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练。

包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。

他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4V

最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码,可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。

高效训练加持

除此之外,Colossal-AI团队还提供了训练加速方案。

通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果

同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。

而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。

和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。

最后,团队还放出了更多Open-Sora的生成效果。

团队和量子位透露,他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性。

实际应用方面,团队透露将推进在电影、游戏、广告等领域落地。

感兴趣的开发者们,可访问GitHub项目了解更多~

Open-Sora 开源地址:https://github.com/hpcaitech/Open-Sora

参考链接: [1]https://arxiv.org/abs/2212.09748 Scalable Diffusion Models with Transformers [2]https://arxiv.org/abs/2310.00426 PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis [3]https://arxiv.org/abs/2311.15127 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets [4]https://arxiv.org/abs/2401.03048 Latte: Latent Diffusion Transformer for Video Generation [5]https://huggingface.co/stabilityai/sd-vae-ft-mse-original [6]https://github.com/google-research/text-to-text-transfer-transformer [7]https://github.com/haotian-liu/LLaVA [8]https://hpc-ai.com/blog/open-sora-v1.0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
没等来OpenAI,等来了Open-Sora全面开源
不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型 「Open-Sora 1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球 AI 热爱者共同推进视频创作的新纪元。
机器之心
2024/03/18
2080
没等来OpenAI,等来了Open-Sora全面开源
详解Latte:去年底上线的全球首个开源文生视频DiT
随着 Sora 的成功发布,视频 DiT 模型得到了大量的关注和讨论。设计稳定的超大规模神经网络一直是视觉生成领域的研究重点。DiT [1] 的成功为图像生成的规模化提供了可能性。
机器之心
2024/04/12
4740
详解Latte:去年底上线的全球首个开源文生视频DiT
7.4K Star文生视频Sora开源了?
开源日记
2024/03/25
3040
7.4K Star文生视频Sora开源了?
开源的 Sora 复现方案,成本降低近一半!
近日,开发 ChatGPT 的 OpenAI 公司又放出王炸 Sora,一个可以根据文本生成视频的 AI 模型。
HelloGitHub
2024/03/07
4050
开源的 Sora 复现方案,成本降低近一半!
Open-Sora 开源版Sora复现方案
在人工智能盛起的当下,AI正以非常迅猛的速度重塑着很多行业。可以预见的是2024将是AI原生应用开发元年,将会涌现出数不清的AI原生应用来重塑我们的工作和生活的方方面面。而在AI原生应用里面将会以AI Agent即AI智能体为主要代表,将会有很多个像crewAI—用于编排角色扮演的AI agent(超级智能体)一样的Agent出现在我们的面前。在可以预见的未来,世界大模型Sora—聊聊火出圈的世界AI大模型——Sora毫无疑问将会带来革命性的AI热潮。
山行AI
2024/03/18
3100
Open-Sora 开源版Sora复现方案
基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了
众所周知,开发顶级的文生图(T2I)模型需要大量资源,因此资源有限的个人研究者基本都不可能承担得起,这也成为了 AIGC(人工智能内容生成)社区创新的一大阻碍。同时随着时间的推移,AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。
机器之心
2024/03/18
2570
基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了
全球首个开源类Sora猛升级,16秒720p画质电影感拉满!代码权重全开源
就在刚刚,潞晨Open-Sora团队在720p高清文生视频质量和生成时长上实现了突破性进展!
新智元
2024/06/27
1600
全球首个开源类Sora猛升级,16秒720p画质电影感拉满!代码权重全开源
OpenAI 未至,Open-Sora 再度升级!支持生成 16 秒 720p 视频
Open-Sora 在开源社区悄悄更新了!现在单镜头支持长达 16 秒的视频生成,分辨率最高可达 720p,并且可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。我们来试试效果。
HelloGitHub
2024/04/25
2060
OpenAI 未至,Open-Sora 再度升级!支持生成 16 秒 720p 视频
AI视频生成平台全球前3,成本暴降50%方案开源!500元GPU算力免费薅
近期免费上线的视频生成平台Video Ocean,支持任意角色、任意风格,可以文生视频、图生视频、角色生视频,引起广泛关注与肯定,登上Product Hunt全球产品热度榜单第三。
新智元
2025/02/15
1590
AI视频生成平台全球前3,成本暴降50%方案开源!500元GPU算力免费薅
Sora = Diffusion + Transformer,爆火的背后是如何节约计算成本!
Sora,说是 2024 年以来最备受瞩目的生成式模型,一点不为过,它的生成视频的能力、效果,令人咋舌。
掘金安东尼
2024/02/27
1.8K0
Sora = Diffusion + Transformer,爆火的背后是如何节约计算成本!
20万美元商业级视频生成大模型Open-Sora 2.0来了,权重、推理代码及训练流程全开源!
今天,视频生成领域迎来开源革命!Open-Sora 2.0—— 全新开源的 SOTA(State-of-the-Art)视频生成模型正式发布,仅用 20 万美元(224 张 GPU)成功训练出商业级 11B 参数视频生成大模型,性能直追 HunyuanVideo 和 30B 参数的 Step-Video。权威评测 VBench 及用户偏好测试均证实其卓越表现,在多项关键指标上媲美动辄数百万美元训练成本的闭源模型。此次发布全面开源模型权重、推理代码及分布式训练全流程,让高质量视频生成真正触手可及,进一步提升视频生成的可及性与可拓展性。
机器之心
2025/03/13
980
20万美元商业级视频生成大模型Open-Sora 2.0来了,权重、推理代码及训练流程全开源!
万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本
导语 OpenAI 越来越不“Open”了,尽管发布多个轰动世界的闭源大模型——从 ChatGPT 到 Sora——伴随的技术报告却并不“技术”,更像一种营销。这次 Sora 的技术博客明确表示不分享技术实现细节,只提供模型设计理念及其“炫酷”的效果展示。 而尚在内测阶段的 Sora ,其轰动效应仅次于一年多前 ChatGPT 的“核爆”。从结果来看,Sora 均能在维持高分辨率输出的同时,在视频生成长度以及一致性层面,实现对于现有视频生成模型的碾压式超越。 在国人感叹于 Sora 的惊赞效果、顿悟这一人类与 AI 文明交汇时刻的同时,一面是哀鸿遍野于我们与 OpenAI 的进一步宏大差距,一面是各路神仙从各种角度予以技术分析、点评或拆解。 今日此时,中国的 AI 再一次站在了十字路口。作为技术人我们好奇 Sora 的实现细节究竟如何?作为中国的创业者,我们同样追问 Sora 能否复刻?中国复刻 Sora 要跨过哪些门槛?能否共趟一条中国 AI 强而有为的逆袭之路? 本文旨在提供对 Sora 技术路线的有理有据的“猜想”,其主要依据是出门问问训练跨模态大语言模型「序列猴子」获得的实战经验以及对相关文献的梳理。 错漏之处,文责自负,欢迎业界同仁批评指正,以期吾辈共勉。
深度学习与Python
2024/03/07
1.2K0
万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本
还得是开源!潞晨Open-Sora技术路线公开,一键生成16秒720p视频,质量更高训练成本更低
从3月发布以来,潞晨Open-Sora一直热度不减,GitHub上揽星已经17.5K。
量子位
2024/06/19
3010
还得是开源!潞晨Open-Sora技术路线公开,一键生成16秒720p视频,质量更高训练成本更低
线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署
王家豪,香港大学计算机系二年级博士,导师为罗平教授,研究方向为神经网络轻量化。硕士毕业于清华大学自动化系,已在 NeurIPS、CVPR 等顶级会议上发表了数篇论文。
机器之心
2025/02/03
1090
线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署
清华 & 卡梅隆 & 上交大 打破计算瓶颈,DiTFastAttn 方法优化扩散 Transformer 的图像与视频生成 !
扩散 Transformer (DiT)最近在图像生成和视频生成中越来越受欢迎。然而,DiT的一个主要挑战是它们的计算需求量很大,特别是在生成高分辨率内容时特别明显。一方面,传统的 Transformer 架构,由于其自注意力机制,对输入标记长度L具有的复杂度。这种二次复杂度随着图像和视频分辨率的提高导致计算成本显著增加。如图1所示,随着图像分辨率的增加,注意力计算在推理过程中成为主要的计算瓶颈。具体来说,如果一个的图像被标记为16k个标记(Chen等人,2024),即使在像Nvidia A100这样的高端GPU上,注意力计算也需要几秒钟。另一方面,由于多个去噪步骤和分类器自由引导(CFG)技术,扩散推理过程需要大量的神经网络推理。
AIGC 先锋科技
2024/07/08
5070
清华 & 卡梅隆 & 上交大 打破计算瓶颈,DiTFastAttn 方法优化扩散 Transformer 的图像与视频生成 !
Sora:技术细节推测与原理解读,行业影响与成功关键
每逢年节,都是普罗大众从繁重的工作中抽离出来,回归生活与家庭的欢聚时光。然而今年的大年初六,OpenAI 发布的“文生视频”工具 Sora,却以又一次的 AI 技术变革姿态席卷了大街小巷,成为每个饭局讨论的焦点。GPT-4 发布的震撼犹在眼前,又一次的行业冲击接踵而至。 被替代的危机论再次甚嚣尘上,未来真的没机会了吗?我们又该如何在变局中抓住机遇?或许,可以先从积极主动地了解危机本身,拥抱学习开始吧!
腾讯云开发者
2024/02/21
1.8K0
Sora:技术细节推测与原理解读,行业影响与成功关键
深入理解Sora技术原理
OpenAI 发布的视频生成模型 Sora(https://openai.com/sora),能根据文本生成长达一分钟的高质量视频,理论上支持任意分辨率,如 1920x1080 、1080x1920 ,生成能力远超此前只能生成 25 帧 576x1024 图像的顶尖视频生成模型 Stable Video Diffusion。
得物技术
2024/03/20
4900
深入理解Sora技术原理
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
过去几年来,扩散模型强大的图像合成能力已经得到充分证明。研究社区现在正在攻克一个更困难的任务:视频生成。近日,OpenAI 安全系统(Safety Systems)负责人 Lilian Weng 写了一篇关于视频生成的扩散模型的博客。
机器之心
2024/04/26
2080
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
Sora虽爆火但闭源,给学术界带来了不小的挑战。学者们只能尝试使用逆向工程来对Sora复现或扩展。
新智元
2024/03/25
1590
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
全面对标Sora!中国首个Sora级视频大模型Vidu亮相
2024年4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu[1]。本文将对标Sora大模型、国产“类Sora”大模型等,详细介绍新兴国产大模型Vidu的背景、成果、架构等相关知识。
存内计算开发者
2024/05/14
6300
全面对标Sora!中国首个Sora级视频大模型Vidu亮相
推荐阅读
没等来OpenAI,等来了Open-Sora全面开源
2080
详解Latte:去年底上线的全球首个开源文生视频DiT
4740
7.4K Star文生视频Sora开源了?
3040
开源的 Sora 复现方案,成本降低近一半!
4050
Open-Sora 开源版Sora复现方案
3100
基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了
2570
全球首个开源类Sora猛升级,16秒720p画质电影感拉满!代码权重全开源
1600
OpenAI 未至,Open-Sora 再度升级!支持生成 16 秒 720p 视频
2060
AI视频生成平台全球前3,成本暴降50%方案开源!500元GPU算力免费薅
1590
Sora = Diffusion + Transformer,爆火的背后是如何节约计算成本!
1.8K0
20万美元商业级视频生成大模型Open-Sora 2.0来了,权重、推理代码及训练流程全开源!
980
万字长文解构中国如何复刻 Sora:模型架构、参数规模、数据规模、训练成本
1.2K0
还得是开源!潞晨Open-Sora技术路线公开,一键生成16秒720p视频,质量更高训练成本更低
3010
线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署
1090
清华 & 卡梅隆 & 上交大 打破计算瓶颈,DiTFastAttn 方法优化扩散 Transformer 的图像与视频生成 !
5070
Sora:技术细节推测与原理解读,行业影响与成功关键
1.8K0
深入理解Sora技术原理
4900
Sora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型
2080
Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂
1590
全面对标Sora!中国首个Sora级视频大模型Vidu亮相
6300
相关推荐
没等来OpenAI,等来了Open-Sora全面开源
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档