话不多说,先放开源项目地址:https://github.com/hpcaitech/Open-Sora
中文文档:https://github.com/hpcaitech/Open-Sora/blob/main/docs/README_zh.md
不久前,OpenAI的Sora凭借其令人赞叹的视频生成效果迅速走红,成为众多文字到视频模型中的佼佼者,引起了全球的关注。
紧接着,Colossal-AI团队推出了一项新的开源方案“Open-Sora 1.0”,该方案全面覆盖了训练过程,包括数据处理、所有训练细节以及模型检查点,旨在与全球AI爱好者携手共进,开创视频创作的新纪元。
现在,就让我们先来看一看“Open-Sora 1.0”模型生成的美景视频。
海浪拍打在海滩和悬崖:
漫天繁星流转:
午夜的繁华街头:
在海中遨游的海龟:
Open-Sora技术只是冰山一角。Colossal-AI团队已经全面开源了模型架构、训练模型检查点、所有训练与数据准备过程的细节、视频演示和教程,供所有对文字到视频模型感兴趣的人在GitHub上自由学习和使用。
Open-Sora的复现计划
Open-Sora的复现计划借鉴了Stable Video Diffusion(SVD)工作,分为三个阶段:
1. 大规模图像预训练:第一阶段通过大规模图像预训练,利用成熟的文字到图像模型帮助降低视频预训练的成本。借助互联网上丰富的大规模图像数据和先进的文字到图像技术,能够训练出高质量的文字到图像模型,作为视频预训练下一阶段的初始化权重。同时,由于缺乏高质量的时空VAE,Open-Sora使用Stable Diffusion模型预训练空间VAE。这种策略不仅确保了初始模型的优越性能,也显著降低了视频预训练的总体成本。
2. 大规模视频预训练:第二阶段通过大规模视频预训练,增强模型的泛化能力,有效掌握视频的时间序列关联。这一阶段需要使用大量的视频数据训练,以确保视频主题的多样性,从而提高模型的泛化能力。
3. 高质量视频数据微调训练:第三阶段通过对高质量视频数据的微调,显著提高了生成视频的质量。第三阶段使用的视频数据量比第二阶段少一个数量级,但视频的持续时间、分辨率和质量都更高。通过这种方式的微调,实现了视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。
每个阶段的训练都是在前一阶段的权重基础上继续进行。与从零开始的单阶段训练相比,多阶段训练通过逐步扩大数据规模,更高效地实现了高质量视频生成的目标。
在复现过程中,Colossal-AI团队使用了64个H800 GPU进行训练。第二阶段的训练量共计2808 GPU小时,约等于7000美元;第三阶段的训练量为1920 GPU小时,约等于4500美元,最后成功地将Open-Sora复现过程的成本控制在约10000美元。
数据预处理
为了进一步降低Sora复现的门槛和复杂性,Colossal-AI团队还提供了便捷的视频数据预处理脚本,包括公开视频数据集的下载、基于镜头连续性的长视频分割成短视频片段,以及使用开源大型语言模型LLaVA生成细粒度提示词,使您可以轻松开始Sora复现预训练。
Open-Sora提供的批量视频字幕生成代码可以在3秒内使用两个GPU为一个视频生成字幕,质量接近GPT-4V。最终的视频-文字对可以直接用于训练。
借助开源的代码,用户可以轻松快速地在自己的数据集上生成训练所需的视频-文字对,大大降低了启动Sora复现项目的技术门槛和准备工作。
领取专属 10元无门槛券
私享最新 技术干货