Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI视频生成平台全球前3,成本暴降50%方案开源!500元GPU算力免费薅

AI视频生成平台全球前3,成本暴降50%方案开源!500元GPU算力免费薅

作者头像
新智元
发布于 2025-02-15 07:08:24
发布于 2025-02-15 07:08:24
32900
代码可运行
举报
文章被收录于专栏:新智元新智元
运行总次数:0
代码可运行

新智元报道

编辑:编辑部 HYZ

【新智元导读】随着Sora震撼发布,视频生成技术成为了AI领域新风口。不过,高昂的开发成本是一大瓶颈。国产平台Video Ocean不仅成功登上全球热榜第三,还将视频生成模型开发成本降低50%。而且,模型构建和性能优化方案现已开源,还能免费获得500元GPU算力。

近期免费上线的视频生成平台Video Ocean,支持任意角色、任意风格,可以文生视频、图生视频、角色生视频,引起广泛关注与肯定,登上Product Hunt全球产品热度榜单第三。

体验地址:https://video.luchentech.com/zh-CN

Video Ocean如何以极低成本快速完成迭代?开源解决现已方案发布。

二次开发分享至开源社区,还可领取500元GPU算力代金券。

开源地址:https://github.com/hpcaitech/Open-Sora

Colossal-AI

在Video Ocean背后,离不开AI大模型训练推理系统Colossal-AI的基础支持,其在GitHub全球AI训推系统开源领域指标位列世界第一,已获近4万Stars。

开源地址:https://github.com/hpcaitech/ColossalAI

它基于PyTorch,可通过高效多维并行、异构内存等,降低AI大模型训练/微调/推理的开发与应用成本,已与多家世界/中国500强企业联合开发和优化AI大模型。

针对类Sora视频大模型开发,Colossal-AI做了多方面的优化,模型算力利用率MFU相对现有其他开源方案总体最高提升可达2.61倍,显著降低成本。

异步Checkpoint

在使用大规模集群训练时,因集群规模扩大,故障率会迅速上升,导致训练极易中断。在这种情况下快速保存Checkpoint不仅可以加速整体训练效率,也有利于故障容错,快速恢复训练。

为此,Colossal-AI推出了异步Checkpoint功能。针对10B量级的视频生成模型,可将DiT模型、EMA模型、优化器的保存时间从300s+,降至10s以内,节省了高达97%的保存时间。

Checkpoint保存主要分为GPU->CPU(D2H)和硬盘写两个步骤,通过将这两个步骤通过流水线的形式执行,极大的提高了保存的效率。同时此步骤通过多线程(C++)的形式在后台完成,不会阻塞训练主进程。GPU->CPU通过单独的CUDA Stream完成,也不会阻塞主计算Stream。

流水线保存Checkpoint

除此之外,通过使用safetensors格式,因其安全、零拷贝的特性,也提升了读取的性能。

Zero内存/通信优化

常见的ZeRO通信方式

优化后的ZeRO通信方式

Colossal-AI在常见的ZeRO通信方式基础上,通过进一步将参数的All-gather和下一轮训练的前向计算重叠,以达到更高的训练效率。

使用bucket来进行Zero-DP的通信是常见的优化手段,但是在使用bucket的过程中存在大量的内存拷贝操作。当集群规模扩大时,内存拷贝操作的开销会逐渐增大。为解决这个问题,通过将内存拷贝操作进行融合,降低了内存拷贝的开销。

同时,随着集群规模扩大,通信算子All-Gather和Reduce-Scatter的速度衰减非常严重。在bucket size较小时,降速更加明显(例如Torch DDP默认的25MB)。

Colossal-AI从两个方面来解决这个问题。

首先可以通过增大bucket size来减缓通信降速,但是bucket size不能无限增大,过大的bucket size会影响计算和通信的重叠。通过以下公式粗略搜索得到较优的bucket size,再实际测试进行精调。

其中,φ_B为bucket size,φ为模型大小,T_bwd为反向计算时间,T_comm为bucket单次通信时间。

其次,当集群规模很大时,Colossal-AI引入2d torus方式的通信能够减缓通信降速问题。

2d torus通信

经过联合优化后,在视频模型训练的场景下,集群规模很大时也能保证scaling > 95%,在大规模多机训练中能达到~30%的加速。

数据加载优化

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
loader = DataLoader(dataset, batch_size=2, collate_fn=collate_wrapper,
                    pin_memory=True)

PyTorch dataloader提供了自动Pin memory的功能,能大幅度提高把数据从CPU移动到GPU的时间,是非常实用的一项功能。其通过Python多线程来实现自动Pin memory。

但是由于GIL的存在,Python的多线程并非传统意义上的多线程。同时Pin memory操作调用的cudaMallocHost 可能会阻塞主进程(影响主CUDA Stream)。当使用高清/长视频进行训练时,pin memory需要申请的内存较大,这个问题会更加明显。

具体表现为,开启Pin memory之后,某个进程的某一部分操作可能比别的进程更慢,从而造成一定的不同步性,而不同步性在大规模集群训练时对整体训练效率影响较大。

为解决这个问题,Colossal-AI将dataloader进行了改造,通过预分配和缓存pin memory的机制,尽量避免在训练过程中调用cudaMallocHost。如果设置合理,缓存命中率可以达到100%,即不会影响训练速度,并且不会消耗过多的RAM cache。

FP8混合精度训练

Colossal-AI支持主流的BF16(O2) + FP8(O1)的新一代混合精度训练方案。

仅需一行代码,即可对主流大模型能够获得平均30%的加速效果,并保证训练收敛性,降低相应大模型开发成本。

使用时,仅需在初始化plugin时开启FP8即可:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from colossalai.booster.plugin import GeminiPlugin, HybridParallelPlugin, LowLevelZeroPlugin
...
plugin = LowLevelZeroPlugin(..., use_fp8=True)
plugin = GeminiPlugin(..., use_fp8=True)
plugin = HybridParallelPlugin(..., use_fp8=True)

除此之外,无需引入额外的手写CUDA算子,避免了较长的AOT编译时间及复杂的编译环境配置。

序列并行优化

Colossal-AI针对VideoOcean模型支持了多种序列并行范式,包括Tensor sequence parallelism,Ring attention (context parallelism)和Sequence parallelism(Ulysses),这几种范式可以单独使用也可以联合使用。

同时根据视频数据的特征(激活值特别大),进一步优化了Ring attention的通信,使用ND-ring来应对复杂的硬件配置。

当视频模型scale到数百亿参数量级,并且使用高清、较长的视频训练时,大规模多机训练和混合并行训练几乎是标配。

在这种情况下,Colossal-AI对序列并行的优化可以应对各种情形,尤其是大视频导致序列需要跨机的情况加速效果显著。

卷积层张量并行优化

Colossal-AI对适用于高清视频、长视频的VAE进行了针对性优化。

对这类数据,CUDNN的3D卷积会产生非常大的激活值,为此Colossal-AI实现了分块卷积和张量并行。

与Transformer中的张量并行不同,Colossal-AI对VAE用了一种新的张量并行方式以适配其巨大的激活值,最终在完全不损失精度的情况下完成了加速和内存优化。

领取GPU算力代金券

为回馈广大开发者的关注与肯定,基于Colossal-AI或OpenSora

  1. 构建有实际意义的高质量项目, 如微调、预训练模型、应用、算法论文等开源项目 奖励:领取潞晨云500元或hpc-ai.com的H200 GPU 100美元算力代金券。
  2. 发布相关开源项目 奖励:领取潞晨云50元或hpc-ai.com的H200 GPU 10美元算力代金券。

领取详情,请点击阅读原文或下方链接。

  • 领取详情:https://colossalai.org/zh-Hans/docs/get_started/bonus
  • 开源地址:https://github.com/hpcaitech/Open-Sora
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI画画模型成本被打下来了!预训练成本直降85%,微调只需单张RTX 2070,这个国产开源项目又上新了
开源地址:https://github.com/hpcaitech/ColossalAI
量子位
2022/12/08
1.4K0
AI画画模型成本被打下来了!预训练成本直降85%,微调只需单张RTX 2070,这个国产开源项目又上新了
Diffusion预训练成本降低6.5倍,微调硬件成本降低7倍!Colossal-AI完整开源方案低成本加速AIGC产业落地
如何更好、更快和更便宜地实现训练、微调 AIGC 模型,已成为 AIGC 商业化和应用爆发的最大痛点。
机器之心
2022/12/15
2.4K0
Diffusion预训练成本降低6.5倍,微调硬件成本降低7倍!Colossal-AI完整开源方案低成本加速AIGC产业落地
国产黑马砸来百万算力福利,Llama 3微调快去冲!H800点击就送,1.99元玩转4090
Meta官方统计显示,模型下载量已突破120万次,在最大开源平台HF上已经有600+微调的Llama 3变体。
新智元
2024/05/06
4380
国产黑马砸来百万算力福利,Llama 3微调快去冲!H800点击就送,1.99元玩转4090
开源的 Sora 复现方案,成本降低近一半!
近日,开发 ChatGPT 的 OpenAI 公司又放出王炸 Sora,一个可以根据文本生成视频的 AI 模型。
HelloGitHub
2024/03/07
4510
开源的 Sora 复现方案,成本降低近一半!
过去一年,斩获 7000 个 GitHub Star,这个开源项目我爱了!
最近,AI 大模型连续火爆出圈,人工智能生成模型(AIGC)的热度尚未褪去,聊天机器人 ChatGPT 便引发全网热议,两周吸引百万用户。还有卷趴一半程序员的 AlphaCode,生成全新蛋白质的 ESM2 等,不断探索 AI 大模型落地的新领域。
GitHubDaily
2023/01/09
1.9K0
过去一年,斩获 7000 个 GitHub Star,这个开源项目我爱了!
全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重
自Sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。
量子位
2024/03/20
2950
全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重
700亿参数Llama 2训练加速195%!训练/微调/推理全流程方案开源,0代码一站解决
ChatGPT引发的大模型热潮愈演愈烈,全球科技巨头和明星初创争相入局,打造以AI大模型为核心的竞争力和多样化商业使用需求。
新智元
2023/09/09
9260
700亿参数Llama 2训练加速195%!训练/微调/推理全流程方案开源,0代码一站解决
Open-Sora 开源版Sora复现方案
在人工智能盛起的当下,AI正以非常迅猛的速度重塑着很多行业。可以预见的是2024将是AI原生应用开发元年,将会涌现出数不清的AI原生应用来重塑我们的工作和生活的方方面面。而在AI原生应用里面将会以AI Agent即AI智能体为主要代表,将会有很多个像crewAI—用于编排角色扮演的AI agent(超级智能体)一样的Agent出现在我们的面前。在可以预见的未来,世界大模型Sora—聊聊火出圈的世界AI大模型——Sora毫无疑问将会带来革命性的AI热潮。
山行AI
2024/03/18
3540
Open-Sora 开源版Sora复现方案
开箱即用,完整版 ChatGPT 克隆方案,开源了!
在过去的短短几个月,以 ChatGPT、GPT4 为代表的 AI 应用和大模型火爆全球,被视为开启了新的科技工业革命和 AGI (通用人工智能)的新起点。
GitHubDaily
2023/04/27
4930
开箱即用,完整版 ChatGPT 克隆方案,开源了!
霸榜GitHub热门第一多日后,Colossal-AI正式版发布
大规模并行AI训练系统Colossal-AI,旨在作为深度学习框架的内核,帮助用户便捷实现最大化提升AI部署效率,同时最小化部署成本。 开源地址:https://github.com/hpcaitech/ColossalAI Colossal-AI一经开源便受到广泛关注,连续多日登顶GitHub热榜Python方向世界第一,与众多已有数万star的明星开源项目一起受到海内外关注! 经过开发者们的不断努力,Colossal-AI在数月的密集测试后迎来正式版!此版本由300多次commits组成。 本次正
量子位
2022/04/08
8340
霸榜GitHub热门第一多日后,Colossal-AI正式版发布
想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速
作为 2024 开年王炸,Sora 的出现树立了一个全新的追赶目标,每个文生视频的研究者都想在最短的时间内复现 Sora 的效果。
机器之心
2024/03/01
3570
想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速
700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级
ChatGPT 引发的大模型热潮愈演愈烈,全球科技巨头和明星初创争相入局,打造以 AI 大模型为核心的竞争力和多样化商业使用需求。其中 LLaMA 系列模型,因良好的基础能力和开放生态,已积累了海量的用户和实际应用案例,成为无数开源模型后来者的模仿和竞争的标杆对象。
机器之心
2023/09/08
6170
700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级
没等来OpenAI,等来了Open-Sora全面开源
不久前 OpenAI Sora 以其惊人的视频生成效果迅速走红,在一众文生视频模型中突出重围,成为全球瞩目的焦点。继 2 周前推出成本直降 46% 的 Sora 训练推理复现流程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模型 「Open-Sora 1.0」,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,携手全球 AI 热爱者共同推进视频创作的新纪元。
机器之心
2024/03/18
2290
没等来OpenAI,等来了Open-Sora全面开源
ChatGPT低成本复现流程开源!任意单张消费级显卡可体验,显存需求低至1.62GB
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 首个开源的ChatGPT低成本复现流程来了! 预训练、奖励模型训练、强化学习训练,一次性打通。 最小demo训练流程仅需1.62GB显存,随便一张消费级显卡都能满足了。单卡模型容量最多提升10.3倍。 相比原生PyTorch,单机训练速度最高可提升7.73倍,单卡推理速度提升1.42倍,仅需一行代码即可调用。 对于微调任务,可最多提升单卡的微调模型容量3.7倍,同时保持高速运行,同样仅需一行代码。 要知道,ChatGPT火是真的火,复现也是真的难。 毕
量子位
2023/02/23
1.1K0
ChatGPT低成本复现流程开源!任意单张消费级显卡可体验,显存需求低至1.62GB
开源方案复现ChatGPT流程!1.62GB显存即可体验,单机训练提速7.73倍
机器之心发布 机器之心编辑部 火爆全网的 ChatGPT,仿佛开启了第四次工业革命,让微软、谷歌等全球科技巨头打得昏天黑地,引得各路玩家纷纷入局,抢占赛道。 然而由于 OpenAI 没有开源 ChatGPT,如何有效复现 ChatGPT 已成为摆在大家面前的头号难题,急需可靠的开源共建方案。 Colossal-AI 快速跟进,首个开源低成本复现 ChatGPT 完整流程。作为当下最火热的开源 AI 大模型解决方案,Colossal-AI 已收获开源社区 GitHub Star 近万颗,此次开源亮点包括: 开
机器之心
2023/02/23
9820
开源方案复现ChatGPT流程!1.62GB显存即可体验,单机训练提速7.73倍
无缝支持Hugging Face社区,Colossal-AI低成本轻松加速大模型
机器之心报道 作者:机器之心编辑部 大模型已成为 AI 圈的一种潮流,不仅横扫各大性能榜单,更产生了诸多有趣应用。 例如,微软和 OpenAI 开发的自动代码建议补全神器 Copilot,化身程序员最佳助手,提升工作效率。 OpenAI 刚刚发布能以假乱真的文本生成图像模型 DALL-E 2,Google 便紧接着发布了 Imagen,在大模型上,大公司也是相当的卷,丝毫不比 CV 刷榜差。 文本到图像生成样例“一个被猫绊倒的希腊人雕像”(左侧两列为 Imagen,右侧两列为 DALL·E 2) 模型增
机器之心
2022/07/18
1.6K0
无缝支持Hugging Face社区,Colossal-AI低成本轻松加速大模型
这个开源神器,让你更懂你的 GPU!
深度推荐模型(DLRMs)已经成为深度学习在互联网公司应用的最重要技术场景,如各平台的视频推荐、购物搜索、广告推送等流量变现业务,极大改善了用户体验和业务商业价值。但海量的用户和业务数据,频繁地迭代更新需求,以及高昂的训练成本,都对 DLRM 训练提出了严峻挑战。
GitHubDaily
2022/11/01
1.1K0
这个开源神器,让你更懂你的 GPU!
低成本复制 ChatGPT 的方法,现已开源!
当昨日我们还在讨论从大厂以及个人创业的角度来看,复制一家 OpenAI 和一款强大的 ChatGPT 可行性究竟有几成之际,苦于 OpenAI 并未将 ChatGPT 开源出来,所以这趟水究竟有多深,众人并不知。
程序员晚枫
2023/02/27
1.1K0
低成本复制 ChatGPT 的方法,现已开源!
0门槛克隆ChatGPT方案再升级,开源模型完整复现,在线体验无需注册
机器之心发布 机器之心编辑部 以 ChatGPT、GPT4 为代表的 AI 应用和大模型火爆全球,被视为开启了新的科技工业革命和 AGI (通用人工智能)的新起点。不仅科技巨头间你追我赶,争相推出新品,许多学术界、工业界的 AI 大佬也纷纷投入投身相关创业浪潮。生成式 AI 正以 “天” 为单位,快速迭代,持续狂飙! 然而,OpenAI 并未将其开源,它们背后的技术细节有哪些?如何快速跟进、追赶并参与到此轮技术浪潮中?如何降低 AI 大模型构建和应用的高昂成本?如何保护核心数据与知识产权不会因使用第三方大模
机器之心
2023/04/06
7110
0门槛克隆ChatGPT方案再升级,开源模型完整复现,在线体验无需注册
开源版 Sora:AI 视频生成的高性能实现 | 开源日报 No.291
Open-Sora 是一个开源项目,提供了类似于 OpenAI 的 Sora 的视频生成模型的高性能实现。该项目的主要功能和核心优势包括:
小柒
2024/07/10
2600
开源版 Sora:AI 视频生成的高性能实现 | 开源日报 No.291
推荐阅读
AI画画模型成本被打下来了!预训练成本直降85%,微调只需单张RTX 2070,这个国产开源项目又上新了
1.4K0
Diffusion预训练成本降低6.5倍,微调硬件成本降低7倍!Colossal-AI完整开源方案低成本加速AIGC产业落地
2.4K0
国产黑马砸来百万算力福利,Llama 3微调快去冲!H800点击就送,1.99元玩转4090
4380
开源的 Sora 复现方案,成本降低近一半!
4510
过去一年,斩获 7000 个 GitHub Star,这个开源项目我爱了!
1.9K0
全球首个类Sora开源复现方案来了!全面公开所有训练细节和模型权重
2950
700亿参数Llama 2训练加速195%!训练/微调/推理全流程方案开源,0代码一站解决
9260
Open-Sora 开源版Sora复现方案
3540
开箱即用,完整版 ChatGPT 克隆方案,开源了!
4930
霸榜GitHub热门第一多日后,Colossal-AI正式版发布
8340
想训练类Sora模型吗?尤洋团队OpenDiT实现80%加速
3570
700 亿参数 LLaMA2 训练加速 195%,基础大模型最佳实践再升级
6170
没等来OpenAI,等来了Open-Sora全面开源
2290
ChatGPT低成本复现流程开源!任意单张消费级显卡可体验,显存需求低至1.62GB
1.1K0
开源方案复现ChatGPT流程!1.62GB显存即可体验,单机训练提速7.73倍
9820
无缝支持Hugging Face社区,Colossal-AI低成本轻松加速大模型
1.6K0
这个开源神器,让你更懂你的 GPU!
1.1K0
低成本复制 ChatGPT 的方法,现已开源!
1.1K0
0门槛克隆ChatGPT方案再升级,开源模型完整复现,在线体验无需注册
7110
开源版 Sora:AI 视频生成的高性能实现 | 开源日报 No.291
2600
相关推荐
AI画画模型成本被打下来了!预训练成本直降85%,微调只需单张RTX 2070,这个国产开源项目又上新了
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验