近日,OpenAI 宣布了一项重大技术突破,推出了名为 sCM(连续时间一致性模型)的全新模型。该模型标志着视频、图像、三维模型、音频等领域生成式 AI 的新阶段,具备实时、高质量、跨领域生成的能力,将为生成式 AI 发展注入新的活力。
原文链接:https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/
OpenAI突破了扩散模型的技术瓶颈,研究科学家路橙(Cheng Lu)与战略探索团队负责人宋飏(Yang Song)合作发表最新论文,提出了简化、稳定化和扩展连续时间一致性模型的新方法。这两位研究者均为清华大学校友,曾在朱军教授的指导下,在概率扩散模型领域作出重要贡献。
》》ChatGPT小程序页面展示《《
众所周知,Diffusion Models(扩散模型)近年来在生成式 AI 领域声名鹊起,但其采样速度缓慢的问题却始终难以克服:生成一张图像需要几十步甚至几百步,效率低下让人望而却步。虽然业界也提出了多种加速方案,例如直接蒸馏、对抗蒸馏和渐进式蒸馏等,但这些技术都存在计算成本高、训练复杂、样本质量下降等局限。
论文地址:https://doi.org/10.48550/arXiv.2410.11081
sCM模型是什么?
现在,OpenAI 推出了 sCM 模型,这是一种改进型的一致性模型,它仅需两步采样即可完成生成过程,速度较传统扩散模型提升 50 倍,同时样本质量堪比最领先的扩散模型。这一突破性的改进不仅解决了扩散模型采样速度的瓶颈,还实现了大规模数据集的稳定训练,为生成式 AI 的实际应用提供了新的可能性。
sCM 模型核心技术
sCM 模型的核心是学习一个函数 ,能够将带噪声的图像 映射到下一时间步的清晰版本。相比传统扩散模型需要多步迭代去除噪声,sCM 采用了 PF-ODE(偏微分常微分方程)轨迹,沿着噪声去除的方向逐步前进,仅需两步采样即可生成高质量图像。
通过 TrigFlow 框架,OpenAI 将一致性模型的理论框架进行了简化与优化,整合了扩散过程、PF-ODE、训练目标及参数化的流程,使得训练过程更稳定,能够轻松扩展到大规模数据集。凭借这些技术突破,OpenAI 开发出了 15 亿参数的 sCM 模型,甚至在 ImageNet 512x512 分辨率上进行了训练,这也是目前最大的连续时间一致性模型。
在性能上,sCM 模型展示了强大的能力。在单个 A100 GPU 上,生成一张图像仅需 0.11 秒,且没有进行任何系统优化。如果加以优化,速度可以更快,从而大大提升实时生成能力。评估数据显示,sCM 在 ImageNet 512x512 数据集上的 FID 分数为 1.88,性能与需要 63 步的传统扩散模型相当,但计算量却不到 10%。这种优异表现意味着 sCM 不仅具备生成高质量图像的能力,同时显著降低了计算成本。
技术改进
为解决一致性模型训练不稳定的问题,OpenAI 在 sCM 模型中引入了一系列关键改进:
改进的时间条件策略(Identity Time Transformation):采用 ,避免了 t 趋近 T 时的数值不稳定。
位置时间嵌入(Positional Time Embeddings):用位置嵌入代替傅里叶嵌入,减少了傅里叶嵌入带来的不稳定性。
自适应双归一化(Adaptive Double Normalization):提高训练稳定性,同时保留了表达能力。
自适应权重(Adaptive Weighting):自动调整训练目标权重,减少手动调参。
切线归一化/裁剪(Tangent Normalization/Clipping):控制梯度方差,进一步提升训练稳定性。
渐进式退火:通过逐步调整训练参数,提升大规模模型的可扩展性和训练效果。
这些改进使得 sCM 的训练过程更加稳定,采样速度更快,且样本质量达到或超过传统扩散模型。这对于生成式 AI 的实际应用,特别是在实时生成图像、视频等方面,具有重要的意义。
未来展望:实时高质量生成 AI 的新突破?
OpenAI 表示,这些技术进步将为广泛领域的实时、高质量生成 AI 打开新可能。从实际应用的角度来看,sCM 模型为需要高效生成样本的场景带来了巨大的吸引力。而随着 ChatGPT 两周年临近,Sam Altman 也多次暗示可能会有新的大招推出,或许就是面向实时高质量视频生成的“杀手级”产品——代号为 Sora 的项目?