首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Stable Video 3D震撼上线,视频扩散模型史诗级提升!4090可跑,权重已开放

在近期的科技发展中,视频扩散模型领域迎来了一次重大突破!Stability AI公司推出了名为Stable Video 3D的创新模型,这一模型不仅在技术上实现了史诗级的提升,而且已经对外开放了模型权重,为广大开发者和研究者提供了便利。这一进展标志着3D视频生成技术迈入了一个新时代,其影响力和应用前景不容小觑。

Stable Video 3D模型是基于Stability AI之前推出的Stable Video Diffusion架构进一步发展的。这一新模型显著提高了3D生成的质量和多视角一致性,相较于之前的Stable Zero123以及丰田研究院和哥伦比亚大学联合开源的Zero123-XL,Stable Video 3D展现出了更为优异的性能。据报道,Stable Video 3D生成的图像细节更强,更忠实于条件图像,且在多视角上展现出更高的一致性。

Stable Video 3D模型的推出,不仅在技术上实现了重大进步,还在商业模式上展现了灵活性。该模型既支持商业用途,需要加入Stability AI会员,也支持非商业用途,用户可以在Hugging Face平台上下载模型权重。这一开放策略无疑将加速Stable Video 3D技术的普及和应用。

Stable Video 3D模型提供了两个变体,分别是SV3D_u和SV3D_p。SV3D_u基于单个图像输入生成轨道视频,不需要进行相机调整;而SV3D_p则通过适配单个图像和轨道视角,扩展了生成能力,允许沿着指定的相机路径创建3D视频。这种灵活性使得Stable Video 3D能够满足不同场景下的3D视频生成需求。

在技术架构上,Stable Video 3D基于Stable Video Diffusion架构构建,包含一个具有多个层的UNet,每一层都包含一个带有Conv3D层的残差块序列,以及两个带有注意力层(空间和时间)的transformer块。这种架构设计使得Stable Video 3D在处理3D视频生成任务时,能够更好地捕捉和再现细节,同时保持视角的一致性。

Stability AI在实验中使用了GSO和OmniObject3D数据集来评估Stable Video 3D模型的合成多视图效果。结果显示,无论是在静态轨道还是动态轨道上,Stable Video 3D都实现了SOTA(State of the Art)效果。特别是在动态轨道上,姿势调整模型SV3D_p在所有指标上都取得了最佳表现。这一成果不仅证明了Stable Video 3D在技术上的先进性,也为其在实际应用中的潜力提供了有力证据。

此外,Stable Video 3D模型在硬件兼容性方面也表现出色。据报道,该模型能够在NVIDIA的RTX 4090显卡上运行,这意味着即使是个人用户也能够在自己的设备上体验到高质量的3D视频生成。这一硬件兼容性的优化,进一步降低了3D视频生成技术的门槛,使得更多用户能够接触并利用这一先进技术。

Stable Video 3D的上线不仅是视频扩散模型领域的一次重大进步,也是3D技术应用的一次里程碑。其开放的模型权重、灵活的商业模式、强大的技术性能以及良好的硬件兼容性,共同预示着3D视频生成技术将在未来得到更广泛的应用和发展。随着技术的不断成熟和应用的不断拓展,我们有理由相信,Stable Video 3D将在多个领域发挥重要作用,为人们带来更加丰富和真实的视觉体验。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O7GvOVekTGW9Mzn7m4HIuRog0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券