前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快

作者头像
量子位
发布于 2023-11-23 06:11:51
发布于 2023-11-23 06:11:51
3150
举报
文章被收录于专栏:量子位量子位
西风 发自 凹非寺 量子位 | 公众号 QbitAI

Stable Diffusion官方终于对视频下手了——

发布生成式视频模型Stable Video Diffusion(SVD)

Stability AI官方博客显示,全新SVD支持文本到视频、图像到视频生成:

并且还支持物体从单一视角到多视角的转化,也就是3D合成

根据外部评估,官方宣称SVD甚至比runway和Pika的视频生成AI更受用户欢迎。

虽然目前只发布了基础模型,但官方透露“正计划继续扩展,建立类似于Stable Diffusion的生态系统”。

目前论文代码权重已上线。

最近视频生成领域不断出现新玩法,这次轮到Stable Diffusion下场,以至于网友们的第一反应就是“快”,进步太快!

但仅从Demo效果来说,更多网友们表示并没有感到很惊喜。

虽然我喜欢SD,而且这些Demo也很棒……但也存在一些缺陷,光影不对、而且整体不连贯(视频帧与帧之间闪烁)。

总归来说这是个开始,网友对SVD的3D合成功能还满是看好:

我敢打赌,很快就会有更好的东西出来,到时候只要描述一下,就会得到一个完整的3D场景。

SD视频官方版来袭

除了上面展示的,官方还发布了更多Demo,先来看一波:

太空漫步也安排上:

背景不动,只让两只鸟动也可以:

SVD的研究论文目前也已发布,据介绍SVD基于Stable Diffusion 2.1,用约6亿个样本的视频数据集预训练了基础模型。

可轻松适应各种下游任务,包括通过对多视图数据集进行微调从单个图像进行多视图合成。

微调后,官方公布的是两种图像到视频模型,可以以每秒3到30帧之间的自定义帧速率生成14(SVD)和25帧(SVD-XT)的视频:

之后又微调了多视角视频生成模型,叫做SVD-MV:

根据测试结果,在GSO数据集上,SVD-MV得分优于多视角生成模型Zero123、Zero123XL、SyncDreamer:

值得一提的是,Stability AI表示SVD目前仅限于研究,不适用于实际或商业应用。SVD目前也不是所有人都可以使用,但已开放用户候补名单注册。

视频生成大爆发

最近视频生成领域呈现出一种“混战”的局面。

前有PikaLabs开发的文生视频AI:

后又有号称“史上最强大的视频生成AIMoonvalley推出:

最近Gen-2的“运动笔刷”功能也正式上线,指哪画哪:

这不现在SVD又出现了,又有要卷3D视频生成的可能。

但文本到3D生成方面好像还没有太多进展,网友对这一现象也很是困惑。

有人认为数据是阻碍发展的瓶颈:

还有网友表示原因在于强化学习还不够强:

家人们对这方面的最新进展有了解吗?欢迎评论区分享~

论文链接:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf

参考链接: [1]https://stability.ai/news/stable-video-diffusion-open-ai-video-model [2]https://news.ycombinator.com/item?id=38368287

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
新火种AI | Stable Video Diffusion来了!普通人拍大片指日可待
随着技术的不断进步,AI领域取得了巨大的突破。特别是在图片生成这个赛道,AI目前能做到的成绩超乎想象。或许就在1年以前,很多人,特别是一些专业从业者对AI绘画的印象还停留在“元素要靠东拼西凑”“废图率太高”“成品无法直接使用”等方面,但如今,高质量AI绘图软件的表现完全可以颠覆你的固有认知。
新火种
2023/11/25
3190
Stable Video 3D震撼上线,视频扩散模型史诗级提升!4090可跑,权重已开放
Stability AI又有新动作了!这次给我们端上来的是全新的3D生成模型Stable Video 3D(SV3D)。
新智元
2024/03/25
2600
Stable Video 3D震撼上线,视频扩散模型史诗级提升!4090可跑,权重已开放
Stable Video Diffusion来了,代码权重已上线
本周二,基于 Stable Diffusion 的视频生成模型 Stable Video Diffusion 来了,AI 社区马上开始了热议。
机器之心
2023/11/22
9710
Stable Video Diffusion来了,代码权重已上线
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
昨日,Stability AI 继推出文生图 Stable Diffusion、文生视频 Stable Video Diffusion 之后,又为社区带来了 3D 视频生成大模型「Stable Video 3D」(简称 SV3D)。
机器之心
2024/03/26
6850
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
在图像生成模型技术的推动下,视频生成模型在研究和应用领域取得了显著进展。这些模型通常通过从头开始训练或对预训练图像模型插入额外的时间层进行微调来实现。训练通常在混合的图像和视频数据集上进行。尽管视频建模的改进研究主要关注空间和时间层的排列方式,但先前的工作没有探究数据选择的影响。然而,训练数据分布对生成模型的影响是不可忽视的。此外,对于生成式图像建模,已经知道在大型和多样化的数据集上进行预训练,然后在小型但质量更高的数据集上进行微调,可以显著提高性能。然而,之前的视频建模方法往往借鉴了来自图像领域的技术,而对于数据和训练策略的影响,即在低分辨率视频上进行预训练再在高质量数据集上微调,还需要进一步研究。
用户1324186
2023/12/11
1.3K0
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势
随着科技的不断进步,生活中所见的一切已经不再局限于现实。在这个数字化时代,无论是图片、视频,还是其他形式的媒体内容,都有可能是通过 AI 算法生成的。精彩的场景、动人的情节,甚至栩栩如生的角色,都可能是由 AI 算法创造出来的。当你观看一段视频时,你是否曾思考过这个问题:这是一个真实的视频,还是由 AI 算法生成的呢?
CV君
2024/03/05
8660
不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势
Stable Video文本生成视频公测地址——Scaling Latent Video Diffusion Models to Large Datasets
​近期,Stability AI发布了首个开放视频模型——"Stable Video",该创新工具能够将文本和图像输入转化为生动的场景,将概念转换成动态影像,生成出电影级别的作品,旨在满足广泛的视频应用需求,包括媒体、娱乐、教育和营销等领域。"Stable Video"提供了两种图像到视频的模型,能够生成14帧和25帧的视频,用户还可以自行设置帧率,范围在3到30帧每秒之间。该模型适用于多种视频应用任务,包括从单一图像进行多视角合成,以及在多视角数据集上进行微调。
中杯可乐多加冰
2024/08/18
3200
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
Stability AI CEO Emad Mostaque最新推文,四段视频引人无数遐想。
量子位
2024/01/23
2090
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
基于Stable Video Diffusion的Stable Video 3D(SV3D),只用一张图片就能生成高质量3D网格。
量子位
2024/03/20
2410
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
与Sora同架构的Stable Diffusion 3.0 震撼发布!4 秒视频生成却翻车,网友:还是等 Sora 吧!
Stability AI 发布了 Stable Diffusion 3,这款图像生成 AI 模型再次刷新了人们的认知。
深度学习与Python
2024/02/29
4430
与Sora同架构的Stable Diffusion 3.0 震撼发布!4 秒视频生成却翻车,网友:还是等 Sora 吧!
Stable Diffusion用来生成视频
之前我曾经多次介绍过,可以一键生成视频的模型。包括能够有效解决视频闪烁的Rerender A Video模型
算法一只狗
2024/10/01
2360
Stable Diffusion用来生成视频
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
几天前,在Computex 2024大会上,Stability AI联合首席执行官Christian Laforte正式官宣:SD 3 Medium将在6月12日公开发布。
新智元
2024/06/17
2190
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
使用 Docker 和 Diffusers 快速上手 Stable Video Diffusion 图生视频大模型
本篇文章聊聊,如何快速上手 Stable Video Diffusion (SVD) 图生视频大模型。
soulteary
2024/01/09
9280
使用 Docker 和 Diffusers 快速上手 Stable Video Diffusion 图生视频大模型
视频版Stable Diffusion:英伟达做到最高1280×2048、最长4.7秒
机器之心报道 编辑:杜伟 在生成式 AI 盛行的今天,英伟达在文本生成视频领域更进了一步,实现了更高分辨率、更长时间。 要说现阶段谁是 AI 领域的「当红辣子鸡」?生成式 AI 舍我其谁。包括 ChatGPT 等对话式 AI 聊天应用、Stable Diffusion 等 AI 绘画神器在内,生成式 AI 展示的效果深深地抓住了人们的眼球。 我们以图像生成模型为例,得益于底层建模技术最近的突破,它们收获了前所未有的关注。如今,最强大的模型构建在生成对抗网络、自回归 transformer 和扩散模型(dif
机器之心
2023/04/21
6070
视频版Stable Diffusion:英伟达做到最高1280×2048、最长4.7秒
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
---- 新智元报道   编辑:LRS 【新智元导读】文本到2维图像、2维视频、3维模型,现在终于发展到3维模型视频了! AI生成模型在过去这段时间里取了巨大的进展,就图像领域来说,用户可以通过输入自然语言提示来生成图像(如DALL-E 2,Stable Diffusion),也可以在时间维度上扩展生成连续的视频(如Phenaki),或者在空间维度上扩展直接生成3D模型(如Dreamfusion)。 但到目前为止,这些任务仍然处于孤立的研究状态,彼此之间不存在技术交集。 最近Meta AI的研究人员结
新智元
2023/02/24
4470
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
Stable Video Diffusion来了,代码权重已上线
论文地址:https://stability.ai/research/stable-video-diffusion-scaling-latent-video-diffusion-models-to-large-datasets
计算机视觉研究院
2023/11/23
3160
Stable Video Diffusion来了,代码权重已上线
视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效
最近,除了大语言模型继续持续刷屏,视频生成技术也取得了重大进展,多家公司相继发布了新模型。
机器之心
2023/11/24
3520
视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效
3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型
3D AI 生成最近发展得如火如荼,不少最新工作都能够从一句话 / 一张图生成高质量的三维模型。然而从去年下半年的 DreamFusion 和 Magic3D 到最新的 ProlificDreamer,绝大多数工作都通过对每个物体进行优化的方式来生成 3D 模型。这种方式使得现有的 3D AI 生成方法都非常耗时,譬如 ProlificDreamer 的作者就曾在知乎上表示方法目前的主要局限之一便是生成时间太慢了!
机器之心
2023/08/07
3.8K0
3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型
视频生成领域的发展概述:从多级扩散到LLM
2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。
deephub
2024/02/21
8410
视频生成领域的发展概述:从多级扩散到LLM
短视频模型Imagen Video:艺术和3D建模大师
看到Imagen这个字眼,那不是前阵子很火的文本图像生成圈的一个模型吗?这不,谷歌在10月份基于这个模型的基础上,发布了能够生成短视频的Imagen Video模型。
算法一只狗
2022/11/04
7030
推荐阅读
新火种AI | Stable Video Diffusion来了!普通人拍大片指日可待
3190
Stable Video 3D震撼上线,视频扩散模型史诗级提升!4090可跑,权重已开放
2600
Stable Video Diffusion来了,代码权重已上线
9710
Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
6850
Stable Video Diffusion: 将潜在视频扩散模型扩展到大型数据集
1.3K0
不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势
8660
Stable Video文本生成视频公测地址——Scaling Latent Video Diffusion Models to Large Datasets
3200
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
2090
Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩
2410
与Sora同架构的Stable Diffusion 3.0 震撼发布!4 秒视频生成却翻车,网友:还是等 Sora 吧!
4430
Stable Diffusion用来生成视频
2360
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
2190
使用 Docker 和 Diffusers 快速上手 Stable Video Diffusion 图生视频大模型
9280
视频版Stable Diffusion:英伟达做到最高1280×2048、最长4.7秒
6070
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?
4470
Stable Video Diffusion来了,代码权重已上线
3160
视频生成新突破:PixelDance,轻松呈现复杂动作与炫酷特效
3520
3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型
3.8K0
视频生成领域的发展概述:从多级扩散到LLM
8410
短视频模型Imagen Video:艺术和3D建模大师
7030
相关推荐
新火种AI | Stable Video Diffusion来了!普通人拍大片指日可待
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档