首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >与Sora同架构的Stable Diffusion 3.0 震撼发布!4 秒视频生成却翻车,网友:还是等 Sora 吧!

与Sora同架构的Stable Diffusion 3.0 震撼发布!4 秒视频生成却翻车,网友:还是等 Sora 吧!

作者头像
深度学习与Python
发布于 2024-02-29 07:19:24
发布于 2024-02-29 07:19:24
4890
举报

编译 | Tina

Stability AI 发布了 Stable Diffusion 3,这款图像生成 AI 模型再次刷新了人们的认知。

这款由 Stability AI 倾力打造的文本变图模型,可是迄今为止最强大的“黑科技”!无论你想生成多主题的奇幻场景,还是高精度的风景写真,统统不在话下!

Stability AI 强调了该版本的几个亮点,其中首要的就是文字渲染能力,他们在其官网上一连给了三幅含有文字的图片,不仅文字清晰而且也没有任何拼写错误。

Stability AI 的首席执行官 Mostaque 也在 X(Twitter)上狂炫带有文字的图片:

Stable Diffusion 3.0 中改进的排版是 Stability AI 在新模型中构建的几个改进的结果。

Stability AI 的首席执行官 Mostaque 说:“这归功于 Transformer 架构和额外的文本编码器。现在可以实现完整的句子和一致的风格。”

另一个亮点是“多主题生成”:用一句话,就能描绘出用户脑中的万千世界!

Stability AI 举了一些例子,让 SD3 根据一句含有多个元素的 Prompt 画一幅画:

“一幅画作,描绘了一位宇航员骑着一头穿着芭蕾舞裙的猪,手里还撑着一把粉色雨伞。在猪旁边,一只戴着高顶礼帽的知更鸟静静伫立。画面一角,写着‘Stable Diffusion’。”

“一张照片,画面中有一个红色的球体放在一个蓝色的立方体上面。它们的后面有一个绿色的三角形,右边有一只狗,左边有一只猫。”

其中一个主题元素变化还能不影响其他元素:

还有一个亮点就是“超高画质”,这简直是细节控的福音,每一张图片都堪称艺术品!例如下面这张变色龙特写照片:

而且生成的漫画和素描,质感也比之前的版本进步了一个台阶:

虽然 Stable Diffusion 3.0 最初被展示为文本转图像生成 AI 技术,但它将成为更广泛应用的基础。Stability AI 近几个月也在开发 3D 图像生成和视频生成功能。

Mostaque 说:“我们制作可以随时随地使用并适应任何需求的开放模型。这是一个跨尺寸的模型系列,将支持我们下一代视觉模型的发展,包括视频、3D 等。”

Mostaque 也在 X(Twitter)给出了一个 SD3D 的视频:

而且,Stable Video 也正式开放公测了,支持图生视频和文生视频。尽管人们都在关注 Sora,但有人估计至少 Sora 还需要三个月才能开始内测。需要强调的是,这是内测,不同于像 Stable Video 这样的公开测试。

从官网放出的例子来看,生成视频在画面稳定性、运动幅度、画面细节丢失上,效果跟 Sora 不相上下。

有网友试玩了 Stable Video 后发出评论:“越来越期待 Sora 了”。该网友表示,“用自己的照片试用了一下 StableVideo,发现只有没有脸的图才能有比较好的生成结果,有脸的都崩了。”其他网友补充称,有脸的图调低 motion 值也可以得到相对正常的结果,但会很卡顿。

架构变革:采用类似 Sora 模型架构

在过去的一年中,Stability AI 一直在稳步迭代和发布多个图像模型,每个模型都显示出越来越高的复杂性和质量。7 月份发布的 SDXL 大幅改进了 Stable Diffusion 基础模型,现在该公司正寻求更进一步的发展。

新的 Stable Diffusion 3.0 模型旨在提供改进的图像质量和更好的性能,以从多主题提示生成图像。它还将提供比以前的 Stable Diffusion 模型更出色的排版,从而在生成的图像中实现更准确和一致的拼写。过去,排版一直是 Stable Diffusion 的一个弱点,包括 DALL-E 3、Ideogram 和 Midjourney 在最近的版本中也一直在努力解决这个问题。Stability AI 正在构建各种模型大小的 Stable Diffusion 3.0,模型可选择的参数范围在 800M 到 8B 。

Stable Diffusion 3.0 不仅仅是 Stability AI 已经发布的模型的新版本,它实际上基于一种全新的架构。

Emad Mostaque 表示,Stable Diffusion 3 是原始 Stable Diffusion 的正统续作。它采用了类似于 OpenAI 近期发布的 Sora 模型的 Diffusion Transformer 新架构,代表了该领域的最新技术突破。

“Diffusion Transformer”技术在 2022 年首次提出,并在 2023 年进行了改进,现在已经实现了可扩展性。此外,Stable Diffusion 3.0 还采用了“流匹配”技术,这也是另一项改进质量且不会增加太多额外负担的新技术。

Stability AI 一直在尝试多种图像生成方法。本月早些时候,该公司发布了 Stable Cascade 的预览版,它使用 Würstchen 架构来提高性能和准确性。Stable Diffusion 3.0 采取了不同的方法,使用了 Diffusion Transformer。

Mostaque 强调说:“Stable Diffusion 以前没有 Transformer。”

Transformer 是许多生成 AI 革命的基础,被广泛用作文本生成模型的基础。图像生成主要在 Diffusion 模型领域。详细介绍 Diffusion Transformer (DiT) 的研究论文解释说,它是一种新的 Diffusion 模型架构,它用操作潜在图像块的 Transformer 取代了常用的 U-Net 主干。DiT 方法可以更有效地利用计算资源,并且可以超越其他形式的 Diffusion 图像生成。

Stable Diffusion 的另一个重大创新是流匹配 (flow matching)。流匹配的研究论文解释了它是一种训练 Continuous Normalizing Flows (CNFs) 以模拟复杂数据分布的新方法。根据研究人员的说法,使用 Conditional Flow Matching (CFM) 和 optimal transport paths(最佳传输路径),与 diffusion paths 相比,可以实现更快的 training、更有效的采样和更好的性能。

参考链接:

https://venturebeat.com/ai/stable-diffusion-3-0-debuts-new-diffusion-transformation-architecture-to-reinvent-text-to-image-gen-ai/

https://twitter.com/EMostaque

https://stability.ai/news/stable-diffusion-3

声明:本文为 InfoQ 翻译整理,未经许可禁止转载。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
这次的Stable Diffusion 3,在图像质量、多个对象、拼写能力方面,都得到了显著提升。
新智元
2024/02/26
4850
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了
继 OpenAI 的 Sora 连续一周霸屏后,昨晚,生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示,这是他们最强大的文生图模型。
机器之心
2024/02/26
2390
Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了
Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?
这个模型于两周前发布,采用了与 Sora 相同的 DiT(Diffusion Transformer)架构,一经发布就引起了不小的轰动。
机器之心
2024/03/07
4720
Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?
OpenAI Sora 1分钟视频生成 现实不存在了!
We’re teaching AI to understand and simulate the physical world in motion, with the goal of training models that help people solve problems that require real-world interaction.
疯狂的KK
2024/03/11
8710
OpenAI Sora 1分钟视频生成 现实不存在了!
Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
所以,SD3这比DALL·E 3和Midjourney v6都要强的文字以及指令跟随技能,究竟怎么点亮的?
量子位
2024/03/07
3830
Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
SD3 正式开源 Sora同源架构
2月16日伴随着OpenAI世界大模型Sora的发布,stability_ai也发布了其最新的模型Stablediffusion3,如果说一个是音视频方向,一个是图像生成方向,那么两者没有必然的联系,但Sora和Stablediffusion3的架构是出奇的一致,核心部分都是采用了Difusion Transformer的方式(在Stablediffusion3中称之为DiT)。本次模型参数量不是很大就当8-12G起吧
疯狂的KK
2024/06/06
3250
SD3 正式开源 Sora同源架构
Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
Stability AI在发布了Stable Diffusion 3之后,今天公布了详细的技术报告。
新智元
2024/03/13
2500
Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
Stability AI CEO Emad Mostaque最新推文,四段视频引人无数遐想。
量子位
2024/01/23
2310
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势
随着科技的不断进步,生活中所见的一切已经不再局限于现实。在这个数字化时代,无论是图片、视频,还是其他形式的媒体内容,都有可能是通过 AI 算法生成的。精彩的场景、动人的情节,甚至栩栩如生的角色,都可能是由 AI 算法创造出来的。当你观看一段视频时,你是否曾思考过这个问题:这是一个真实的视频,还是由 AI 算法生成的呢?
CV君
2024/03/05
9810
不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势
AI视频新霸主全网翻车,Ilya奥特曼老黄打起来了!动画出现诡异狗头网友笑疯
昨天诞生的AI视频新霸主——Luma AI的Dream Machine,再次在整个互联网掀起高潮。
新智元
2024/06/17
2290
AI视频新霸主全网翻车,Ilya奥特曼老黄打起来了!动画出现诡异狗头网友笑疯
Sora 面世,视频生成的 GPT-3 时刻来了
2月16日凌晨,正值中国春节法定节假日期间,OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。看过视频效果后,网友纷纷感叹「现实,不存在了。」
AI科技评论
2024/02/27
2790
Sora 面世,视频生成的 GPT-3 时刻来了
Stable Diffusion再迎重磅更新!2.0版「涩图」功能被砍,网友狂打差评
昨天,Stability AI宣布,Stable Diffusion 2.0版本上线!
新智元
2023/01/08
3.9K1
Stable Diffusion再迎重磅更新!2.0版「涩图」功能被砍,网友狂打差评
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
几天前,在Computex 2024大会上,Stability AI联合首席执行官Christian Laforte正式官宣:SD 3 Medium将在6月12日公开发布。
新智元
2024/06/17
2510
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
浅析SORA视频生成原理
OpenAI发布了视频生成模型Sora,最大的Sora模型能够生成一分钟的高保真视频。同时OpenAI称,可扩展的视频生成模型,是构建物理世界通用模拟器的一条可能的路径。
码之有理
2024/03/13
1.1K0
全面对标Sora!中国首个Sora级视频大模型Vidu亮相
2024年4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu[1]。本文将对标Sora大模型、国产“类Sora”大模型等,详细介绍新兴国产大模型Vidu的背景、成果、架构等相关知识。
存内计算开发者
2024/05/14
7750
全面对标Sora!中国首个Sora级视频大模型Vidu亮相
[AI里程碑] Sora | 最强AI视频生成大模型
AI视频技术的发展历程可以追溯到2022年,当时初创公司Runway在这一领域取得了显著成就,其技术甚至被用于热门科幻电影《瞬息全宇宙》的视频编辑。此后,AI视频技术经历了快速的发展,Runway、Pika、Meta(Emu Video)等公司纷纷加入竞争。然而,早期的AI视频通常存在一些限制,如视频长度有限(通常只有几秒钟),场景逼真度不足,元素突然出现或消失,以及运动不连贯等问题,这些问题使得视频内容容易被识别为AI生成。
iResearch666
2024/03/13
9120
[AI里程碑] Sora | 最强AI视频生成大模型
发完最后一篇论文,Stable Diffusion核心团队全要离职了
离 Stable Diffusion 3 发布不到一个月,总部位于伦敦的 AI 初创公司 Stability AI 又被曝出了重大人事变动。
机器之心
2024/03/26
2530
发完最后一篇论文,Stable Diffusion核心团队全要离职了
新火种AI|围攻光明顶:Sora效应下的AI视频生成竞赛
尽管在去年,Runway、Pika以及Stable Video等就已经涉足AI视频生成领域,并且也曾经带给人们很多惊艳的时刻,甚至让马斯克都直呼,2024会是AI视频生成的元年。就在大家还在期待着这些公司会在2024年带给大家更多惊喜的时候,Sora放出的Demo,60秒、动作流畅,涂抹感不强,凭借一己之力抬高了视频生成领域的标准,对于之前只能生成几秒钟的AI视频来说,简直就是降维打击。
新火种
2024/03/13
1900
新火种AI|围攻光明顶:Sora效应下的AI视频生成竞赛
Sora 生成的视频太真实?那是你遇到造假了
视频发布者“No Context Brits”表示这是 Sora 生成的,提示词是:Brit gets hit by a bus then goes for a pint。那么你认为,上面视频是真的还是 AI 生成的?
深度学习与Python
2024/02/29
1890
Sora 生成的视频太真实?那是你遇到造假了
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
由于在AI生成视频的时长上成功突破到一分钟,再加上演示视频的高度逼真和高质量,Sora立刻引起了轰动。在Sora横空出世之前,Runway一直被视为AI生成视频的默认选择,尤其是自去年11月推出第二代模型以来,Runway还被称为“AI视频界的MidJourney”。第二代模型Gen-2不仅解决了第一代AI生成视频中每帧之间连贯性过低的问题,在从图像生成视频的过程中也能给出很好的结果。
汀丶人工智能
2024/02/19
2.5K0
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
推荐阅读
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
4850
Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了
2390
Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?
4720
OpenAI Sora 1分钟视频生成 现实不存在了!
8710
Stable Diffusion 3技术报告出炉:揭露Sora同款架构细节
3830
SD3 正式开源 Sora同源架构
3250
Stable Diffusion 3技术报告流出,Sora构架再立大功!生图圈开源暴打Midjourney和DALL·E 3?
2500
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
2310
不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势
9810
AI视频新霸主全网翻车,Ilya奥特曼老黄打起来了!动画出现诡异狗头网友笑疯
2290
Sora 面世,视频生成的 GPT-3 时刻来了
2790
Stable Diffusion再迎重磅更新!2.0版「涩图」功能被砍,网友狂打差评
3.9K1
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
2510
浅析SORA视频生成原理
1.1K0
全面对标Sora!中国首个Sora级视频大模型Vidu亮相
7750
[AI里程碑] Sora | 最强AI视频生成大模型
9120
发完最后一篇论文,Stable Diffusion核心团队全要离职了
2530
新火种AI|围攻光明顶:Sora效应下的AI视频生成竞赛
1900
Sora 生成的视频太真实?那是你遇到造假了
1890
探索AI视频生成新纪元:文生视频Sora VS RunwayML、Pika及StableVideo——谁将引领未来
2.5K0
相关推荐
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
更多 >
领券
一站式MCP教程库,解锁AI应用新玩法
涵盖代码开发、场景应用、自动测试全流程,助你从零构建专属AI助手
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档