首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >喜发新模型,却被众嘲是破产“前兆”!Stability AI “最强”模型人形绘制太“阴间”,网友:因为研发太讲武德

喜发新模型,却被众嘲是破产“前兆”!Stability AI “最强”模型人形绘制太“阴间”,网友:因为研发太讲武德

作者头像
深度学习与Python
发布于 2024-06-17 09:14:47
发布于 2024-06-17 09:14:47
2030
举报
整理 | 华卫、核子可乐

6 月 12 日,Stability AI 推出了 Stable Diffusion 3 Medium,这家英国初创公司称其为“迄今为止最先进的文本到图像开放模型”。至关重要的是,该模型可以在消费级 PC、笔记本电脑等个人消费系统以及企业级 GPU 上运行时生成这些图像。

要体验 SD3 Medium,可使用 Stability Platform(https://platform.stability.ai/)上的 API,注册 Stable Assistant(https://stability.ai/stable-assistant)以获取三天免费试用,也可通过 Discord 体验 Stable Artisan(https://stability.ai/stable-artisan)。

据介绍,SD3 Medium 由 20 亿个参数组成,无需复杂的工作流程即可获得逼真的结果。模型的大小也是 SD3 Medium 的核心亮点,该模型比许多 Stable Diffusion 3 模型都要小,后者的参数范围在 8 亿到 80 亿之间。

Stability 公司表示,其构建 SD3 Medium 来理解涉及空间关系、构图元素、动作和风格的复杂提示,它还能克服手部和面部常见的伪影和瑕疵。但意外的是, SD3 Medium 一经发布,却因手脚等人体部位的“奇怪”绘制引发了“群嘲”。

面对 SD3 Medium 生成的离谱画面,甚至有不少用户纷纷吐槽:“这个版本是来搞笑的吗?”

SD3 Medium 有何突破性?

根据官方说法, SD3 Medium 是一套拥有 20 亿参数的 SD3 模型,其显著特点包括:

  • 出色的整体质量与照片级真实感:提供包含出色细节、色彩及光照的图像,可在输出中实现照片级的真实表现以及风格灵活的高质量效果。通过 16 通道 VAE 等创新,成功解决了手部及面部真实感不足等其他模型中常见的缺陷。
  • 提示词理解:能够理解涉及空间推理、构图元素、动作及风格等概念的大段、高复杂度提示词。通过使用全部三种文本编码器的组合,用户可以在性能与效率之间做出权衡。
  • 排版功能:凭借 Diffusion Transformer 架构,SD3 Medium 实现了“前所未有”的文本输出质量,能够减少拼写、字距调整、信函格式及字母间距等方面的错误。
  • 资源高效:由于所占用的 VRAM 空间小,所以非常适合在标准消费级 GPU 上运行,且不致牺牲模型性能。
  • 微调:能够从小型数据集中吸纳微小细节,非常适合满足定制化需求。

使用“一只猫在车里抱着一罐啤酒”作为提示词,在 SD3 Medium 中生成的示例

同时,Stability 与英伟达和 AMD 开展合作。利用英伟达 RTX GPU 以及 TensorRT增强全体 Stable Diffusion 模型(包括 SD3 Medium)的性能,TensorRT 优化版本更可提供 50% 的一流性能提升;AMD 已针对各类 AMD 设备(包括最新 APU、消费级 GPU 以及 MI-300X 企业级 GPU)优化了 SD3 Medium 的推理性能。

此外,Stability 强调安全、负责任的 AI 实践原则,并已经采取并将继续通过合理措施以防范恶意行为者对 SD3 Medium 的滥用行为。其表示,安全自模型训练之时起,贯穿整个测试、评估与部署过程。Stability 对模型开展了广泛的内、外部测试,同时制定并实施了多项保护措施以防止危害发生。

因人体绘制问题被狂嘲

然而,SD3 Medium 的到来很快在网上受到用户的嘲笑。因为其生成人体图像的能力相较于其他最先进的图像合成模型(例如 Midjourney 及 DALL-E 3)似乎反而有所倒退,会生成一些在结构上诡异扭曲的视觉效果。

Reddit 用户使用 SD3 Medium 创建的 AI 生成图像,提示词为“一个人在客厅里打盹”

Reddit 上的原帖题为《这个版本是来搞笑的吗?(Is this release supposed to be a joke? [SD3-2B] )》,其中详细介绍了 SD3 Medium 在渲染人物,特别是在手、脚等肢体方面的离谱操作。

Reddit 用户使用 SD3 Medium 创建的 AI 生成图像,提示词为“海滩上穿着裙子的女子”

受到早期训练数据集中高质量示例不足的影响,绘制手部一直是 AI 图像生成工具面临的关键挑战。但近来,不少图像合成模型似乎已经克服了这个问题。所以对于汇聚在 Reddit 上的图像合成爱好者们来说,SD3 的表现似乎确有倒退之嫌——特别是与去年 11 月发布的 SD XL Turbo 等 Stability 版本相比。

使用 SD3 Medium 创建的三张 AI 生成图像,手部明显残缺不全

一位 Reddit 用户写道,“不久之前,Stable Diffusion 还在与 Midjourney 分庭抗礼;可现如今,它看起来就像是个笑话。唯一能拿出来说说的,就只有数据集安全和符合道德原则了!”

另一篇题为《SD3 在生成躺在草地上的女孩时为何表现糟糕?(Why is SD3 so bad at generating girls lying on the grass?)》也展示了类似的问题,只是这回出问题的是整个躯体。

使用 SD3 创建的 AI 生成图像,提示词是“一位女子躺在草地上”

AI 图像爱好者们目前将 SD3 的人体绘制问题,归咎于 Stability 坚持从 SD3 的训练数据中过滤掉成人内容(所谓「不适合工作时间观看」的内容,简称 NSFW),因此图像生成质量有所下降。一位 Reddit 用户写道,“分享一条冷知识,对模型的严格审查也会过滤掉人体解剖素材,于是……就变成现在这样了。”

也就是说,每当用户的提示词表达了 AI 模型未能在训练数据集中充分接触过的概念,图像合成模型就会自行捏造对于用户要求的最佳解释,扭曲诡异的图像也由此产生。

2022 年发布的 Stable Diffusion 2.0 在描绘人体方面也出现过类似的问题。当时,AI 研究人员很快发现,筛除包含裸露内容的成人素材很可能会严重妨碍 AI 模型准确生成人体解剖结构的能力。随后发布的 SD 2.1 和 SD XL 成功扭转了局面,恢复了一部分因严格过滤 NSFW 内容而失去的绘图能力。

模型预训练期间可能出现的另一个问题,是研究人员设计的 NSFW 过滤器在删除数据集中成人图像时可能过于挑剔,意外排除了那些并不存在冒犯性的内容,这就导致模型偶尔无法准确描绘人体。一位 Reddit 用户在帖子中写道,“只要图片不涉及人物,SD3 的工作就一切正常。所以我认为是他们用于过滤训练数据的 NSFW 过滤器敏感度过高,把所有人类图像都划入了 NSFW 范畴。”

使用 Hugging Face 上的 SD3 免费在线演示,即可快速输入提示词并看到与 Reddit 用户们上报情况类似的结果。例如,使用“一名男子伸出双手”的提示词,模型生成了一张男子举起两只硕大且左右颠倒手部的图像,好在指头倒是正确的五根。

使用“一名男子伸出双手”作为提示词,在 SD3 Medium 中生成的示例

结 语

SD3 Medium 在 Stability 的动荡时期到来。

这家初创公司成立于 2020 年,很快就被誉为生成式人工智能的新兴领导者之一。与竞争对手 Midjourney 和 OpenAI 的 Dall-E 并驾齐驱,Stable Diffusion 登上了新生文本到图像子行业的顶峰。2022 年,投资者对这家初创公司的估值为 10 亿美元。

然而,从那时起,一连串的诉讼和财务问题吞噬了这家企业。艺术家们起诉该公司未经同意就用他们的作品训练人工智能模型。上个月据外媒报道,Stability 公司也曾讨论过出售事宜,因为它面临着资金紧张的问题。

今年 2 月,Stable Diffusion 3 模型的延迟发布也激起了不少传闻。有声音认为,Stability 是遇到了技术问题或是受到管理不善的影响。该公司最近也确实身陷困境,其创始人兼 CEO Emad Mostaque 已经于 3 月辞职,随后又经历了一系列裁员。在此之前,三位核心工程师 Robin Rombach、Andreas Blattmann 和 Dominik Lorenz 也已决定离去。

在一部分 Stable Diffusion 粉丝看来,SD3 Medium 如今在部分方面表现不佳的“失败”可谓该公司管理失能的直观体现,也代表着问题已经大到无法掩盖的地步。尽管该公司尚未申请破产,但不少用户在看到 SD3 Medium 的表现后尖锐地讽刺称:“我猜他们终于能以一种安全且符合道德的方式宣告破产了。”

但无论如何,SD3 Medium 是 Stability 打造的 Stable Diffusion 3 家族中最新、最先进的文本转图像 AI 模型,代表着生成式 AI 发展的重要里程碑,将继续为这项强大技术的普及贡献力量。Stability 表示,其将根据用户反馈不断改进 SD3 Medium 模型,扩展其功能并优化性能。目标是为生成式 AI 的艺术创作领域树立新的标杆,并使 SD3 Medium 成为服务专业人士与业余爱好者的重要工具。

参考链接:

https://thenextweb.com/news/stability-ai-launches-stable-diffusion-3-image-generator

https://stability.ai/news/stable-diffusion-3-medium

https://arstechnica.com/information-technology/2024/06/ridiculed-stable-diffusion-3-release-excels-at-ai-generated-body-horror/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI视频新霸主全网翻车,Ilya奥特曼老黄打起来了!动画出现诡异狗头网友笑疯
昨天诞生的AI视频新霸主——Luma AI的Dream Machine,再次在整个互联网掀起高潮。
新智元
2024/06/17
2120
AI视频新霸主全网翻车,Ilya奥特曼老黄打起来了!动画出现诡异狗头网友笑疯
Stable Diffusion再迎重磅更新!2.0版「涩图」功能被砍,网友狂打差评
昨天,Stability AI宣布,Stable Diffusion 2.0版本上线!
新智元
2023/01/08
3.8K1
Stable Diffusion再迎重磅更新!2.0版「涩图」功能被砍,网友狂打差评
Stable Diffusion 2.1版本发布,涩图功能回来了?
昨天,Stability AI带着最新款Stable Diffusion2.1版本来了!
新智元
2023/01/09
2.6K0
Stable Diffusion 2.1版本发布,涩图功能回来了?
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
几天前,在Computex 2024大会上,Stability AI联合首席执行官Christian Laforte正式官宣:SD 3 Medium将在6月12日公开发布。
新智元
2024/06/17
2440
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
[AI里程碑]StableDiffusion3今日开源 | 首个开源超越Midjourney
⚡[AI里程碑]StableDiffusion3今日开源 | 首个开源超越Midjourney
iResearch666
2024/06/14
3950
[AI里程碑]StableDiffusion3今日开源 | 首个开源超越Midjourney
New Stability AI 最新的3个文生图模型
好久没打开自己的邮箱了,本来要验证一下Meta AI的AI视频能力,突然看到Stability AI的一封邮件,众所周知啊,上一次Stability AI火,还是因为要凉凉,因为偿还巨额债务和前CEO出走,加上SD3的不温不火,当时确实SD3是非常能打的,参数量也是当时最大的,但是奈何生不逢时,FLUX把风头都抢光了,一直说要对标MJ,最终还是被黑森林拉下神坛。
疯狂的KK
2024/10/08
1790
New Stability AI 最新的3个文生图模型
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
这次的Stable Diffusion 3,在图像质量、多个对象、拼写能力方面,都得到了显著提升。
新智元
2024/02/26
4620
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
SD3还有戏吗?
然而,就在同一天,AI绘画圈传出一则令人忧虑的消息:Civitai平台宣布下架Stable Diffusion 3(SD3)模型。
德育处主任
2024/06/26
2010
SD3还有戏吗?
不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势
随着科技的不断进步,生活中所见的一切已经不再局限于现实。在这个数字化时代,无论是图片、视频,还是其他形式的媒体内容,都有可能是通过 AI 算法生成的。精彩的场景、动人的情节,甚至栩栩如生的角色,都可能是由 AI 算法创造出来的。当你观看一段视频时,你是否曾思考过这个问题:这是一个真实的视频,还是由 AI 算法生成的呢?
CV君
2024/03/05
9350
不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势
揭秘Stable Diffusion 3:当AI遇上艺术,创意无界限!
在这个闰年的肯德基星期四,让我们一起探索Stable Diffusion 3(简称SD3),一款革命性的AI艺术创作工具。SD3以其前所未有的提示词理解能力和图像生成技术,重新定义了人工智能与创意表达的边界。本文将深入探讨SD3的技术特点、应用前景以及其对未来创作领域的影响。 词条:Stable Diffusion 3、AI艺术创作、图像生成、创意表达、技术革命。
猫头虎
2024/04/07
8660
揭秘Stable Diffusion 3:当AI遇上艺术,创意无界限!
SD3 Medium 已经开放下载:中杯模型20亿参数,12G显存可用,还包括官方comfyUI工作流
Stability AI最近宣布开源其最新的文本到图像生成模型——Stable Diffusion 3 Medium(简称SD3 Medium),这是一款具有20亿参数的先进模型,旨在提升生成性AI的性能和可访问性。SD3 Medium模型的开发标志着在AI图像生成领域的一个重要进步,该模型设计精良,能在各种GPU上高效运行,尤其适合消费级和企业级使用。
deephub
2024/06/17
3670
SD3 Medium 已经开放下载:中杯模型20亿参数,12G显存可用,还包括官方comfyUI工作流
与Sora同架构的Stable Diffusion 3.0 震撼发布!4 秒视频生成却翻车,网友:还是等 Sora 吧!
Stability AI 发布了 Stable Diffusion 3,这款图像生成 AI 模型再次刷新了人们的认知。
深度学习与Python
2024/02/29
4680
与Sora同架构的Stable Diffusion 3.0 震撼发布!4 秒视频生成却翻车,网友:还是等 Sora 吧!
免费做图的神器StableStudio—Stability AI的DreamStudio开源版本
在ChatGPT引领的AI浪潮下,涌现了一大批AI应用,其背后其实蕴含着一个基本事实:AI能力得到了极大突破——大模型的能力有目共睹,未来只会变得更强。这世界唯一不变的就是变,适应变化、拥抱变化、喜欢变化,天行健君子以自强不息。我们相信未来会有越来越多的大模型出现,AI正在逐渐平民化,将来每个人都可以利用大模型轻松地做出自己的AI产品。
山行AI
2023/06/14
1.6K0
免费做图的神器StableStudio—Stability AI的DreamStudio开源版本
试完刚刚开源的StableDiffusion3,我觉得能打败它的只有下一代。
当初SD3 API放出来的时候,他的公司Stability AI已经出现大大小小很多的裂缝了。
数字生命卡兹克
2025/04/14
830
试完刚刚开源的StableDiffusion3,我觉得能打败它的只有下一代。
开源模型穷途末路?Stability AI欠下1亿美元,四处找钱寻求「卖身」
曾经创造出Stable Diffusion系列模型的Stability AI,目前面临前所未有的财务危机。
新智元
2024/05/22
1810
开源模型穷途末路?Stability AI欠下1亿美元,四处找钱寻求「卖身」
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代
大家好,我是猫头虎😺!今天要为大家介绍一款革命性的图像生成模型——Stable Diffusion 3 Medium。这款模型不仅提升了图像质量,还在排版和复杂提示理解方面表现出色,同时具备极高的资源效率。想了解更多关于这款模型的细节,请继续阅读下去!📖
猫头虎
2024/06/15
3940
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代
Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?
这个模型于两周前发布,采用了与 Sora 相同的 DiT(Diffusion Transformer)架构,一经发布就引起了不小的轰动。
机器之心
2024/03/07
4330
Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?
黄仁勋自曝英伟达最强Rubin架构;优必选人形机器人进入东风柳汽开展造车工作;马斯克称将购买30万块AI芯片丨AI情报局
Firefly.ai获2300万美元A轮融资:Firefly 开发了一个与 IaC 无关的代码生成引擎,利用AI技术来生成代码。本轮融资由祥峰投资Vertex、Hanaco Ventures、InMotion Ventures、Redseed、SoftBank软银投资。
AI科技评论
2024/06/04
2540
黄仁勋自曝英伟达最强Rubin架构;优必选人形机器人进入东风柳汽开展造车工作;马斯克称将购买30万块AI芯片丨AI情报局
开源的Stable Diffusion 3 Medium效果如何?
在2月份的时候,Stable Diffusion 3曾经公布过其强大的能力,由于其在细节生成上更加可控,不少人就一直期待着这个模型的开源。
算法一只狗
2024/08/16
1880
开源的Stable Diffusion 3 Medium效果如何?
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
Stability AI CEO Emad Mostaque最新推文,四段视频引人无数遐想。
量子位
2024/01/23
2230
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
推荐阅读
AI视频新霸主全网翻车,Ilya奥特曼老黄打起来了!动画出现诡异狗头网友笑疯
2120
Stable Diffusion再迎重磅更新!2.0版「涩图」功能被砍,网友狂打差评
3.8K1
Stable Diffusion 2.1版本发布,涩图功能回来了?
2.6K0
AI生图格局大震!Stable Diffusion 3开源倒计时,2B单机可跑碾压闭源Midjourney
2440
[AI里程碑]StableDiffusion3今日开源 | 首个开源超越Midjourney
3950
New Stability AI 最新的3个文生图模型
1790
Stable Diffusion 3深夜横空出世!模型与Sora同架构,也能「理解」物理世界
4620
SD3还有戏吗?
2010
不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势
9350
揭秘Stable Diffusion 3:当AI遇上艺术,创意无界限!
8660
SD3 Medium 已经开放下载:中杯模型20亿参数,12G显存可用,还包括官方comfyUI工作流
3670
与Sora同架构的Stable Diffusion 3.0 震撼发布!4 秒视频生成却翻车,网友:还是等 Sora 吧!
4680
免费做图的神器StableStudio—Stability AI的DreamStudio开源版本
1.6K0
试完刚刚开源的StableDiffusion3,我觉得能打败它的只有下一代。
830
开源模型穷途末路?Stability AI欠下1亿美元,四处找钱寻求「卖身」
1810
重磅发布!Stable Diffusion 3 Medium 终于开源,革新图像生成技术新时代
3940
Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?
4330
黄仁勋自曝英伟达最强Rubin架构;优必选人形机器人进入东风柳汽开展造车工作;马斯克称将购买30万块AI芯片丨AI情报局
2540
开源的Stable Diffusion 3 Medium效果如何?
1880
Stability AI杀回来了:视频生成新Demo效果惊人,网友:一致性超群
2230
相关推荐
AI视频新霸主全网翻车,Ilya奥特曼老黄打起来了!动画出现诡异狗头网友笑疯
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档