“Sora在连续刷屏一周之后,昨晚,Stability AI正式发布了Stable Diffusion 3的早期预览版,并宣称这是他们迄今为止最强大的文本生成图像模型,在多主题提示、图像质量和文本渲染能力方面都有了显著的提升。”
与之前的版本相比,Stable Diffusion 3最引人注目的改进之一是其对于生成图像中文字的精准度。这也是为什么官方发布的许多示例图都包含了文字展示:
这次更新可以说,Stable Diffusion 3在语言理解方面取得了巨大的进步。
同时,Stability AI官方表示,Stable Diffusion 3是一个系列模型,其参数从800M到8B不等,提供了多样化的可扩展性和图像质量选项,以满足不同用户的创意需求。
换句话说,Stable Diffusion 3未来能够在多种设备上运行,大大降低了用户使用AI模型的硬件门槛。
目前,Stable Diffusion 3已经开放了候补名单,想要第一时间体验的用户可以前往申请访问权限:
https://stability.ai/stablediffusion3
需要注意的是,Stable Diffusion 3尚未全面开放,技术报告和权重也没有公布。本文中展示的图片和提示词,均来自于Stability AI官方账号及其团队成员发布在社交媒体上的帖子。
其他文生图模型还有机会吗?
在文生图领域,Stable Diffusion的主要竞争对手无疑是Midjourney和DALL-E。下面我们可以用相同的提示词来进行实测,看看各家目前的表现如何(Midjourney使用的是V6模型,DALL-E使用的是集成在ChatGPT4中的DALL-E 3)。
1.文字渲染能力。
提示词:一位巫师在夜晚的山顶向黑暗的天空施放宇宙咒语,咒语由彩色能量组成,其中包括“Stable Diffusion 3”。
Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy.
由Stable Diffusion3生成
由DALL·E 3生成
由Midjourney生成
这组对比中,DALL-E 3没有按照提示词要求在图中生成完整的文字,Midjourney则通过调整参数,成功生成了一张带有完整文字的图片。
再来看一组写实图片:
提示词:厨房桌子上放着一块绣花布,上面写着“晚安”和一只绣着的小老虎。布旁边有一支点燃的蜡烛。灯光昏暗而引人注目。
Prompt: Resting on the kitchen table is an embroidered cloth with the text 'good night' and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.
由Stable Diffusion3生成
由DALL·E 3生成
由Midjourney生成
这次DALL-E 3生成的图,虽然看起来有模有样,但是“good”单词中多了一个“o”,整体字体也不够统一。
Midjourney则生成了一些鬼画符,直接画了一只真实的老虎,与提示词的要求有所偏离。
2.多主题提示能力。
这样的提示包括多种元素,例如宇航员、穿着芭蕾舞裙的小猪、戴着礼帽的知更鸟等。
Prompt: a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"
由Stable Diffusion3生成
Stable Diffusion 3成功地包含了所有这些元素,并且在图像的左下角还有一个“Stable Diffusion”的水印。
相比之下,DALL-E 3生成了一张非常炸裂的图,展示了其缝合怪的能力。
由DALL·E 3生成
而Midjourney则更像是末日风格,虽然包含了所有元素,但是有些元素的位置或形态与提示词不完全匹配。
由Midjourney生成
3.超清特写。
这样的提示要求生成的图片是工作室摄影特写,展示一只变色龙在黑色背景上。
提示词:工作室摄影特写,一条变色龙在黑色背景上。
Prompt: studio photograph closeup of a chameleon over a black background.
由Stable Diffusion3生成
那么,这类型图上Midjourney和DALL·E 3表现如何呢?
由DALL·E 3生成
由Midjourney生成
这类图像,DALL-E 3和Midjourney的表现都不错,DALL-E 3的分辨率通常为1024x1024,而Midjourney的分辨率可达到2048x2048的2K。
截至目前,Stability AI尚未透露Stable Diffusion 3在图像质量上的具体优化程度,但从官方的示例图中可以看出,在分辨率和色彩饱和度上都有所提升。
4、其他示例
教室桌子上有一个红苹果,电影风格,背景的黑板上用粉笔写着“要么做大,要么回家”
一辆跑车的夜间照片,侧面写有“SD3”字样,汽车在赛道上高速行驶,巨大的路标上写着“更快”的文字。
波浪冲击苏格兰灯塔的鱼眼镜头照片,黑色波浪。
与Sora同源架构
尽管Stable Diffusion 3还未正式发布,但根据Stability AI CEO的回复,我们可以简单理解为其采用了与Sora相似的diffusion transformer架构,具备了类似的“理解和模拟物理现实”的能力。
总的来说,各家的竞争让AIGC领域变得更加精彩,预计今年我们还将见证更多令人兴奋的时刻。
领取专属 10元无门槛券
私享最新 技术干货