首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

前Stability AI核心成员发布Flux.1开源图像生成模型,评分超越MJ和SD

8月1日,一家名为Black Forest Labs的公司推出了新的图像生成模型FLUX.1。据其官方网站公布的数据显示,FLUX.1的ELO评分已经超越了Midjourney-V6.0和Stable Diffusion3-Ultra等知名模型。值得注意的是,即便是开源版本的FLUX.1 [schnell]也在性能上超越了Midjourney-V6.0和Dall-E 3 HD。

FLUX.1共推出了三个版本

1. FLUX.1 [pro]:

这是FLUX.1系列中的旗舰版本,提供最先进的图像生成性能,在提示跟随、视觉质量、图像细节和输出多样性方面都达到了顶级水平。适用于需要顶级图像生成质量的商业应用。可以通过 API 访问。还可以通过 Replicate 和 fal.ai 使用。

2. FLUX.1 [dev]:

这是一个开放权重、指导蒸馏的模型,专为非商业应用设计。它在保持高质量和快速适应能力的同时,比同等规模的标准模型更加高效。场景适用于学术研究、开发和非商业应用。模型权重可在HuggingFace、modelscope上获取也可以直接在 Replicate 或 Fal.ai 上试用。

3. FLUX.1 [schnell]:

这是一个可商用的开源模型,主要面向本地开发和个人使用场景。

手部生成效果:

FLUX.1之所以能够取得如此出色的成绩,很大程度上要归功于其创始人Robin Rombach。Rombach曾担任Stability AI的首席科学家,是全球知名的Stable Diffusion项目的领军人物。

他在AI图像生成领域可谓是资深专家,VQGAN、Taming Transformers和Latent Diffusion等著名架构都出自他手。今年3月,Rombach从Stability AI离职后创立了Black Forest Labs,仅用不到5个月的时间就推出了FLUX.1,展现了强大的研发实力。

在技术方案上,FLUX.1采用了大规模的Transformer驱动流模型。所有公开的FLUX.1模型都基于混合架构,结合了多模态和平行扩散Transformer块,参数规模达到120亿。通过构建流匹配来改进先前的扩散模型,这种方法既通用又概念简单,将扩散作为一种特殊情况包含其中。此外,他们还通过引入旋转位置嵌入和并行注意力层,进一步提升了模型性能和硬件效率。

所有 FLUX.1 型号都支持不同的长宽比和分辨率(10 万和 200 万像素),如下图所示。

同时FLUX.1 文本到图像模型套件,为他们即将推出的竞争性生成 文本到视频系统 奠定了坚实基础。官方称他们的视频模型将以高清晰度和前所未有的速度实现精确创作和编辑。

我们看下示例效果:

Style: photo

风格:photo

Prompt: a cat sit near the bech with sun glass, photo.

提示:一只猫坐在有阳光玻璃的贝壳附近,照片。

Style: satirical

风格: 讽刺

Prompt: Circus tent made out of a worn us flay with text that says not my circus not my clowns. With Biden and trump dressed as clowns in a suit made of the us flag.

提示:用破旧的美国国旗做成的马戏团帐篷,上面写着不是我的马戏团,不是我的小丑。拜登和特朗普穿着美国国旗制成的衣服,扮成小丑。

你的支持就是小编更新的最大动力!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OP8WErR56eRjkA4QKTn2Zuug0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券