Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >英伟达联手MIT清北发布SANA 1.5!线性扩散Transformer再刷文生图新SOTA

英伟达联手MIT清北发布SANA 1.5!线性扩散Transformer再刷文生图新SOTA

作者头像
新智元
发布于 2025-02-15 09:38:37
发布于 2025-02-15 09:38:37
1040
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:英智 好困

【新智元导读】SANA 1.5是一种高效可扩展的线性扩散Transformer,针对文本生成图像任务进行了三项创新:高效的模型增长策略、深度剪枝和推理时扩展策略。这些创新不仅大幅降低了训练和推理成本,还在生成质量上达到了最先进的水平。

近年来,文本生成图像的技术不断突破,但随着模型规模的扩大,计算成本也随之急剧上升。

为此,英伟达联合MIT、清华、北大等机构的研究人员提出了一种高效可扩展的线性扩散Transformer——SANA,在大幅降低计算需求的情况下,还能保持有竞争力的性能。

SANA1.5在此基础上,聚焦了两个关键问题:

  1. 线性扩散Transformer的可扩展性如何?
  2. 在扩展大规模线性DiT时,怎样降低训练成本?

论文链接:https://arxiv.org/pdf/2501.18427

SANA 1.5:高效模型扩展三大创新

SANA 1.5在SANA 1.0(已被ICLR 2025接收)的基础上,有三项关键创新。

首先,研究者提出了一种高效的模型增长策略,使得SANA可以从1.6B(20层)扩展到4.8B(60层)参数,同时显著减少计算资源消耗,并结合了一种节省内存的8位优化器。

与传统的从头开始训练大模型不同,通过有策略地初始化额外模块,可以让大模型保留小模型的先验知识。与从头训练相比,这种方法能减少60%的训练时间。

其二,引入了模型深度剪枝技术,实现了高效的模型压缩。通过识别并保留关键的块,实现高效的模型压缩,然后通过微调快速恢复模型质量,实现灵活的模型配置。

其三,研究者提出了一种推理期间扩展策略,引入了重复采样策略,使得SANA在推理时通过计算而非参数扩展,使小模型也能达到大模型的生成质量。

通过生成多个样本,并利用基于视觉语言模型(VLM)的选择机制,将GenEval分数从0.72提升至0.80。

与从头开始训练大模型不同,研究者首先将一个包含N个Transformer层的基础模型扩展到N+M层(在实验中,N=20,M=40),同时保留其学到的知识。

在推理阶段,采用两种互补的方法,实现高效部署:

  • 模型深度剪枝机制:识别并保留关键的Transformer块,从而在小的微调成本下,实现灵活的模型配置。
  • 推理时扩展策略:借助重复采样和VLM引导选择,在计算资源和模型容量之间权衡。

同时,内存高效CAME-8bit优化器让单个消费级GPU上微调十亿级别的模型成为可能。

下图展示了这些组件如何在不同的计算资源预算下协同工作,实现高效扩展。

模型增长

研究者提出一种高效的模型增长策略,目的是对预训练的DiT模型进行扩展,把它从𝑁层增加到𝑁+𝑀层,同时保留模型已经学到的知识。

研究过程中,探索了三种初始化策略,最终选定部分保留初始化方法。这是因为该方法既简单又稳定。

在这个策略里,预训练的N层继续发挥特征提取的作用,而新增加的M层一开始是随机初始化,从恒等映射起步,慢慢学习优化特征表示。

实验结果显示,与循环扩展和块扩展策略相比,这种部分保留初始化方法在训练时的动态表现最为稳定。

模型剪枝

本文提出了一种模型深度剪枝方法,能高效地将大模型压缩成各种较小的配置,同时保持模型质量。

受Minitron启发,通过输入输出相似性模式分析块的重要性:

这里的

表示第i个transformer的第t个token。

模型的头部和尾部块的重要性较高,而中间层的输入和输出特征相似性较高,表明这些层主要用于逐步优化生成的结果。根据排序后的块重要性,对transformer块进行剪枝。

剪枝会逐步削弱高频细节,因为,在剪枝后进一步微调模型,以弥补信息损失。

使用与大模型相同的训练损失来监督剪枝后的模型。剪枝模型的适配过程非常简单,仅需100步微调,剪枝后的1.6B参数模型就能达到与完整的4.8B参数模型相近的质量,并且优于SANA 1.0的1.6B模型。

推理时扩展

SANA 1.5经过充分训练,在高效扩展的基础上,生成能力有了显著提升。受LLM推理时扩展的启发,研究者也想通过这种方式,让SANA 1.5表现得更好。

对SANA和很多扩散模型来说,增加去噪步数是一种常见的推理时扩展方法。但实际上,这个方法不太理想。一方面,新增的去噪步骤没办法修正之前出现的错误;另一方面,生成质量很快就会达到瓶颈。

相较而言,增加采样次数是更有潜力的方向。

研究者用视觉语言模型(VLM)来判断生成图像和文本提示是否匹配。他们以NVILA-2B为基础模型,专门制作了一个数据集对其进行微调。

微调后的VLM能自动比较并评价生成的图像,经过多轮筛选,选出排名top-N的候选图像。这不仅确保了评选结果的可靠性,还能有效过滤与文本提示不匹配的图像。

模型增长、模型深度剪枝和推理扩展,构成了一个高效的模型扩展框架。三种方法协同配合,证明了精心设计的优化策略,远比单纯增加参数更有效。

  • 模型增长策略探索了更大的优化空间,挖掘出更优质的特征表示。
  • 模型深度剪枝精准识别并保留了关键特征,从而实现高效部署。
  • 推理时间扩展表明,当模型容量有限时,借助额外的推理时间和计算资源,能让模型达到与大模型相似甚至更好的效果。

为了实现大模型的高效训练与微调,研究者对CAME进行扩展,引入按块8位量化,从而实现CAME-8bit优化器。

CAME-8bit相比AdamW-32bit减少了约8倍的内存使用,同时保持训练的稳定性。

该优化器不仅在预训练阶段效果显著,在单GPU微调场景中更是意义非凡。用RTX 4090这样的消费级GPU,就能轻松微调SANA 4.8B。

研究揭示了高效扩展不仅仅依赖于增加模型容量。通过充分利用小模型的知识,并设计模型的增长-剪枝,更高的生成质量并不一定需要更大的模型。

SANA 1.5 评估结果

实验表明,SANA 1.5的训练收敛速度比传统方法(扩大规模并从头开始训练)快2.5倍。

训练扩展策略将GenEval分数从0.66提升至0.72,并通过推理扩展将其进一步提高至0.80,在GenEval基准测试中达到了最先进的性能。

模型增长

将SANA-4.8B与当前最先进的文本生成图像方法进行了比较,结果如表所示。

从SANA-1.6B到4.8B的扩展带来了显著的改进:GenEval得分提升0.06(从0.66增加到0.72),FID降低0.34(从5.76降至5.42),DPG得分提升0.2(从84.8增加到85.0)。

和当前最先进的方法相比,SANA-4.8B模型的参数数量少很多,却能达到和大模型一样甚至更好的效果。

SANA-4.8B的GenEval得分为0.72,接近Playground v3的0.76。

在运行速度上,SANA-4.8B的延迟比FLUX-dev(23.0秒)低5.5倍;吞吐量为0.26样本/秒,是FLUX-dev(0.04样本/秒)的6.5倍,这使得SANA-4.8B在实际应用中更具优势。

模型剪枝

为了和SANA 1.0(1.6B)公平比较,此次训练的SANA 1.5(4.8B)模型,没有用高质量数据做监督微调。

所有结果都是针对512×512尺寸的图像评估得出的。经过修剪和微调的模型,仅用较低的计算成本,得分就达到了0.672,超过了从头训练模型的0.664。

推理时扩展

将推理扩展应用于SANA 1.5(4.8B)模型,并在GenEval基准上与其他大型图像生成模型进行了比较。

通过从2048张生成的图像中选择样本,经过推理扩展的模型在整体准确率上比单张图像生成提高了8%,在「颜色」「位置」和「归属」子任务上提升明显。

不仅如此,借助推理时扩展,SANA 1.5(4.8B)模型的整体准确率比Playground v3 (24B)高4%。

结果表明,即使模型容量有限,提高推理效率,也能提升模型生成图像的质量和准确性。

SANA:超高效文生图

在这里介绍一下之前的SANA工作。

SANA是一个超高效的文本生成图像框架,能生成高达4096×4096分辨率的图像,不仅画质清晰,还能让图像和输入文本精准匹配,而且生成速度超快,在笔记本电脑的GPU上就能运行。

SANA为何如此强大?这得益于它的创新设计:

  • 深度压缩自动编码器:传统自动编码器压缩图像的能力有限,一般只能压缩8倍。而SANA的自动编码器能达到32倍压缩,大大减少了潜在tokens数量,计算效率也就更高了。
  • 线性DiT:SANA用线性注意力替换了DiT中的标准注意力。在处理高分辨率图像时,速度更快,还不会降低图像质量。
  • 仅解码文本编码器:SANA不用T5做文本编码器了,而是采用现代化的小型仅解码大模型。同时,通过上下文学习,设计出更贴合实际需求的指令,让生成的图像和输入文本对应得更好。
  • 高效训练与采样:SANA提出了Flow-DPM-Solver方法,减少了采样步骤。再配合高效的字幕标注与选取,让模型更快收敛。

经过这些优化,SANA-0.6B表现十分出色。

它生成图像的质量和像Flux-12B这样的现代大型扩散模型差不多,但模型体积缩小了20倍,数据处理能力却提升了100倍以上。

SANA-0.6B运行要求不高,在只有16GB显存的笔记本GPU上就能运行,生成一张1024×1024分辨率的图像,用时不到1秒。

这意味着,创作者们用普通的笔记本电脑,就能轻松制作高质量图像,大大降低了内容创作的成本。

研究者提出新的深度压缩自动编码器,将压缩比例提升到32倍,和压缩比例为8倍的自动编码器相比,F32自动编码器生成的潜在tokens减少了16倍。

这一改进对于高效训练和超高分辨率图像生成,至关重要。

研究者提出一种全新的线性DiT,用线性注意力替代传统的二次复杂度注意力,将计算复杂度从原本的O(N²) 降低至O(N)。另一方面,在MLP层引入3×3深度可分卷积,增强潜在tokens的局部信息。

在生成效果上,线性注意力与传统注意力相当,在生成4K图像时,推理延迟降低了1.7倍。Mix-FFN结构让模型无需位置编码,也能生成高质量图像,这让它成为首个无需位置嵌入的DiT变体。

在文本编码器的选择上,研究者选用了仅解码的小型大语言模型Gemma,以此提升对提示词的理解与推理能力。相较于CLIP和T5,Gemma在文本理解和指令执行方面表现更为出色。

为充分发挥Gemma的优势,研究者优化训练稳定性,设计复杂人类指令,借助Gemma的上下文学习能力,进一步提高了图像与文本的匹配质量。

研究者提出一种自动标注与训练策略,借助多个视觉语言模型(VLM)生成多样化的重新描述文本。然后,运用基于CLIPScore的策略,筛选出CLIPScore较高的描述,以此增强模型的收敛性和对齐效果。

在推理环节,相较于Flow-Euler-Solver,Flow-DPM-Solver将推理步骤从28-50步缩减至14-20步,不仅提升了速度,生成效果也更为出色。

参考资料:

https://huggingface.co/papers/2501.18427

https://x.com/xieenze_jr/status/1885510823767875799

https://nvlabs.github.io/SANA/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成
扩散生成模型通常需要50-100次迭代去噪步骤,效率很低,时间步蒸馏技术可以极大提高推理效率,「基于分布的蒸馏」方法,如生成对抗网络GAN及其变分分数蒸馏VSD变体,以及「基于轨迹的蒸馏方法」(如直接蒸馏、渐进蒸馏、一致性模型)可以实现10-100倍的图像生成加速效果。
新智元
2025/04/01
1230
一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成
rebuttal真的有用!这篇ICLR论文,所有审稿人都加了2分,直接跃升排名第9
最近,正处于评议阶段的 ICLR 2025 论文真是看点连连,比如前些天爆出的 ICLR 低分论文作者硬刚审稿人的事件以及今天我们要介绍的这个通过 rebuttal(反驳)硬是将自己的平均分拉高 2 分,直接晋升第 9 名的论文。
机器之心
2025/02/14
960
rebuttal真的有用!这篇ICLR论文,所有审稿人都加了2分,直接跃升排名第9
终于等来能塞进手机的文生图模型!十分之一体量,SnapGen实现百分百的效果
本文的共同一作为墨尔本大学的胡冬庭和香港科技大学的陈捷润和黄悉偈,完成于在 Snap 研究院 Creative Vision 团队实习期间。主要指导老师为任健、徐炎武和 Anil Kag,他们均来自 Snap Creative Vision 团队。该团队的主要研究方向包括 Efficient AI 和图像/视频/三维生成模型。
机器之心
2025/02/15
940
终于等来能塞进手机的文生图模型!十分之一体量,SnapGen实现百分百的效果
85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型
当你用苹果手机随手拍图问 AI:「这是什么?」,背后的 FastVLM 模型正在默默解码。
机器之心
2025/05/17
2270
85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型
基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了
众所周知,开发顶级的文生图(T2I)模型需要大量资源,因此资源有限的个人研究者基本都不可能承担得起,这也成为了 AIGC(人工智能内容生成)社区创新的一大阻碍。同时随着时间的推移,AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。
机器之心
2024/03/18
2620
基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了
拳打开源SOTA脚踢商业闭源的LI-DiT是怎样炼成的?(商汤/MMLab/上海AI Lab)
仅基于解码器的 Transformer 的大语言模型(LLMs)与 CLIP 和 T5 系列模型相比,已经展示出卓越的文本理解能力。然而,在文本到图像扩散模型中利用当前先进的大语言模型的范例仍有待探索。本文观察到一个不寻常的现象:直接使用大语言模型作为提示编码器会显著降低图像生成中遵循提示的能力。本文发现了这个问题背后的两个主要障碍:一个是大语言模型中下一token预测训练与扩散模型中对有区别性的提示特征的要求之间的不一致;另一个是仅解码器架构引入的内在位置偏差。为了解决这个问题,本文提出了一个新颖的框架来充分利用大语言模型的能力。通过精心设计的使用指南,有效地增强了用于提示编码的文本表示能力,并消除了其内在的位置偏差。这使得能够灵活地将最先进的大语言模型集成到文本到图像生成模型中。
AIWalker
2024/06/26
2680
拳打开源SOTA脚踢商业闭源的LI-DiT是怎样炼成的?(商汤/MMLab/上海AI Lab)
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。
机器之心
2024/06/17
8250
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
在众多非 Transformer 架构中,Mamba 无疑是声量较大且后续发展较好的一个。然而,与最初发布时那种仿佛「水火不容」的局面不同,最近一段时间,这两种架构似乎正在走向融合。
机器之心
2025/03/27
1150
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
在讨论图像、视频生成模型时,人们的焦点更多地集中在模型所采用的架构,比如大名鼎鼎的 DiT。但其实,tokenizer 也是非常重要的组件。
机器之心
2025/02/14
1480
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
我们今天总结下2024年5月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展,包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题。
deephub
2024/06/03
4400
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍
为了解决这些问题,来自高德地图的研究者提出了统一自监督预训练(USP, Unified Self-Supervised Pretraining),该方法通过在变分自编码器(VAE)的潜在空间中进行潜在掩码建模(Masked Latent Modeling)预训练,预训练得到的 ViT 编码器等权重可以无缝迁移到下游任务,包括图像分类、语义分割以及基于扩散模型的图像生成。
机器之心
2025/03/17
960
统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍
骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM
MobileVLM 是一款专为移动设备设计的快速、强大和开放的视觉语言助手。它结合了面向移动设备的架构设计和技术,包括从头开始训练的 1.4B 和 2.7B 参数的语言模型、以 CLIP 方式预训练的多模态视觉模型,以及通过投影实现的高效跨模态交互。在各种视觉语言基准测试中,MobileVLM 的性能可媲美大型模型。此外,它还在高通骁龙 888 CPU 和英伟达 Jeston Orin GPU 上展示了最快的推理速度。
机器之心
2024/01/04
4490
骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM
每周AI论文速递(241202-241206)
尽管视觉-语言-动作 (VLA) 模型在多种机器人任务中取得了进展,但其泛化能力受限,主要因完全依赖成功轨迹的行为克隆。此外,这些模型常针对不同设置下的专家演示进行微调,导致分布偏差,限制了其对多样化操作目标(如效率、安全性和任务完成度)的适应性。为此,我们提出 GRAPE: 通过偏好对齐泛化机器人策略。具体来说,GRAPE 在轨迹层面对齐 VLA,并从成功与失败试验中隐式建模奖励,以提升对多样化任务的泛化能力。同时,GRAPE 将复杂任务分解为独立阶段,并通过大型视觉-语言模型提出的关键点,利用定制时空约束自动引导偏好建模。这些约束灵活,可根据不同目标(如安全性、效率或任务成功)进行定制。我们在真实与模拟环境中广泛评估 GRAPE。实验显示,GRAPE 显著提升最先进 VLA 模型的性能,领域内与未见任务的成功率分别提高 51.79% 和 60.36%。此外,GRAPE 可与多种目标对齐,如安全性与效率,分别降低碰撞率 44.31% 和轨迹步长 11.15%。所有代码、模型及数据均可在 https://grape-vla.github.io/ 获取。
叶子的技术碎碎念
2025/04/08
760
每周AI论文速递(241202-241206)
每周AI论文速递(240729-240802)
https://github.com/careywyr/AI-Weekly-Paper
叶子的技术碎碎念
2025/04/08
760
每周AI论文速递(240729-240802)
英伟达 & MIT 提出 LongVILA ,从 8 帧到 1024 帧 如何实现长视频理解的飞跃 ?
将多个模态理解的集成与长序列能力的集成非常重要。支持更多模态的基础模型可以接受更灵活的输入信号,使人们可以以更多样化的方式与模型进行交互,例如类似 GPT-40 式的多模态聊天机器人,多模态网页代理(Koh 等人,2024年)和现实世界机器人基础模型(Brohan 等人,2022年、2023年;Padalkar 等人,2023年)。更长的上下文允许模型处理更多信息,例如更长的文档,仓库 Level 的代码库和小时的视频,这同样提供了现实世界应用所要求的功能。
AIGC 先锋科技
2024/08/27
5510
英伟达 & MIT 提出 LongVILA ,从 8 帧到 1024 帧 如何实现长视频理解的飞跃 ?
英伟达市值蒸发近6000亿美元,而DeepSeek刚刚又开源新模型
龙年即将结束,但有些股民可能无心过春节了。受低成本推理模型 DeepSeek-R1 热潮影响,美股昨日开盘后迎来重挫。
机器之心
2025/02/03
1660
英伟达市值蒸发近6000亿美元,而DeepSeek刚刚又开源新模型
每周AI论文速递(250407-250411)
虽然大型视觉语言模型 (VLMs) 具备卓越性能,但其计算资源需求过高,限制了这类模型在移动和边缘设备上的部署。传统小型 VLMs 通常沿用大型模型的设计方案(例如复杂的图像 Token 化处理),导致 GPU 内存利用率低下,难以满足终端设备的实际应用需求。
叶子的技术碎碎念
2025/04/13
1120
每周AI论文速递(250407-250411)
每周AI论文速递(240401-240405)
我们推出了 Jamba,这是一种基于创新的混合 Transformer-Mamba 混合专家 (MoE) 架构的大型基础语言模型。Jamba 特别地将 Transformer 和 Mamba 层交替布置,兼顾了这两种模型体系的优势。在部分层中融入了 MoE 技术,以扩大模型容量,同时确保参数的活跃使用保持在可控范围内。这种灵活的架构支持针对特定资源和目标的配置。在我们实施的特定配置中,成功构建了一个强大的模型,该模型能够在单个 80GB GPU 上运行。Jamba 在大规模构建时,相比传统 Transformer,提供了更高的吞吐量和更小的内存占用,并在标准语言模型基准测试和长文本评估中展现了卓越性能。值得一提的是,该模型在长达 256K token 的上下文中显示出了强劲的性能。我们对如何结合 Transformer 和 Mamba 层,以及如何混合不同的专家进行了深入研究,并发现其中某些决策对大规模建模至关重要。我们还发现了 Jamba 在训练和评估过程中展现出的几个有趣特性,并计划发布不同消融测试的检查点,以促进对这种新型架构的进一步探索。我们将 Jamba 实现的权重以宽松的许可证形式公开提供。
叶子的技术碎碎念
2025/04/08
750
每周AI论文速递(240401-240405)
一句话一张图秒变3D动画,4K级超清画质!英伟达祭出新作,游戏生成世界成真
不满足于只是自己在纸上照着自己的想法去写写画画,但是又没精力去学习专业的3D建模技能,怎么破?
新智元
2025/02/15
1590
一句话一张图秒变3D动画,4K级超清画质!英伟达祭出新作,游戏生成世界成真
BLIP3-o:一系列完全开源的统一多模态模型——开源架构、训练与数据集
在近期关于多模态模型的研究中,将图像理解与生成统一起来受到了越来越多的关注。尽管图像理解的设计选择已经得到了广泛研究,但对于具有图像生成功能的统一框架而言,其最优模型架构和训练方案仍有待进一步探索。鉴于自回归和扩散模型在高质量生成和可扩展性方面具有强大潜力,我们对它们在统一多模态环境中的使用进行了全面研究,重点关注图像表示、建模目标和训练策略。基于这些研究,我们提出了一种新方法,该方法采用扩散Transformer生成语义丰富的CLIP图像特征,这与传统的基于VAE的表示方法不同。这种设计既提高了训练效率,又提升了生成质量。此外,我们证明了统一模型的顺序预训练策略——先进行图像理解训练,再进行图像生成训练——具有实际优势,能够在发展强大的图像生成能力的同时,保持图像理解能力。最后,我们通过使用涵盖各种场景、物体、人体姿态等的多样化字幕提示GPT-4o,精心策划了一个高质量的指令调优数据集BLIP3o-60k,用于图像生成。基于我们创新的模型设计、训练方案和数据集,我们开发了BLIP3-o,这是一套最先进的统一多模态模型。BLIP3-o在大多数涵盖图像理解和生成任务的流行基准测试中均取得了优异表现。为促进未来的研究,我们完全开源了我们的模型,包括代码、模型权重、训练脚本以及预训练和指令调优数据集。
AI浩
2025/05/25
2020
BLIP3-o:一系列完全开源的统一多模态模型——开源架构、训练与数据集
推荐阅读
一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成
1230
rebuttal真的有用!这篇ICLR论文,所有审稿人都加了2分,直接跃升排名第9
960
终于等来能塞进手机的文生图模型!十分之一体量,SnapGen实现百分百的效果
940
85倍速度碾压:苹果开源FastVLM,能在iphone直接运行的视觉语言模型
2270
基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了
2620
拳打开源SOTA脚踢商业闭源的LI-DiT是怎样炼成的?(商汤/MMLab/上海AI Lab)
2680
视觉语言模型导论:这篇论文能成为你进军VLM的第一步
8250
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
1150
英伟达开源福利:视频生成、机器人都能用的SOTA tokenizer
1480
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
4400
统一自监督预训练!视觉模型权重无缝迁移下游任务,SiT收敛提速近47倍
960
骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM
4490
每周AI论文速递(241202-241206)
760
每周AI论文速递(240729-240802)
760
英伟达 & MIT 提出 LongVILA ,从 8 帧到 1024 帧 如何实现长视频理解的飞跃 ?
5510
英伟达市值蒸发近6000亿美元,而DeepSeek刚刚又开源新模型
1660
每周AI论文速递(250407-250411)
1120
每周AI论文速递(240401-240405)
750
一句话一张图秒变3D动画,4K级超清画质!英伟达祭出新作,游戏生成世界成真
1590
BLIP3-o:一系列完全开源的统一多模态模型——开源架构、训练与数据集
2020
相关推荐
一秒十图!英伟达MIT联手刷新SOTA,一步扩散解锁实时高质量可控图像生成
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档