作者:Tiezheng Zhang等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2507.07104 项目链接:https://tiezheng11.github.io/VLV-WebPage/
亮点直击
VLV 与 GPT-4o 的描述性保真度相当,成本低三个数量级
本节介绍本文提出的流程,该流程采用视觉-语言-视觉(VLV)自编码从图像中蒸馏高保真语义信息,并随后通过多模态语言模型将这些语义解码为描述性描述。首先概述流程架构,接着描述如何利用预训练扩散模型将图像编码为紧凑的连续语义嵌入,从而消除训练期间对显式图像-文本对的需求。最后详细说明如何通过与预训练大型语言模型(LLM)对齐,将这些嵌入解码为自然语言描述。
方法概览
VLV旨在通过预训练的T2I扩散模型从图像中提取高保真语义信息。先前类似工作直接使用CLIP的离散文本标记作为隐空间表示,并通过Gumbel-Softmax进行优化,导致训练效率低下且缺乏细粒度语义细节。相比之下,采用连续嵌入空间进行训练,以获得更好的收敛性、稳定性和效率,并将嵌入解码为离散语言标记(类似于多模态LLM),根据图像的编码视觉嵌入生成文本标记。
VLV编码器直接从图像中提取连续描述嵌入。训练是完全自监督的:冻结的文本到图像扩散模型作为解码器,从描述嵌入中重建图像。由于扩散模型固定,编码器必须嵌入所有必要信息以实现忠实重建,从而将扩散模型的丰富视觉知识蒸馏到轻量级视觉主干中,同时无需配对图像-文本数据。接着微调VLV编码器与基于LLM的解码器,将其映射为自然语言描述。由于VLV编码器获得的描述嵌入紧凑且仅编码隐式语义,我们利用预训练LLM将其解码为描述性图像描述。LLM的自回归架构及其丰富语言知识使其能够生成长度灵活、自然连贯的句子。该对齐过程使用配对图像-文本数据。
遵循自监督学习框架,本阶段采用对称自编码架构,以隐空间标记为信息瓶颈进行编码和解码。给定图像,视觉主干生成视觉标记。通过线性投影和LayerNorm将其映射为。这些标记与个虚拟提示嵌入拼接,形成,再由多模态Transformer编码器转换为上下文状态。由于此阶段无描述监督,我们在Transformer解码器端注入个可学习查询标记;通过与的交叉注意力得到。轻量级MLP 将这些状态投影到扩散模型中冻结CLIP文本编码器的通道维度,生成描述嵌入。
文本到图像扩散模型保持冻结,接收作为条件并仅间接优化。具体而言,给定隐空间表示及其噪声版本,冻结的U-Net预测噪声;编码器参数通过标准去噪损失更新:
自编码架构迫使视觉编码器将所有重建所需信息蒸馏到紧凑的描述嵌入中。视觉编码器无需图像-文本配对数据,而是通过预训练的T2I扩散解码器(包含丰富的跨模态知识)学习逆向I2T映射过程。与离散文本标记和Gumbel-Softmax不同,我们采用隐式连续嵌入作为隐空间表示,以紧凑方式保留细致语义信息且不损失保真度。第一阶段的高保真编码为第二阶段的高质量理解和描述生成奠定基础,最终实现精确重建。
本阶段目标是将中间表示解码为可读的高质量描述。先前结构设计采用固定长度词标记,与图像语义复杂度的固有差异矛盾(例如苹果图片与大城市图片的语义复杂度不同)。这种设定限制了图像编码的有效性和灵活性,导致重建潜力丧失。为此,本文提出基于LLM的VLV描述解码器,可从紧凑语义嵌入中解码长度灵活的自然语言描述。
本文利用图像-文本对训练VLV编码器和LLM解码器。首先通过VLV编码器获取描述嵌入。由于处于CLIP文本嵌入空间,我们将其输入冻结的CLIP文本编码器,得到上下文表示。轻量级可训练MLP 将这些向量投影到因果语言模型的隐藏尺寸:。
在图像-文本对训练期间,投影向量被预置到描述的常规词嵌入前,形成输入序列。通过屏蔽对应的位置,仅对真实词计算自回归损失:
其中可训练参数仅包含编码器、投影头和语言模型;CLIP文本编码器保持冻结。推理时计算流程为,将投影向量(不含任何文本标记)输入语言模型自回归生成描述。该阶段仅通过轻量级投影头连接视觉语义与自然语言,同时微调和并冻结。此设计使得紧凑隐空间嵌入可灵活解码为任意长度的人类可读描述,同时保留细粒度图像语义。如下表4所示,渐进式训练-推理策略实现了卓越性能。
本节首先描述VLV两阶段的实验设置,随后报告文本到图像生成、描述质量人工评估和视觉问答基准的定量结果。最后呈现两项消融研究:(i) 可训练参数研究,探讨信息瓶颈中可学习查询数量与渐进解冻策略对描述解码器训练的影响;(ii) 训练数据规模与解码器模型尺寸的扩展性分析。
数据收集:从LAION-5B子集LAION-2B-en-aesthetic中筛选40M图像,保留短边>512像素、宽高比0.5-2、水印概率<0.5的样本用于无文本监督的VLV自编码器训练。另使用Gemini-2.0 Flash为6M图像生成描述,构建对齐图像-文本对以微调轻量级语言解码器。尽管仅使用WebLI数据集0.4%的样本(40M/100亿),我们的方法仍通过视觉-语言-视觉自编码流程学习到强语言导向语义。
训练细节:VLV自编码器的图像编码器部分采用Florence-2预训练权重初始化,个可学习查询随机初始化。使用AdamW优化器(),权重衰减0.01,在8块RTXTM 6000 Ada GPU上训练20万步(batch size=512,约4天)。学习率初始5e-5并按余弦调度衰减。LLM解码器基于Qwen-2.5预训练模型初始化,训练10万步(batch size=64),学习率1e-5线性衰减。自编码器训练使用FP32确保稳定性,LLM解码器训练采用BF16。
通过将生成描述输入Stable Diffusion 3.5 Medium,在MS-COCO 2014验证集的30K样本上计算合成图像与原始图像的FID。如下表1所示,我们的描述FID与GPT-4o差异<0.5,显著优于Florence-2和Qwen2.5-VL,仅略低于闭源Gemini 2.0 Flash。下图3展示了由描述嵌入与解码描述生成图像的定性结果,验证了嵌入的保真度。
基于覆盖度、无幻觉和空间布局一致性三项标准(附录7分量表),对MS-COCO 2014验证集200张图像的描述(Qwen-2.5 VL、GPT-4o、VLV生成)进行评测。每对图像-描述由Gemini 2.0 Flash和3位人类评分者独立打分。如下表2所示,VLV与GPT-4o分差<0.05,平均超越Qwen-2.5-VL-7B 0.15分,且获1/3人类评分者偏好,证实了其媲美商业VLM的人类级表现。
将描述作为图像上下文输入LLM提示,在VQAv2和OK-VQA验证集上评估。如下表3所示,零样本设置下VLV落后最佳基线约3%,但通过4样本和32样本上下文学习显著提升(VQAv2提升5%,OK-VQA提升15%),最终与最优结果差距<1%。尽管非全场景最优,VLV以更低成本实现可比性能,凸显其扩展性优势。
可训练参数分析:信息瓶颈中可学习查询数量与渐进解冻策略对解码器性能的影响如图4所示,77查询配合分层解冻达到最佳权衡。 扩展性验证:训练数据从6M增至40M时,VQA准确率提升12%;解码器参数量从1B扩至7B进一步带来9%增益(下图5),证实框架的强扩展潜力。
本节进行两项互补的消融研究:(1) 可训练参数分析。通过以下方式探究可训练参数的影响:(i) 训练VLV自动编码器时改变可学习查询的维度,(ii) 训练LLM解码器时选择性解冻VLV编码器的各个模块。(2) 可扩展性分析。通过以下方式测试性能扩展性:(i) 将训练数据规模从6M逐步扩展到18M和40M图像,(ii) 将自回归描述解码器的参数量从0.5B增加到1.5B和3B。
渐进式训练带来更好性能。本文通过不同可训练参数设置训练VLV,以探索性能与训练成本之间的权衡。Stable Diffusion 2.1的CLIP文本编码器最多接受77个token,默认使用全部预算()。本文将可学习查询数量减半至,通过从生成的描述嵌入重建MS-COCO 2017测试图像并报告FID来评估影响。在第二阶段训练中,逐步解冻模块,首先解冻MLP,然后是LLM解码器,最后是VLV编码器,以观察优化额外参数的效果。前面表4显示,随着可训练权重的增加,重建FID和描述质量逐步提升,明确了性能与训练成本之间的权衡。
VLV的可扩展性。在训练VLV自动编码器时,在模型处理6M和18M图像后保存中间检查点。为评估可扩展性,每个检查点用于提取MS-COCO 2014验证集30K图像的描述嵌入。将这些嵌入输入冻结的扩散解码器以重建图像,结果FID分数如下表5所示。进一步通过将Qwen-2.5 3B描述解码器替换为1.5B和0.5B变体(其他组件固定)来探究模型容量。两种情况中,FID均随数据量或解码器规模减小而平滑下降,证实VLV可从更多训练图像和更大语言解码器中获得可预测的收益。
除丰富细节外,本文发现嵌入还具有可扩展的空间感知能力。训练过程中,随着扩散解码器接触更多图像,模型逐步优化其空间先验。为量化此效应,使用Gemini 2.0 Flash恢复原始图像中主要物体的3D边界框,并与从描述嵌入重建的边界框进行比较。下表6显示姿态估计误差持续降低,下图4示例表明VLV不仅能更准确捕捉单个物体的姿态,还能更好保持其空间关系。这些结果证明VLV有效将更大训练图像集转化为更清晰的空间理解,如前面图5所示。
VLV语义表示空间展现出跨多图像的强组合特性,如图6所示。最左侧示例中,从两张图像出发:
通过截断每个描述嵌入的尾部token并拼接结果向量,创建联合嵌入输入Stable Diffusion 2.1。合成输出既保留了猫的空间布局,又继承了梵高风格,表明我们的嵌入同时编码了内容(如物体身份与位置)和风格(如艺术渲染)。值得注意的是,这种组合行为无需额外微调或依赖文本提示即可涌现。更多风格迁移示例如卡通和迪士尼风格的柴犬、试穿场景(如戴墨镜的男子或穿连帽衫的男子),以及简单物体组合(如坐在富士山前的柴犬与帽子上的墨镜)。
Vision-Language-Vision(VLV)自动编码器,这是一种从开源预训练文本条件扩散模型中蒸馏可扩展高效知识的新框架。通过策略性设计的二阶段训练流程,VLV将冻结扩散解码器的语义丰富表征蒸馏为紧凑连续的嵌入,随后利用开源预训练大语言模型将这些嵌入转化为详细自然语言描述。实验表明,VLV在描述性能上达到与GPT-4o和Gemini 2.0 Flash等领先模型相当的先进水平,同时显著降低训练成本与数据需求。值得注意的是,本方法主要使用单模态图像,将训练开支控制在1,000美元以内,极大提升了可及性。此外,探索了框架的涌现特性,突出其强空间一致性与高级组合泛化能力。相信VLV的效率、有效性和可解释性将为可扩展且经济高效的多模态学习研究开辟新途径。
局限性与未来工作。由于训练数据经过美学评分过滤,VLV在OCR(光学字符识别)任务上表现较差(缺乏含文本或水印的数据);通过增补文档/街景图像或添加轻量OCR分支可提升OCR场景性能。另一局限是当前流程使用过时的Stable Diffusion 2.1作为生成解码器,限制了可迁移知识的上界,因此从SD 3.5或FLUX等最新扩散模型重新蒸馏是后续工作。此外,将VLV扩展至视频模态也值得探索,因为视频能提供更多动态信息,可能涌现更强的空间表征及基于物理的世界语义理解能力。
[1] Vision-Language-Vision Auto-Encoder: Scalable Knowledge Distillation from Diffusion Models
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。