作者:Jinxi Liu等
解读:AI生成未来
文章链接:https://arxiv.org/pdf/2508.04559 项目链接:https://onemodelforall.github.io/
亮点直击
与试用方法的比较
扩散模型是一类生成模型,通过学习逆转前向扩散过程来生成数据,在该过程中噪声被逐步添加到数据中。模型被训练用于对变量进行去噪,通常从纯高斯噪声开始,直到生成干净的数据样本。为了在生成高分辨率图像的同时降低计算复杂度,隐空间扩散模型(LDM)在预训练自编码器的压缩隐空间中运行。一个典型例子是Stable Diffusion,它使用网络来预测隐空间中的噪声。该过程以时间步和条件(如文本嵌入)为条件,并通过交叉注意力层集成到UNet中。模型通过优化以下目标进行训练:
无分类器引导是一种广泛使用的采样技术,它能在不需要额外分类器的情况下增强条件扩散模型对图像生成的控制。该方法要求扩散模型同时在条件输入和无条件输入上进行训练。在推理步骤中,CFG通过线性组合条件噪声预测和无条件噪声预测来控制条件的强度。这种引导噪声估计使用引导尺度计算如下:
为了实现组件级控制并提高生成效率,定义了一个部分扩散过程,该过程仅对联合输入(由人物图像、服装和面部组成)的选定组件施加噪声和去噪。设表示联合输入的隐空间表示,为二元掩码,指示哪些组件(如服装或人物图像)应进行扩散。
在扩散时间步,构建部分噪声隐空间表示如下:
其中是标准的加噪隐空间表示,且。
在训练过程中,模型学习仅预测扩散组件的噪声。训练目标定义为:
其中是噪声预测网络,是条件输入。未被选择进行扩散的组件在整个过程中保持固定,从而实现可控且任务特定的生成。
如下图2所示,本文提出的OMFA框架同时支持试穿流程和试脱流程,能够从源人物移除服装并转移到目标人物。为了实现高保真度的纹理保留,先前的研究引入了额外的ReferenceNet来提取服装特征。
然而,这种方法——主UNet提取人物特征而ReferenceNet提取服装特征,随后通过注意力机制注入特征——存在固有的冗余性。相比之下,本文在空间维度上拼接人物图像、服装图像和头部图像的多个条件,并在单个UNet中进行处理。引导的SMPL-X姿态图像和人物图像都通过VAE编码器编码到隐空间,然后由于它们在空间上对齐而进行拼接。
其中和分别表示沿通道维度和空间维度的拼接操作。
然后将公式3中的部分噪声添加到隐空间表示上:
其中和分别表示人物图像和服装图像的掩码。在推理过程中,扩散步骤重复次以预测输出隐空间表示。
然后,在空间维度上沿宽度分割输出隐空间表示,并使用VAE解码器对分割后的隐空间表示进行变换,以获得相应的着装人物或服装。
为了在生成过程中引入明确且可控的人体几何信息,提出了一种基于SMPL-X的结构条件化机制,其中引导图像被用作结构表示。SMPL-X模型是一个低维度参数化人体模型,它联合使用形状参数和姿态参数来生成具有个顶点的3D人体网格。
为了获取人物图像的3D信息,采用现有框架4D-Humans从人物图像回归形状和姿态参数,并用它们构建3D人体网格。然后,我们应用预测的相机参数将网格渲染为RGB图像。使用相机投影函数,渲染过程表述为:
在去噪过程中,将隐空间表示与人物隐空间表示沿通道维度拼接。使用SMPL-X模型的一个关键优势是其对姿态和体形的解耦表示,这使得在保持体形的同时实现姿态迁移的试穿成为可能。通过固定形状参数并仅编辑姿态参数,我们能够渲染姿态图作为条件输入来指导试穿,而无需额外的模板图像。
数据集。本文在两个公开可用的时尚数据集上训练和评估本文的模型:VITON-HD和DeepFashion-MultiModal数据集。VITON-HD包含13,679张正面半身模特图像及对应上装图像,其中11,647张用于训练,2,032张用于测试。DeepFashion-MultiModal数据集的每个样本不仅包含人物和服装图像,还包含两幅不同姿态的目标图像。我们选择约40,000个样本用于训练,1,100个样本用于测试。为准备输入数据,我们采用SCHP获取不同身体区域的语义分割图。
实现细节。实验中,通过继承Stable Diffusion XL的预训练权重来初始化模型,并使用AdamW优化器对去噪UNet的参数进行微调,设置,。模型在4块NVIDIA A800 GPU上以768×1024分辨率训练65,000步,批量大小为8,学习率为。为实现无分类器引导并保持生成多样性,我们以0.05概率随机丢弃每个条件参考特征。推理阶段采用DDIM采样器,设置50个扩散步,引导尺度为2.0。
对比方法。针对试穿任务,与七种先进方法比较:LADIVTON、StableGarment、StableVTON、OOTDiffusion、IDM-VTON、CatVTON和MV-VTON。在模板服装不可得的现实假设下,通过以下方式适配这些方法的输入流程:(1)使用分割后的服装图像,或(2)直接利用着装人物图像。针对多姿态试穿任务,与基线方法IDM-VTON比较。针对试脱任务,与两种最新方法对比:TryoffDiff和TryoffAnyone。实验采用官方仓库提供的预训练检查点进行比较。
评估指标。对于配对设置,采用四种广泛使用的指标评估合成图像与真实图像的相似性:SSIM、LPIPS、FID和KID。对于非配对设置,除计算FID和KID外,还计算分割服装区域与参考服装间的CLIP-I和DINO相似度以评估服装级语义一致性。为与基于掩码的方法公平比较,本方法采用不可知图保持未编辑区域不变(类似CatVTON)。此外,给定人物和服装图像,使用GPT-4o-mini对试穿结果进行0-10分的综合评分。针对服装生成任务,额外报告DISTS——一种衡量生成服装图像与真实图像间结构和纹理保真度的感知相似性指标。
人物到人物虚拟试穿。下表1展示了在VITON-HD数据集上的虚拟试穿结果。在配对设置中,本文的方法取得了可比的整体指标。虽然某些基线方法报告了略高的SSIM分数,但这可以归因于输入变形服装已与目标良好对齐,使模型更容易保持真实的服装外观。得益于重建服装的能力,本文的方法在更具挑战性的非配对试穿设置中表现显著更好,特别是在CLIP-I和DINO相似性方面。下图3展示了本文方法与多种先进方法在VITON-HD数据集上的定性比较,突出了其在人物到人物试穿场景中的明显优势。现有方法在服装遮挡、变形或姿态错位情况下缺乏有效泛化能力,常导致纹理丢失、伪影或轮廓失真。相比之下,无掩码且统一的试脱-试穿框架能够生成高保真结果。
多姿态虚拟试穿。进一步探索多姿态试穿任务。下表2显示OMFA在所有指标上均超越基线方法,证实了其对姿态和视角变化的灵活性。如下图5所示,IDM-VTON生成图像的姿态主要由未掩码区域决定,不一致的姿态输入会导致错误的服装变形。相比之下,本文的无掩码方法在生成过程中利用3D人体表示,实现了更灵活的姿势迁移和尺寸感知的服装适配。
下表3展示了虚拟试脱的定量比较。本文的方法在所有五个指标上均优于先进方法,在细节保留、结构与纹理一致性以及语义对齐方面显示出显著优势。下图4展示了本文方法与其他试脱方法在VITON-HD数据集上的服装重建结果对比。具体而言,TryOffDiff往往仅捕获服装的粗粒度结构和颜色,无法恢复图案的细粒度细节。虽然TryOffAnyone能够处理复杂不规则图案,但仍存在文本元素模糊或缺失的问题。相比之下,本文的方法在细节保留方面展现出明显且一致的优势,特别是在文本轮廓和图案边界的清晰度上。
本文通过消融实验验证所提出的部分扩散机制和统一生成策略在人物到人物试穿场景中对试穿/试脱任务的有效性。在基线设置中,本文按照IDM-VTON训练并行UNet,该方法使用ReferenceNet编码服装图像并将服装特征注入去噪UNet。如下图6所示,当使用变形服装作为输入时,该方法常导致纹理丢失和服装结构不准确。随后我们用单个UNet替代ReferenceNet,并采用提出的部分扩散机制处理空间联合输入,有效提升了性能并降低了计算成本。最终,使用单一UNet统一试穿和试脱任务(标记为"One Model For All"),实现了更清晰的纹理恢复和更完整的服装轮廓。下表4的定量结果进一步验证了所提方法的有效性。
OMFA——一个基于扩散的虚拟试穿/试脱统一框架,克服了现有方法对服装模板、分割掩码和固定姿态的依赖等关键限制。OMFA引入了新颖的部分扩散机制,通过细粒度子任务控制实现高效的服装-人物双向转换。该框架完全无需掩码,仅需单张肖像和目标姿态,具有实际应用价值。结合基于SMPL-X的姿态条件,OMFA能够从单张图像实现灵活的多视角试穿。大量实验证实了其在两项任务中的有效性和泛化能力。
[1] One Model For All: Partial Diffusion for Unified Try-On and Try-Off in Any Pose
如果您觉得这篇文章对你有帮助或启发,请不吝点赞、在看、转发,让更多人受益。