前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ClassDiffusion: 使用显式类别引导的一致性个性化生成

ClassDiffusion: 使用显式类别引导的一致性个性化生成

作者头像
CV君
发布2024-06-17 13:55:26
510
发布2024-06-17 13:55:26
举报

本篇分享论文ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance,由北交&字节联合提出 ClassDiffusion: 使用显式类别引导的一致性个性化生成。

详细信息如下:

  • 文章主页: https://classdiffusion.github.io/
  • 论文地址: https://arxiv.org/abs/2405.17532v1
  • 代码地址: https://github.com/Rbrq03/ClassDiffusion

研究背景

个性化生成领域最近取得了飞速的发展, 但微调引入的过拟合导致模型无法生成与提示词一致的结果, 本文通过两个重要观察及理论分析提出了新的观点:一致性的损失是个性化概念语义偏移导致的, 并据此提出了一个简单有效的方法ClassDiffusion来提升个性化生成的一致性。文章还引入了BLIP2-T 来为个性化生成领域提供更公平有效的指标。

实验观察

文章对之前方法微调后的模型进行了两个观测:

  1. 对文本空间进行观测, 发现个性化概念的语义(e.g. “a photo of a sks dog”)离类别分布中心(e.g. “a photo of a dog”)的距离增大了。
  2. 发现随着优化步数和学习率的增加, 类别token的交叉注意力层激活程度呈现明显的下降趋势。

因此文章提出了一个理论: 一致性的缺失是由于个性化概念的语义偏移导致的。

理论分析

由EBM[1]的结论可以得出:

其中

c_{class}

为类别对应条件,

p(c_i \mid x)

为模型隐式分类器, 将

\Pi_{i \in T}{ p(c_i)p(x \mid c_i)\over p(x)}

,

p(c_{class} \mid x)

,

p(x \mid c_1,c_2,\cdots,c_i)

分别记为d(x),q(x),a(x). 条件概率a(x)的熵可以被计算为:

微调前后熵的变化可以被计算为:

结合文章的实验观测和概率论的性质, 有:

熵的降低导致了在

c_{class},c_1,c_2,\cdots,c_i

条件下进行采样的难度增加, 从而导致了一致性的降低。

方法介绍

ClassDiffusion引入了一个全新的损失函数Semantic Preservation Loss(SPL), 旨在缩小个性化概念与文本空间中超类分布中心之间的语义差距。用

E_{SC}

分别表示个性化短语和类短语的 CLIP 编码器输出的嵌入,语义保留损失可以用下式表示:

实验结果

ClassDiffusion可以生成比现有方法更好一致性的结果:

量化对在沿用了当前工作使用的CLIP-T, CLIP-I, DINO-I指标外, 还引入了BLIP2-T以获得更公平有效的评价, 结果表明ClassDiffusion在与提示词的一致性上优于现有方法。

结论

文章通过实验观察和理论分析提供了对一致性损失解释的新理论, 并提出了ClassDiffusion以解决这个问题。同时文章将BLIP2-T引入以提供更公平有效的评测。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 我爱计算机视觉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 研究背景
  • 实验观察
  • 理论分析
  • 方法介绍
  • 实验结果
  • 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档