前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Multimodal UnsupervisedImage-to-Image Translation

Multimodal UnsupervisedImage-to-Image Translation

作者头像
狼啸风云
发布2023-10-07 16:05:55
2560
发布2023-10-07 16:05:55
举报
文章被收录于专栏:计算机视觉理论及其实现

摘要

 无监督图像到图像的翻译是计算机视觉中一个重要且具有挑战性的问题。给定源域中的图像,目标是学习目标域中相应图像的条件分布,而不需要看到任何相应图像对的示例。虽然这种条件分布本质上是多模式的,但现有的方法过于简化了假设,将其建模为确定性的一对一映射。因此,它们无法从给定的源域图像生成不同的输出。为了解决这一限制,我们提出了一种多模式无监督图像到图像翻译(MUNIT)框架。我们假设图像表示可以分解为域不变的内容代码和捕获域特定属性的样式编码。为了将图像翻译到另一个域,我们将其内容编码与从目标域的样式空间采样的随机样式代码重新组合。我们分析了所提出的框架,并建立了几个理论结果。与最先进的方法进行比较的大量实验进一步证明了所提出的框架的优势。此外,我们的框架允许用户通过提供示例风格图像来控制翻译输出的风格。

1、介绍

 计算机视觉中的许多问题旨在将图像从一个领域转换到另一个领域,包括超分辨率、着色、修复、属性转移和风格转移。因此,这种跨域图像到图像的翻译设置受到了极大的关注。当数据集包含成对的例子时,可以通过条件生成模型或简单回归模型来解决这个问题。在这项工作中,当无法进行此类监督时,我们将重点放在更具挑战性的环境上。

 在许多场景中,感兴趣的跨域映射是多模式的。例如,由于天气、时间、照明等原因,冬季场景在夏季可能会有许多可能的外观。不幸的是,现有技术通常采用确定性或单峰映射。因此,它们未能捕捉到可能输出的全部分布。即使模型通过注入噪声而变得随机,网络通常也会学会忽略它。

 在本文中,我们提出了一个多模式无监督图像到图像翻译(MUNIT)问题的原则框架。如图1(a)所示,我们的框架做出了几个假设。我们首先假设图像的潜在空间可以分解为内容空间和风格空间。我们进一步假设,不同领域中的图像共享一个共同的内容空间,但不共享风格空间。为了将图像翻译到目标域,我们将其内容编码与目标风格空间中的随机风格编码重新组合(图第1(b)段)。内容编码对翻译过程中应保留的信息进行编码,而样式编码表示输入图像中未包含的其余变体。通过对不同风格的编码进行采样,我们的模型能够产生多样化的多模式输出。大量实验证明了我们的方法在建模多模式输出分布方面的有效性,以及与最先进的方法相比其优越的图像质量。此外,内容和风格空间的分解允许我们的框架执行示例引导的图像翻译,其中翻译输出的风格由目标域中用户提供的示例图像控制。

2、相关工作

 生成对抗性网络(GANs):GAN框架在图像生成方面取得了令人印象深刻的成果。在GAN训练中,生成器被训练来欺骗鉴别器,鉴别器反过来试图区分生成的样本和真实样本。已经提出了对GANs的各种改进,例如多阶段生成、更好的训练目标以及与自动编码器的组合。在这项工作中,我们使用GANs来将翻译图像的分布与目标域中的真实图像对齐。

 图像到图像的翻译:Isola等人提出了第一个基于条件GANs的图像到图像翻译的统一框架,Wang等人将其扩展到生成高分辨率图像。最近的研究也试图在没有监督的情况下学习图像翻译。这个问题本质上是不适定的,需要额外的约束。一些工作强制翻译以保留源域数据的某些属性,如像素值、像素梯度、语义特征、类标签或成对样本距离。另一个流行的约束是循环一致性损失。它强制要求,如果我们将图像转换到目标域并返回,我们应该获得原始图像。此外,刘等人提出了UNIT框架,该框架假设了一个共享的潜在空间,使得两个域中的相应图像被映射到相同的潜在代码。

 大多数现有的图像到图像翻译方法的一个显著限制是翻译输出缺乏多样性。为了解决这个问题,一些工作建议在给定相同输入的情况下同时生成多个输出,并鼓励它们不同。尽管如此,这些方法只能生成离散数量的输出。朱等人提出了一种可以对连续和多模式分布进行建模的BicycleGAN。然而,上述所有方法都需要成对监督,而我们的方法则不需要。一些同时进行的工作也认识到了这一局限性,并提出了CycleGAN/UNIT对多模式映射的扩展。

 我们的问题与多域图像到图像的翻译有一些联系。具体来说,当我们知道每个域有多少模式以及每个样本所属的模式时,可以将每个模式视为一个单独的域,并使用多域图像到图像的翻译技术来学习每对模式之间的映射,从而实现多模式翻译。然而,一般来说,我们不认为有此类信息。此外,我们的随机模型可以表示连续的输出分布,而[19,49,50]仍然对每对域使用确定性模型。

 风格转换:风格转换的目的是在保留图像内容的同时修改图像的风格,这与图像到图像的翻译密切相关。在这里,我们对示例引导风格转移和集合风格转移进行了区分,前者的目标风格来自单个示例,后者的目标风格由图像集合定义。经典的风格转换方法通常解决前者的问题,而图像到图像的翻译方法已被证明在后者中表现良好。我们将展示我们的模型能够解决这两个问题,这要归功于它对内容和风格的清晰表达。

 学习解开纠缠的表征:我们的工作从最近关于解开表象学习的作品中获得了灵感。例如,InfoGAN和β-VAE被提出在没有监督的情况下学习解纠缠的表示。其他一些作品专注于将内容与风格区分开来。尽管很难定义内容/风格,不同的作品使用不同的定义,但我们将“内容”称为底层空间结构,将“风格”称为结构的渲染。在我们的环境中,我们有两个域,它们共享相同的内容分布,但具有不同的风格分布。

3、多模型图像到图像的翻译

3.1、假设

 设

是来自两个不同图像域的图像。在无监督的图像到图像转换设置中,我们得到了从两个边缘分布

中提取的样本,而不访问联合分布

。我们的目标是用学习的图像到图像翻译模型

来估计两个条件条件

,其中

是通过将

翻译成

产生的样本(类似于

) 。通常,

是复杂的多模式分布,在这种情况下,确定性翻译模型不能很好地工作。

 为了解决这个问题,我们提出了一个部分共享的潜在空间假设。具体而言,我们假设每个图像

是由两个域共享的内容潜代码

和特定于单个域的风格潜代码

生成的。换句话说,来自联合分布的一对对应图像

生成,其中

来自一些先前分布,

是基础生成器。我们进一步假设

是确定性函数,并且具有它们的逆编码器

。我们的目标是通过神经网络学习底层的生成器和编码器功能。注意,尽管编码器和解码器是确定性的,但是由于

的依赖性,

是连续分布。

 我们的假设与UNIT[15]中提出的共享潜在空间假设密切相关。虽然UNIT假设一个完全共享的潜在空间,但我们假设只有一部分潜在空间(内容)可以跨域共享,而另一部分(风格)是特定域的,当跨域映射是多对多时,这是一个更合理的假设。

3.2、模型

 图2显示了我们的模型及其学习过程的概述。与Liu等人[15]类似,我们的翻译模型由每个域

的编码器

和解码器

组成。如图2(a)所示,每个自动编码器的潜在代码被分解为内容代码

和风格代码

,其中

。图像到图像的转换是通过交换编码器-解码器对来执行的,如图2(b)所示。例如,为了将图像

转换为

,我们首先提取其内容潜在代码

,并从先验分布

中随机绘制风格潜在代码

。然后,我们使用

生成最终输出图像

。我们注意到,尽管先验分布是单峰的,但由于解码器的非线性,输出图像分布可以是多峰的。

 我们的损失函数包括确保编码器和解码器反转的双向重建损失,以及将翻译图像的分布与目标域中的图像分布相匹配的对抗性损失。

 双向重建损失

为了学习彼此相反的编码器和解码器对,我们使用鼓励在两个图像中重建的目标函数,图像到潜在编码到图像,潜在编码到图像到潜在编码方向: 

图像重建:

 给定从数据分布中采样的图像,我们应该能够在编码和解码后对其进行重建。

潜在重建:

 其中

是先前的

给出。

 我们注意到其他损失项

以类似的方式定义。我们使用

重建损失,因为它鼓励清晰的输出图像。

 风格重建损失

让人想起先前工作[11,31,44,57]中使用的潜在重建损失。它有助于鼓励不同风格代码的不同输出。内容重建损失

鼓励翻译的图像保留输入图像的语义内容。

对抗损失:

 我们使用GANs来将翻译图像的分布与目标数据分布相匹配。换句话说,我们的模型生成的图像应该与目标域中的真实图像无法区分。

 其中

是试图在

中的翻译图像和真实图像之间进行区分的鉴别器。鉴别器

和损失

的定义类似。

整体损失:

我们联合训练编码器、解码器和鉴别器,以优化最终目标,最终目标是对抗性损失和双向重建损失项的加权和。

 其中,

是控制重建项重要性的权重。

4、理论分析

 我们现在建立了我们的框架的一些理论性质。具体而言,我们表明,最小化所提出的损失函数会导致1)编码和生成过程中潜在分布的匹配,2)由我们的框架引起的两个联合图像分布的匹配以及3)强制执行弱形式的循环一致性约束。所有证据见附录A。

 首先,我们注意到等式中的总损失。(5)当翻译的分布与数据分布匹配并且编码器-解码器是相反的时,总损失最小化。

命题1

 假设存在

,使得:1)

,以及2)

。则

最小化

 潜在分布匹配对于图像生成,组合自动编码器和GANs的现有工作需要将编码的潜在分布与解码器在生成时接收的潜在分布进行匹配,在潜在空间中使用KLD损失或对抗性损失。如果解码器在生成期间接收到非常不同的潜在分布,则自动编码器训练将无助于GAN训练。尽管我们的损失函数不包含明确鼓励潜在分布匹配的项,但它具有隐式匹配的效果。 

命题2

 当达到最优性时,我们有:

 上述命题表明,在最优性下,编码样式分布与其高斯先验相匹配。此外,编码后的内容分布与生成时的分布相匹配,生成时只是来自其他域的编码后的分布。这表明内容空间变为域不变。

联合分布匹配

 我们的模型学习两个条件分布

,与数据分布一起定义了两个联合分布

。由于它们两者被设计为近似于相同的底层联合分布

,因此希望它们彼此一致,即

 联合分布匹配为无监督图像到图像的翻译提供了一个重要的约束,也是许多最近方法成功的原因。在这里,我们展示了我们的模型在最优性下匹配联合分布。

命题3

 当达到最优性时,我们

风格增强循环一致性

 联合分布匹配可以通过循环一致性约束[8]来实现,假设确定性翻译模型和匹配的边际。然而,我们注意到这种约束对于多模式图像翻译来说太强了。事实上,我们在附录A中证明,如果强制执行循环一致性,转换模型将退化为确定性函数。在下面的命题中,我们表明我们的框架在图像-风格的联合空间之间允许一种较弱的循环一致性形式,称为风格增强的循环一致,这更适合于多模式图像翻译。

命题4

 表示

是图像和风格的联合空间中的点。我们的模型定义了确定性映射

通过

(反之亦然)当达到最优性时,我们有

 直观地说,风格增强循环一致性意味着,如果我们将图像翻译到目标域,并使用原始风格将其翻译回来,我们应该获得原始图像。所提出的双向重建损失暗示了风格增强的循环一致性,但明确强制执行它可能对某些数据集有用:

5、实验

5.1、实现细节

 图3显示了我们的自动编码器的架构。它由一个内容编码器、一个样式编码器和一个联合解码器组成。附录B中给出了更详细的信息和超参数。

内容编码

 我们的内容编码器由几个用于对输入进行下采样的跨卷积层和几个用于进一步处理的残差块组成。所有卷积层后面都是实例归一化(IN)。

 样式编码器

风格编码器包括几个跨步卷积层,然后是全局平均池化层和全连接(FC)层。我们在风格编码器中不使用IN层,因为IN去除了代表重要风格信息的原始特征均值和方差。

 解码器

我们的解码器根据输入图像的内容和样式代码来重建输入图像。它通过一组残差块处理内容代码,并通过几个上采样和卷积层最终生成重建图像。受最近使用归一化层中的有效变换参数来表示样式的工作的启发,我们为残差块配备了自适应实例归一化(AdaIN)层,其参数由多层感知器(MLP)根据样式代码动态生成。

 其中

是先前卷积层的激活,

是信道平均值和标准差,

是MLP生成的参数。请注意,有效参数是由学习的网络产生的,而不是像Huang等人那样根据预训练网络的统计数据计算的。

鉴别器

 我们使用了毛等人提出的LSGAN目标。我们使用王等人提出的多尺度鉴别器。[20]来引导生成器生成真实的细节和正确的全局结构。

域不变感知损失

 感知损失通常被计算为输出和参考图像之间VGG特征空间中的距离,已被证明在配对监督可用时有利于图像到图像的转换。然而,在无监督设置中,我们在目标域中没有参考图像。我们提出了一种更具域不变性的感知损失的修改版本,以便我们可以使用输入图像作为参考。具体而言,在计算距离之前,我们对VGG特征进行实例归一化(无需有效变换),以去除原始特征均值和方差,其中包含许多领域特定信息。在附录C中,我们定量地展示了实例规范化确实可以使VGG特征更具域不变性。我们发现,域不变感知损失加速了高分辨率(≥512×512)数据集上的训练,并因此在这些数据集上使用它。

5.2、评估标准

 人类偏好

为了比较不同方法产生的翻译输出的真实性和忠实性,我们对亚马逊机械土耳其人(AMT)进行了人类感知研究。与王等人[20]类似,通过不同的方法为工人提供了一个输入图像和两个翻译输出。然后给他们无限的时间来选择哪个翻译输出看起来更准确。对于每次比较,我们随机生成500个问题,每个问题由5名不同的工作人员回答。

LPIPS距离

 为了测量翻译多样性,我们计算了来自同一输入的随机采样翻译输出对之间的平均LPIPS距离,如Zhu等人所述。LPIPS是由图像的深层特征之间的加权L2距离给出的。它已被证明与人类感知相似性密切相关。继朱等人之后,我们使用100个输入图像,每个输入采样19个输出对,总共1900对。我们使用ImageNet预训练的AlexNet[78]作为深度特征提取器。

(条件的)感知分数

 启始得分(IS)是图像生成任务的一个流行指标。我们提出了一个称为条件启始得分(CIS)的改进版本,它更适合于评估多模式图像翻译。当我们知道

中的模式数量以及每个样本所属的ground truth模式时,我们可以训练分类器

,将图像

分类为其模式

。以单个输入图像

为条件,平移样本

应该是模式覆盖(因此

应该具有高熵),并且每个单独的样本应该属于特定模式(因此

应该具有低熵)。结合这两个要求,我们得到:

 为了计算(无条件)IS,用无条件类概率

代替

 为了获得高的CIS/IS分数,模型需要生成高质量和多样化的样本。IS测量所有输出图像的多样性,CIS测量以单个输入图像为条件的输出的多样性。在给定输入图像的情况下,确定性地生成单个输出的模型将获得零CIS分数,尽管在IS下它可能仍然获得高分。我们使用在我们的特定数据集上调整的Inception-v3[79]定义作为分类器,并估计方程(8)和方程(9)使用100个输入图像和每个输入100个样本。

5.3、基线

单元

UNIT模型由两个VAE GAN组成,具有完全共享的潜在空间。平移的随机性来自高斯编码器以及VAE中的丢弃层。 CycleGAN

CycleGAN由两个残差翻译网络组成,它们分别用对抗性损失和循环重建损失进行训练。正如Isola等人[6]所建议的那样,我们在训练和测试期间都使用辍学来鼓励多样性。 带有噪声的CycleGAN*

为了测试我们是否可以在CycleGAN框架内生成多模式输出,我们还向两个翻译网络注入了噪声向量。由于我们发现CycleGAN[8]中的残差架构忽略了噪声向量,因此我们使用了将噪声添加到输入的U-net架构[11]。在训练和测试期间也会用到辍学。 BicycleGAN

BicycleGAN是我们所知的唯一一个可以生成连续和多模式输出分布的现有图像到图像转换模型。然而,它需要成对的训练数据。当数据集包含配对信息时,我们将我们的模型与BicycleGAN进行比较。

5.4、数据集

边缘↔ 鞋子/手提包

我们使用Isola等人、Yu等人和Zhu等人提供的数据集,其中包含鞋子和手提包的图像以及HED生成的边缘图。我们为边缘训练一个模型↔ 鞋子和另一个边缘↔ 手提包,而不使用配对信息。

动物图像翻译

我们从3个类别/领域收集图像,包括家猫、大型猫科动物和狗。每个域包含4种模式,它们是属于同一父类别的细粒度类别。注意,在学习翻译模型期间,图像的模式是未知的。我们为每对域学习一个单独的模型。

街景图像

我们实验了两个街景翻译任务:

–合成↔ 真实的

我们在SYNTHIA数据集中的合成图像和Cityscape数据集中的真实世界图像之间进行翻译。对于SYNTHIA数据集,我们使用SYNTHIA Seqs子集,该子集包含不同季节、天气和照明条件下的图像。

–夏季↔ 冬天

我们使用刘等人的数据集,其中包含从真实世界的驾驶视频中提取的夏季和冬季街道图像。

 约塞米蒂夏季↔ 冬季(HD)

我们收集了一个新的高分辨率数据集,其中包含约塞米蒂国家公园的3253张夏季照片和2385张冬季照片。对图像进行下采样,使得每个图像的最短边为1024个像素。

 5.5、结果

 首先,我们将MUNIT与上述四种基线以及分别消融

的三种MUNIT变体进行了定性比较。图4显示了边缘的示例结果边缘→ 鞋。UNIT和CycleGAN(有噪声或无噪声)都无法产生不同的输出,尽管注入了随机性。在没有

的情况下,MUNIT的图像质量是不令人满意的。在没有

的情况下,模型会因部分模式崩溃而失效,许多输出几乎相同(例如,前两行)。我们的完整模型生成的图像既多样又逼真,类似于BicycleGAN,但不需要监督。

 上述定性观察结果通过定量评估得到证实。我们使用人类偏好来测量质量和LPIPS距离来评估多样性,如第5.2节所述。我们在边缘的任务上进行这个实验→ 鞋子/手提包。如表1所示,根据LPIPS距离,UNIT和CycleGAN产生的多样性非常小。从MUNIT中删除

会导致质量显著下降。如果没有

,质量和多样性都会恶化。完整模型获得的质量和多样性与完全监督的BicycleGAN相当,并且明显优于所有无监督基线。在图5中,我们展示了更多关于边的示例结果↔ 鞋子/手提包。

 我们继续在动物图像翻译数据集上进行实验。如图6所示,我们的模型成功地将一种动物转化为另一种动物。给定输入图像,翻译输出涵盖多种模式,即目标域中的多个细粒度动物类别。动物的形状发生了显著的变化,但姿势总体上得到了保留。如表2所示,我们的模型根据CIS和IS获得了最高的分数。特别是,基线都获得了非常低的CIS,这表明它们无法从给定的输入中生成多模式输出。由于IS已被证明与图像质量有很好的相关性[34],我们方法的较高IS表明,它也比基线方法生成高质量的图像。

 图7显示了街道场景数据集的结果。我们的模型能够从给定的城市景观图像中生成具有不同渲染效果的SYNTHIA图像(例如,下雨、下雪、日落),并从给定的SYNTHIA图像中生成带有不同照明、阴影和道路纹理的城市景观图像。同样,它从给定的夏季图像中生成雪量不同的冬季图像,从给定的冬季图像中生成叶量不同的夏季图像。图8显示了夏季的示例结果↔ 高分辨率约塞米蒂数据集上的冬季转移。我们的算法生成具有不同照明的输出图像。

 示例引导的图像翻译。也可以从参考图像中提取样式代码,而不是对先前的样式代码进行采样。具体地说,给定内容图像

和风格图像

,我们的模型产生图像

,将前者的内容和后者的风格重新组合为

。示例如图9所示。请注意,这类似于将一个图像的风格转移到另一个图像上的经典风格转移算法。在图10中,我们将该方法与包括Gatys等人、Chen等人、AdaIN和WCT在内的经典风格转移算法进行了比较。由于我们的方法使用GANs学习目标域图像的分布,因此我们的方法产生的结果明显更加忠实和逼真。

6、结论

 我们提出了一个多模式无监督图像到图像翻译的框架。我们的模型实现了优于现有无监督方法的质量和多样性,并与最先进的监督方法相当。未来的工作包括将这个框架扩展到其他领域,如视频和文本。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 1、介绍
  • 2、相关工作
  • 3、多模型图像到图像的翻译
    • 3.1、假设
    • 3.2、模型
    • 4、理论分析
    • 5、实验
      • 5.1、实现细节
        • 5.2、评估标准
          • 5.3、基线
            • 5.4、数据集
              •  5.5、结果
              • 6、结论
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档