

https://arxiv.org/pdf/2203.07319.pdf
人脸超分通常依赖人脸先验信息进行细节复原并保持身份信息。受益于GAN先验信息辅助,近来人脸超分取得了长足发展:或者采用复杂的模块对GAN先验进行调制,或者采用复杂训练策略对生成器进行微调。
本文提出一种生成细节可控的人脸超分方案GCFSR,它无需额外的人脸先验信息即可进行高质量人脸超分。GCFSR架构为编码器-生成器模式,同时针对多因子超分任务设计了风格调制与特征调制两个模块:风格调制模块用于生成人脸细节;特征调制模块根据输入的条件上采样因子对源自编码与生成器编码特征进行动态融合。
对于小尺寸上采样因子
,所提方案仅需对抗损失即可取得令人惊讶的结果;再添加L1与感知损失后,GCFSR在大尺寸上采样因子(比如16、32)方面超越了其他SOTA方案。在测试阶段,我们可以通过连续改变输入条件上采样因子对生成强度进行调制以获得不同的生成效果。除此之外,GCFSR在复杂退化场景中也有稳定出色的表现。


上表对近期三个SOTA图像复原方案从不同维度进行了对比,可以看到:
总而言之,GAN先验要么设计复杂的模块对其进行修改,后者对其进行微调适配。这就意味着:利用GAN先验进行图像复原并非一个微不足道的任务。那么,我们能否设计一个不依赖预训练GAN先验的生成模型呢?

上图为GCFSR整体架构示意图,它包含一个编码器与一个生成器,编码器以LR人脸图像作为输入,提取人脸结构信息,同时估计隐特征
(它将作为生成器的输入);生成器以编码器估计的隐特征、多级结构特征作为输入,通过一系列风格调制卷积进行处理后生成最终包含丰富人脸细节的人脸图像。
为处理不同上采样因子的超分任务,我们在编码器与生成器提取的多尺度特征之间添加跳过连接。特征调制模块会根据输入条件上采样因子来控制编码特征和生成特征的强度。GCFSR的编码器和生成器相互协作并生成具有高真实性的人脸图像,还可以提供灵活的用户调节机制。值得一提的是,所提方案可以从头开始端到端训练,无需进行GAN先验的预训练。

生成器以编码器的输出作为输入,通过风格调制模块与特征调制模块处理后生成包含丰富纹理细节的人脸图像。


GCFSR仅需对抗损失即可很好进行训练,我们采用非饱和逻辑损失:

如后续实验所表明,仅采用对抗损失训练的GCFSR已在x4和x8超分任务上超过了其他盲人脸复原方案。
为进一步提升超分性能,我们采用了常规组合损失,即L1、感知损失以及对抗损失,定义如下:

尽管GCFSR是从头开始训练,但其收敛速度更快(见上图),同时在所有GAN先验方案中取得了最佳的性能。


上表与图给出了不同方案的量化指标与重建效果对比,从中可以看到:

上图给出了不同尺度调制下的效果对比,可以看到:通过连续的调整上采样因子,我们可以找到一个效果重建效果非常好的结果。值得一提的是,该调制过程可以生成平滑的过度且不会导致伪影问题。

除此之外,我们固定GCFSR的输入条件上采样因子s(比如:s=1),采用GFPGAN的退化方式,训练了一个盲人脸复原模型。实验结果表明,GCFSR的盲复原版本也能在量化指标上取得sota效果
全文到此结束,更多消融实验与分析请移步原文。
本文的研究成果同时也在字节跳动智能创作音视频团队的“臻视综合画质解决方案”中有落地,支持老照片修复、老电影修复等AI画质修复场景,更多效果可以访问:火山引擎-高清人像修复体验(https://www.volcengine.com/product/visualedit)。