用于实现真实世界时间一致性视频超分的运动引导潜在扩散模型

用户1324186

发布于 2024-02-29 16:11:47

1K0

来源：arxiv 作者：Xi Yang 等 论文题目：Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution 论文链接：https://arxiv.org/pdf/2312.00853.pdf 内容整理：汪奕文最近，扩散模型在为图像增强任务中生成逼真细节方面表现出了令人信服的性能。然而，由于扩散过程具有随机性，因此很难控制还原图像的内容。将扩散模型应用于 VSR（Video Super-resolutionn）任务时，这个问题变得更加严重，因为时间一致性对视频的感知质量至关重要。本方法利用预先训练的 SD（Stable Diffusion）模型的优势，提出了一种有效的真实世界 VSR 算法。

引言

视频超分辨率 (VSR) 旨在从给定的低分辨率 (LR) 视频序列重建高分辨率 (HR) 视频。得益于深度学习技术的快速发展，VSR 在过去十年中取得了长足的进步，出现了包括 EDVR 等基于滑动窗口的方法、BasicVSR 等基于递归的方法以及最新的基于 Transformer 的方法。然而，上述大多数方法都假设在 LR 和 HR 视频之间进行简单的退化。因此，这种 VSR 模型很难推广到真实世界的 LR 视频中，因为真实世界的退化要复杂得多。

最近，真实世界 VSR 因其在手机摄像视频增强和在线视频流媒体等实际应用中的巨大潜在价值，而受到研究人员的关注。真实世界 VSR 旨在增强具有复杂和未知退化的视频。主要的挑战在于如何有效地再现视频细节，同时抑制未知降解造成的视觉伪影。现有的真实世界 VSR 算法大多尝试使用生成对抗损失、输入预清理和隐藏层注意力等技术在细节和人工痕迹之间进行权衡。尽管有这些努力和进展，但由于训练数据不足和模型容量有限，它们在真实世界测试集上的性能仍然有限。

自去噪扩散概率模型 (DDPM) 的开创性工作以来，基于扩散的生成模型在图像生成方面取得了巨大成功。尤其是潜在扩散模型 (LDM)，不仅在文本到图像的生成方面，而且在图像编辑、inpainting、着色等下游任务方面都取得了令人瞩目的成果。最近，研究人员还尝试将 LDM 强大的生成前验用于现实世界的图像复原任务，并取得了令人鼓舞的成果。因此，研究潜在扩散先验是否可用于改善真实世界的 VSR 结果是很有意义的。然而，由于扩散过程的内在随机性，导致了潜在空间中视频帧之间的时间不一致性。这种不一致性会被 LDM 的解码器进一步放大。直接使用基于 LDM 的图像超分辨率算法进行 VSR，会导致连续帧之间的细节不一致，从而降低重建视频的视觉感知质量。

图 1

为了应对上述挑战，本方法提出了一种用于真实世界 VSR 的运动引导潜在扩散模型 (MGLD)，旨在生成具有良好时间一致性的高质量高清视频序列。本方法将输入 LR 视频的运动动态纳入 SR 输出的生成过程。这可以通过一个引导扩散过程来实现，根据模型的 score function 生成条件样本。具体来说，首先计算相邻 LR 帧之间的光流，并使用计算出的光流对每个帧的潜在特征进行 warp，使相邻帧的特征对齐。warp 误差的 L1 norm 被用作运动导向损耗，其梯度被加入采样过程以更新潜在特征。

为了克服 LDM 原始解码器产生的不一致细节，本方法在解码器中插入了时序模块，并利用真实的 HR 视频序列对其进行微调。本方法还引入了一种创新的面向序列的损耗来引导解码器改善细节的连续性。提出的 MGLD 方法可以减轻生成细节的不连续性，同时保持纹理恢复的自然性和视觉感知质量。

本文的主要贡献如下：

提出了一种基于运动引导的扩散采样过程，能够在生成时间一致的潜在特征时使用输入帧的时间动态。
提出了一种时间感知序列解码器，以及两种面向序列的损耗，以进一步增强生成视频的连续性。
提出的 MGLD 模型在现实世界中取得了极具竞争力的 VSR 结果，与现有技术相比，它能展现出更逼真的细节和更少的闪烁伪影。

方法

给定一个包含

个帧的 LR 视频序列

I =\left\{I_1, I_2,\dots, I_N \right\}

，我们的目标是生成 HR 视频序列

\hat{I} =\left\{\hat{I_1}, \hat{I_2},\dots, \hat{I_N} \right\}

，以提高视觉质量，同时保持相邻帧内容的一致性。受最近开发的基于扩散的图像超分方法的启发，本方法利用预训练 SD 模型的生成先验来提高真实世界的 VSR 性能。

首先，本方法提出了以运动引导的扩散采样过程，即在扩散采样过程中引入 LR 序列的时间动态，以增强各帧潜在特征的一致性。其次，本方法设计了一个时间感知序列解码器，并利用面向视频的损失对其进行微调，从而进一步提高了生成细节的质量。

图 2

潜在扩散模型(LDM)

潜在扩散模型 (LDM) 在图像生成领域产生了显著的影响。这些模型采用变分自编码器 (VAE) 将图像映射到潜在空间，使其能够在大规模文本图像数据集上进行训练。这为 LDM 提供了关于自然图像的强大先验知识，下游任务（如图像重建和超分辨率）可利用这些知识生成细节清晰、内容优质的图像。然而，在视频超分辨率（VSR）中，扩散过程的随机性往往会导致还原视频序列中的时间不一致性。为了解决这个问题，本方法提出了一种运动引导的扩散模型 (MGLD)，通过在采样过程中利用运动引导并在解码器中加入时间感知来实现高质量的 VSR。

运动引导的扩散采样

从 score-based 角度来看，扩散模型的采样过程涉及到对数据分布梯度

\log p(\mathbf{z})

和引导模型

g = G(\mathbf{z})

应用 Langevin 动力学：

\nabla_{\mathbf{z}} \log p(\mathbf{z}, g)=\nabla_{\mathbf{z}} \log p(\mathbf{z})+\nabla_{\mathbf{z}} \log p(g \mid \mathbf{z}) \quad (1)

本方法利用低分辨率输入视频中的时间动态来创建保持时间一致性的潜在特征，从而增强 VSR 结果。具体来说，在采样过程中加入了一个创新的运动引导模块，以计算各帧潜在特征的 warp 误差。给定 LR 帧后，首先用

\mathcal{F}

计算它们的光流，并将光流图降采样到潜在特征的维度。对于前向光流

O_{f}

和后向光流

O_{b}

，本方法将潜在特征 warp 到其相邻帧，并计算沿两个方向的累积 warp 误差：

\begin{aligned} E(z)^t & =\sum_{i=1}^{N-1} ||\left(\operatorname{Warp}\left(z_i^t, O_{b, i}\right)-z_{i+1}^t\right) ||_1 \\ & +\sum_{i=2}^N \|\left(\operatorname{Warp}\left(z_i^t, O_{f, i-1}\right)-z_{i-1}^t\right) ||_1 . \end{aligned} \quad (2)

根据经验发现，遮挡的存在会对光流估计造成负面影响，进而扰乱采样过程，在最终的 VSR 结果中出现伪影。为了解决这个问题，本方法进一步估算了每个帧中的遮挡 mask

\mathcal{M}

，并忽略了遮挡区域的贡献。给定 noise scheduler 在步骤

的方差

\sigma^2_t

，采样步骤

的运动引导采样过程可写成

\hat{z}^t \leftarrow \operatorname{DDPM}\left(z^{t+1}, t\right)-\sigma_t^2 \nabla_z\left(\mathcal{M} \circ E(z)^t\right) \quad (3)

经过

次迭代后，最终的去噪潜在序列

z^0

被送入 VAE 解码器，以获得最终的视频序列。### 时间感知解码器微调基于提出的运动引导扩散采样，VSR 模型可以更好地利用时间动态生成时间上更一致的 HR 视频。然而，由于引导是在低分辨率潜在空间中进行的，而潜在空间的维度比输出图像空间小 8 倍，因此通过 VAE 解码器进行视频重构仍可能导致 VSR 输出生成的细节在时间上不连贯。因此，本方法引入了时间感知序列解码器，并利用地面真实视频序列对其进行微调，以提高输出视频的平滑度和准确性。在预先训练好的 VAE 解码器基础上，本方法通过沿时间维度的一维卷积，构建了时间序列解码器。这种设计有利于空间与时间的交互，使模型能够以较高的连续性还原细节，同时将计算成本降至最低。本方法通过可控特征 warping (CFW) 模块，进一步整合了来自 VAE 编码器的信息

，以获得更好的还原和生成效果。为了充分利用预训练 VAE 的修复能力，本方法冻结了 VAE 的原始空间块，只更新了时间卷积和 CFW 模块中的参数。本方法首先对每帧计算 L1 损失和感知损失和重建损失

L_{\mathrm{recon}}

，然后对视频序列计算 GAN 损失和帧间损失。帧间损失

L_{\mathrm{diff}}

计算连续预测帧

\hat{I}

与 GT 帧

I^{gt}

之间的差值，其定义如下：

L_{\mathrm{diff}}=\sum\left\|\left(\hat{I}_{i+1}-\hat{I}_i\right)-\left(I_{i+1}^{g t}-I_i^{g t}\right)\right\|_1 . \quad (4)

值得注意的是，扩散模型通常会产生很强的结构。为了使超分辨视频看起来更自然，我们需要对这些结构区域应用一致性约束。因此，本方法还引入了结构加权一致性损失：

\begin{aligned} L_{\mathrm{swc}} & =\sum\left\|\mathcal{M} \circ\left(\mathcal{W}_{i+1}\left(\operatorname{Warp}\left(\hat{I}_i, O_{b, i}^{g t}\right)-\hat{I}_{i+1}\right)\right)\right\|_1 \\ & +\sum\left\|\mathcal{M} \circ\left(\mathcal{W}_{i-1}\left(\operatorname{Warp}\left(\hat{I}_i, O_{f, i}^{g t}\right)-\hat{I}_{i-1}\right)\right)\right\|_1 . \end{aligned} \quad (5)

其中，

O_{f}^{g t},O_{b}^{g t}

表示根据 GT 序列计算的前向和后向光流。结构加权一致性损失有助于网络生成一致的细节，方法是通过在 GT 帧上计算的加权 map

W = (1 + wS)

来计算损失，其中

w = 3

是加权因子，

是使用 Sobel 算子的结构（边缘）图。用于解码器微调的总损失定义为：

L_{\mathrm{video}} = L_{\mathrm{recon}} + \alpha L_{\mathrm{diff}} + \beta L_{\mathrm{swc}} + \gamma L_{\mathrm{GAN}} \quad (6)

其中，

\alpha,\beta,\gamma

根据经验设定为 0.5、0.5 和 0.025。

实验

实验设置

实验实施细节

提出的运动引导潜空间扩散（MGLD）方法的训练包括两个阶段。

在第一阶段，对用于潜空间扩散的去噪 U-Net 进行微调。去噪 U-Net 的权重由 SD V2.1 初始化。本方法在 U-Net 中插入了一维时间卷积，以帮助进行时间动态建模。然后，固定 SD 模型去噪 U-Net 的权重，并训练条件分支和时序模块。在条件分支方面，采用小型时间感知编码器对 LR 条件进行编码，并通过空间特征变换操作注入去噪 U-Net 中。

在第二阶段，首先利用提出的运动引导扩散采样过程生成干净的隐式表征序列，然后利用 LR 序列、生成的隐式表征序列和 HR 序列对时间感知序列解码器进行微调。固定 VAE 解码器，并插入时序层和 CFW 模块进行训练。

提出的模型在 4 个 A100 GPU 上使用 PyTorch 框架进行训练，优化器选择了 Adam。在推理过程中，将 LR 视频分成多个序列运行，对于每个序列运行 50 步采样。

训练和测试集

本方法在训练中合并了 REDS 的训练集和验证集，并留下 4 个序列用于测试（REDS4）。按照 RealBasicVSR 的退化流程合成训练序列对，其中包括模糊、噪声、降采样和压缩。对于真实世界数据集，采用 VideoLQ 进行测试，其中包含 50 个具有复杂退化的真实世界序列。

实验结果

定量结果

本文提出的方法在所有合成测试数据集上都取得了感知指标 LPIPS 和 DISTS 的最佳结果，这表明所提出的方法能够从经过复杂退化的序列中重建高质量的细节。虽然类似 DBVSR 的方法在 PSNR 或 SSIM 方面有更好的表现，但它们往往会产生模糊的结果，这一点在 LPIPS 和 DISTS 指标中得到了证明。

对于真实世界的 VSR 数据集 VideoLQ，本文提出的方法在 NIQE 和 BRISQUE 方面取得了最佳性能，在 MUSIQ 方面取得了第二好的结果，这反映了其增强真实世界视频并生成逼真细节和纹理的强大能力。