题目:TransTIC: Transferring Transformer-based Image Compression from Human Perception to Machine Perception 作者:Yi-Hsin Chen, Ying-Chieh Weng 等 来源:ICCV 2023 文章地址:https://arxiv.org/abs/2306.05085 内容整理:杨晓璇 这项工作旨在将基于 Transformer 的图像压缩编解码器从人类感知转移到机器感知,而无需对编解码器进行微调。本文提出了一种可转移的基于 Transformer 的图像压缩框架,称为 TransTIC。TransTIC 采用提示生成器,将特定于实例的提示注入编码器,将特定于任务的提示注入解码器。实验表明,本文提出的方法能够将基本编解码器转移到各种机器任务,并且显着优于竞争方法。这项工作是在下游图像压缩任务上利用提示的首次尝试。
目录
一般来说,大多数学习的图像压缩系统主要是为了人类感知设计的。最近,由于针对高级识别任务跨设备传输视觉数据的需求不断增长,用于机器感知的图像编码成为一个活跃的研究领域。如果为用于不同机器感知任务的图像编码设计一个通用的编码器,则很难实现最近的速率-失真权衡。但如果为每一个任务都定制编码器的代价远远超过了可承受范围。
受 Visual Prompt Tuning 这篇文章的启发,本文提出了一种插件机制,它将额外的可学习输入(称为提示)注入到固定的基本编解码器中。

图 1. TransTIC 示意图
本文的主要贡献如下:
图 2 是 TransTIC 的总体架构,该架构建立在 Transformer-based image compression 提出的模型上。不同之处在于上下文先验模型被替换为简单的高斯先验模型以进行熵编码。主编解码器
、
和超先验编解码器
、
包括 Swin-Transformer 块(STB)作为基本构建块。这些 STB 与卷积层交织在一起,以适应特征分辨率的变化。在这项工作中,主编码器和超先验编码器针对人类感知(即图像重建任务)进行了预训练,并且它们的网络权重在传输过程中是固定的。

图 2. TransTIC 的总体架构
迁移
、
以使解码图像
适合机器感知,将 (1)
生成的特定于实例 (instance-specific, IP) 的提示注入
中的前两个 STB,(2) 将特定于任务 (task-specific, TP) 的提示注入
中的所有 STB。需要注意到,提示生成器
和输入到解码器的特定任务提示是可学习的,并根据机器感知任务进行更新。
STB 是模型设计的核心。图 3(c) 详细说明了其数据处理流程。它由多个Swin-Transformer 层组成(图 3(b))。

图 3. STB 的详细设计
特定于实例的提示 在编码器侧,引入了一个特定于实例的提示生成器
,它根据输入图像为前两个 STB(称为IP型STB)生成特定于实例的提示。
本身是特定于任务的,因为它的网络权重是针对特定的下游机器任务进行训练的。图 3(d)描述了 IP 型 STB 的内部工作原理。它们的操作与普通 STB 类似,只是在第 i 个 Swin-Transformer 层中引入了额外的单独提示
。
进行与特征
同样的分割和展平。在窗口收集步骤中,仅收集图像 token,而丢弃提示 token。
特定于任务的提示 与编码器不同,解码器采用特定于任务的提示,因为输入图像在解码器端不可用。图 3(e) 说明了 TP 型 STB 的操作。与编码器中的 IP 型 STB 类似,TP 型 STB 在不同的 Swin-Transformer 层中用单独的 token
。在 Swin-Transformer 层中,相同的提示在固定大小的窗口之间共享,这一点与特定于实例的提示不同。
损失函数为:
首先,取
为均方误差训练编解码器
。得到适应人眼感知的编解码器。然后固定参数,取
为感知损失,分别在不同的数据集上训练适应分类、对象检测和实例分割的提示生成器
。
图 4 可视化了竞争方法的速率-精度图。得到以下观察结果:

图 4. 不同机器任务下的速率-精度性能比较
图 5 展示了由竞争方法产生的解码图像和相应的比特分配图。如图所示,针对人类感知进行优化的基本编解码器 TIC 往往会花费更多的比特来编码复杂区域(例如图 5(a)中的岩石表面和图 5(b)中的背景森林),这可能与下游识别任务不太相关。相比之下,TransTIC 和其他针对机器任务优化的方法将更多位从背景转移到前景,从而产生更清晰的前景物体。

图 5. 结果可视化
本文利用提示技术将训练好的基于 Transformer 的图像编解码器从人类感知转移到机器感知。不需要重新训练编解码器,而是向编码器中的 Swin-Transformer 层引入额外的特定于实例的提示,并向解码器引入特定于任务的提示。实验结果表明,本文的 TransTIC 在各种机器任务上实现了与其他迁移方法相当或更好的速率-精度性能。