
Transformer 及其派生体已在文本、视觉和语音识别任务上实现了最先进的性能。然而,关于训练能够评估其他模型输出质量的 Transformer 的工作却很少。本文探讨了基于SwinV2的奖励模型,称为输入-输出 Transformer (IO Transformer)和输出 Transformer 。 这些奖励模型可用于推理质量评估、数据分类和策略优化等任务。作者的实验表明,在完全依赖输入的域中,IO Transformer实现了完美的评估准确性,在Change Dataset 25(CD25)上达到了满分。作者还探索了修改后的Swin V2架构。 最终,Swin V2仍然位居榜首,在IO Segmentation Dataset上的得分为95.41%,在输出不完全依赖输入的场景中,超过了IO Transformer。作者的工作将 Transformer 架构的应用扩展到了计算机视觉中的奖励建模,并为优化这些模型以适应各种任务提供了关键的见解。
Transformer 架构已经成为了许多领域的主导架构,包括自然语言处理(NLP)、计算机视觉和语音识别,这主要得益于其强大的注意力机制和准确建模长程依赖的能力。最初由Vaswani等人[1]为NLP任务引入, Transformer 架构随后被应用于视觉任务,例如Vision Transformer(ViT)[2]和Swin Transformer[3],这些模型在图像分类[4]、分割[5]和目标检测[3]等任务上已经达到了最先进的表现。尽管取得了这些进展,但使用 Transformer 架构评估模型输出质量的研究还很少,这在需要连续反馈或基于奖励的优化的应用中尤为重要,例如强化学习(RL)或其他决策框架。
在这项工作中,作者提出两种基于 Transformer 的架构作为奖励模型:输入-输出 Transformer (IO Transformer)和输出 Transformer 。这些模型通过评估输入和输出之间的关系来评估模型的预测质量。 Transformer 在有监督学习任务中得到了广泛应用。然而,它们作为奖励函数生成细微反馈的潜力尚未得到充分探索。作者的奖励模型旨在填补这一空白,提供更精确的评价,同时考虑输入质量和其对输出的影响。
作者的实验表明,IO Transformer 和 Output Transformer 可以在各种视觉任务上准确评估模型性能,特别关注二值图像分割。在这个任务中,输出的质量,如分割 Mask ,往往高度依赖于输入,使其成为输入-输出奖励模型的理想用例。IO Transformer,同时评估输入和输出,在输出对输入的变化敏感的场景中表现出色。另一方面,Output Transformer 仅专注于评估输出,适用于输入变化最小或无关的应用。
本工作通过引入旨在提供更丰富、更上下文感知反馈的架构,将 Transformer 在计算机视觉领域的应用拓宽。作者的结果表明,IO Transformer 和 Output Transformer 可以在精确反馈至关重要的工作中实现最先进的评估精度。这些奖励模型不仅在输入相关任务上超过了传统的价值网络,而且为未来与强化学习方法的集成优化复杂环境中的策略提供了潜力,如分割任务。
作者通过提出IO Transformer和Output Transformer,旨在将视觉 Transformer 架构的使用范围扩展到目标检测和分割任务之外,为它们在基于奖励的优化和质量评估中的应用开辟新的途径。这项工作为未来研究基于 Transformer 的奖励模型与强化学习框架的集成奠定了基础,在这些框架中,需要提供更精细、更具语境敏感性的反馈,以提高决策和策略学习。
Transformer最初由Vaswani等人[1]为自然语言处理(NLP)任务引入。它们对计算机视觉产生了重大影响。视觉Transformer(ViT) [2]证明了将图像视为一组patch序列可以与或超过传统卷积神经网络(CNNs)在标准视觉基准测试上达到匹配或超越。然而,ViTs存在一些挑战,例如每个自注意力层具有计算上昂贵的二次复杂度 ——其中 是总的patch数量, 是特征维度——以及对于小于极度大型ImageNet-21k [6]或JFT-300M [2]的数据集性能较差。
针对这些限制,刘等人提出了Swin Transformer[3],这是一个具有局部窗口基于注意力的层次模型,通过将自注意力复杂度降低到线性复杂度,其中是窗口大小,实现了更好的可扩展性。这种架构已成为需要细粒度预测任务(如图像分割[5]和图像修复)的广泛采用方法。
后来,SwinV2[8]通过引入后正则化技术和位置偏见机制,确保在高分辨率数据集上训练的稳定性。Swin和SwinV2的创新为监督学习和基于强化学习的视觉任务中的高效和可扩展模型奠定了基础。
RL已经被应用于各种计算机视觉任务,如目标检测、机器人控制和视觉跟踪。深度Q网络(DQN)[11] 和异步优势演员-批评家(A3C)[12] 的引入展示了RL在训练可以与视觉环境交互的 Agent 方面的潜力。帕哈克等人[13] 进一步推动了这一领域的发展,通过将好奇驱动的探索纳入其中,这有助于 Agent 在稀疏奖励的环境中高效学习。最近,基于模型的RL方法通过与学习到的模型进行规划,展示了改进的泛化性和样本效率。
尽管出现了这些发展,但RL架构通常仍然依赖于基于CNN的方法进行特征提取,这限制了它们捕获像分割和目标跟踪等任务中至关重要的细粒度像素级信息的能力[15, 16]。这突显了开发结合了RL和高级特征提取器(如 Transformer )的混合方法的需求,以更好地解决高维视觉任务。
尽管作者的工作受到了强化学习(尤其是演员-批评家方法[19])的启发,但作者与依赖时间步互动和价值函数近似的传统实现有所不同。演员-批评家方法通常使用两个网络:一个"演员"来做出决策,一个"批评家"来评估这些决策并指导未来行动。作者的架构虽然受到这个框架的启发,但并没有直接集成到强化学习环境中。相反,作者专注于利用 Transformer 作为奖励模型,直接评估输出的质量,而无需中间的价值近似或时间反馈。
暹罗网络最初由Bromley等人 [20] 为签名验证而引入。这些网络由具有共享权重的双模型组成,旨在通过学习输入的相似性来比较两个输入。自那时以来,它们已应用于各种任务,包括人脸识别、变化检测和医学影像 [21, 22]。网络架构将相似的输入映射到特征空间的接近位置,使其对于基于比较的任务非常有效 [23]。
近期的工作探索了将 Transformer 集成到Siamese网络中的可能性。Bandara等人[24]提出了一种基于 Transformer 的Siamese网络用于变化检测,在LEVIR-CD和DSIFN-CD数据集上实现了最先进的性能。
Yu等人提出了TransMatch[25],这是一种将Siamese网络与 Transformer 编码器相结合的混合架构,用于跨模态匹配。作者的IO Transformer架构受到这些模型的启发,使用独立的SwinV2编码器分别处理输入和输出图像。与传统的Siamese网络不同,作者将两个编码器之间的权重解耦,允许模型通过交叉注意力层捕捉更细腻的输入-输出关系。
交叉注意力机制在需要融合多个输入的任务中发挥了重要作用,例如视觉问答(VQA)[26]和多模态学习[27]。交叉注意力选择性地关注输入的相关部分的能力使其特别适合评估复杂关系。在作者的工作中,交叉注意力将输入和输出编码器连接起来,使模型能够更精确地评估输出质量与输入之间的关系。
作者的方法受到了多模态 Transformer (如Flamingo [27])中的跨注意力机制的启发,这些 Transformer 使用跨注意力来整合来自不同模态的信息。然而,尽管Flamingo专注于将图像和文本输入融合在一起,但作者的IO Transformer仅将跨注意力应用于输入-输出对。这使得奖励模型能够生成针对视觉任务(如图像分割)的细致评估,这些评估是根据任务的具体需求定制的。作者在交叉注意力层中使用余弦相似性,这与SwinV2一致,以确保模型的维数在整个过程中保持一致。
Transformer 和奖励模型的崛起极大地扩展了计算机视觉和强化学习架构的能力。然而,仍然需要研究能够有效评估输入-输出依赖性的架构。尽管以前的工作探讨了在语言生成和机器人控制中使用奖励模型的方法,但将它们应用于视觉任务的研究还很少 [28, 29]。此外,大多数现有强化学习模型依赖于基于卷积神经网络(CNN)的特征提取,这限制了它们在需要详细视觉理解的任务上的适用性。
作者通过提出IO Transformer,一种新颖的奖励模型架构,利用基于SwinV2的编码器来评估输入和输出质量,来填补这些差距。这种方法为策略优化提供了更可靠的反馈,为计算机视觉领域中的更适应性和更可靠的强化学习系统铺平了道路。
为有效评估各种计算机视觉任务中的输入-输出依赖关系,作者提出了IO Transformer。这种架构利用两个独立的SwinV2基础编码器分别处理输入和输出数据流。传统的Siamese网络使用共享编码器,但作者的方法故意将两个SwinV2编码器之间的权重解耦。这种解耦允许模型捕捉到每个数据流特有的细微细节,从而增强相对于输入评估输出质量的能力[20, 24]。
输入编码器专门处理原始输入(例如原始图像),而输出编码器则关注评估演员模型生成的输出(例如分割 Mask )。通过交叉注意力层将这两种双编码器相结合,确保了对输出与输入条件之间的关联进行细腻评估。
为将输入和输出编码器生成的特征进行融合,作者使用基于余弦的交叉注意力层,这些交叉注意力层保留了SwinV2 Backbone 网络[8]中的注意力一致性。在这些交叉注意力层中, Query 向量来自输出编码器,而键向量和值向量则来自输入编码器。这种设计确保输出特征关注输入的相关方面,从而实现精确评估。
交叉注意力操作如下:

在哪里:
和 分别表示输入编码器和解码器中的特征。
是学习得到的温度参数,用于控制分布的尖锐度。
表示相对位置偏差,确保模型保持空间一致性。
这一公式确保了奖赏模型捕捉了输入和输出之间的关系,这在输出质量高度依赖于输入条件[30]的任务中至关重要。例如,在图像分割中,输入的清晰度(例如,照明或噪声)会显著影响分割 Mask 的质量,而IO Transformer通过其输入-输出注意力机制准确评估。
作者的架构与传统的Siamese网络不同,因为它使用了两个完全独立的SwinV2编码器。这种设计使得每个编码器可以专门处理其各自的角色,避免了Siamese架构中权重共享所施加的限制。相比之下,共享权重可能会限制模型在输入和输出之间的差异适应能力,尤其是在高变率任务中,如二元分割[21]。通过解耦编码器,IO Transformer在输入和输出之间的关系并非显而易见的情况下,可以实现更好的性能。
输出Transformer架构采用SwinV2 Backbone ,专注于评估模型的输出。与IO Transformer利用输入-输出关系不同,输出Transformer假设输出本身足以提供准确评估所需的信息。这种设计使其在输入变化对输出质量影响最小化的应用中理想,例如预测质量检查或孤立特征评估。
作者开发了两种版本的输出Transformer:
SwinV2输出Transformer: 这个版本依赖于原始的SwinV2 Backbone 网络,通过最小的架构更改进行训练。在简单的二分类任务上进行微调时,它具有轻量和高效的特点。
自定义层SwinV2输出 Transformer : 此增强版在SwinV2 Backbone 网络的末端引入了额外的层,包括自注意力层和MLP层,以从输出数据中提取更细的特征。
每一版本的输出Transformer都遵循单流处理流水线:
该模型将演员模型的输出作为输入。
这输出使用SwinV2 Backbone 网络编码为特征嵌入。
如果在包含额外的层,则在将这些嵌入传递给最终分类或评估头之前进一步优化这些嵌入。
在输入变化很小或无关的场景下,输出 Transformer 具有几个关键优势:
由于它只处理输出,输出 Transformer 需要比输入-输出模型更少的计算资源。
简洁性: 训练和部署过程得到了简化,因为无需对输入-输出对进行对齐。
稳健评估: 该模型在需要输出全部必要信息的任务上表现出色,如遮挡修复、特征验证或物体分类等。
尽管输出Transformer在稳定输入的场景中具有有效性,但它也存在一些局限性:
无法处理输入输出依赖关系: 当输出质量与输入条件紧密相关(例如,在分割任务中,输出质量与未曝光的图像紧密相关)时,它将失败。
过度依赖演员表现:模型的奖励信号直接取决于演员模型的输出质量,使其容易受到噪声预测的影响。
未来工作可以探索将强化学习自人类反馈(RLHF)与输出 Transformer 相结合。通过将自动奖励信号与人类偏好对齐,模型可以变得更加通用和可靠,尤其是在敏感应用如医学诊断或自动驾驶中。
此外,可以开发混合架构,在输出仅限于和基于输入的评估模式之间切换,使模型能够根据任务要求动态地调整其奖励机制。
为了全面评估作者提出的架构作为批评网络的潜力,作者专注于二进制图像分类和双图像二进制分类任务。二进制分类是理想的选择,原因如下:
简化:任务固有的简化使作者能够专注于架构的性能,而无需考虑多类问题的额外复杂性。
多才多艺: 二进制分类具有广泛的应用,包括内容真实性检测、医学图像预筛查、在线内容审查和产品质量控制 [31, 29]。
数据合成可得性: 为二分类任务生成合成数据集非常简单,这允许进行大规模的评估[12]。这确保了数据准备过程中的一致性,并有助于模型训练。
作者通过使用大约40,000张图像生成了一个定制的数据集,称为IO分割数据集。这些图像经过图像分割模型的处理,提供了高质量的图像前景分割结果。由于分割模型通常会产生不精确的分割结果,因此每个输出都要经过手动分类步骤,以从训练数据中删除不正确的分割结果。
为了捕捉输入-输出关系,在评估时将输入和输出图像 ConCat 在一起,类似于双输入模型(如Siamese网络)中采用的方法。
作者的模型主要使用 SwinV2 Large 和 SwinV2 Base 作为 Backbone 网络,在 ImageNet-22k 上进行预训练,然后在 ImageNet-1k 上进行微调 [8]。
鉴于作者架构的复杂性,作者在微调特定任务数据之前,将每个模型的组件进行对齐,采用了预训练阶段。然而,将IO Segmentation Dataset扩展到所需的100,000张图像在实际操作中是不切实际的。为了解决这个问题,作者开发了包含25个类别和五种数据类型的Change Dataset 25(CD25),共包含100,000张图像。
动画:在视觉媒体中常用的具有艺术风格的卡通行人图像。
漫画:在动画中经常出现简化和夸张的描绘。
食品:各种环境中的菜肴和配料。
真实场景:城市、风景和自然环境的照片。
人类 faces:在不同背景下的肖像和面部表情。
通过创建这些类别的排列(例如,将卡通作为输入和食物作为输出),预训练步骤使模型能够学习输入-输出关系[24]。这与视觉比较模型(如TransMatch[25])所使用的方法相符。
所有实验均在支持6块Nvidia RTX 3090 GPU的系统上使用PyTorch实现,并运行Microsoft的Swin Transformer训练循环,针对数据增强和优化策略进行了多项修改:
Mixup augmentation [16] 用于输入数据以减少过拟合。
AdamW优化器由于其相对于Adam的更优越的收敛性特性而得到使用。
在进行切换到线性调度器之前,作者在预热阶段使用了余弦学习率调度器。
训练超参数:
图像大小:256×256
学习率: Baseline 学习率:2e-05,最小学习率:2e-07, Warm up 学习率:2e-08
不同架构上的IO Transformer模型表现出了竞争力。值得注意的是,Output Transformer使用SwinV2为基础架构时,实现了95.41的准确率,如表1所示。作者的实验确认了SimMIM [33]的发现,即在模型 Head 添加注意力层并不总是提高性能。对于Swin模型参数,添加的参数数量越大,观察到的准确率越低。对于Swin模型,在模型末尾添加更多参数会导致准确率降低,参数添加的数量越多,准确率就越低。

关键观察:
循环位移在交叉注意力层中略微降低了模型的性能。
预训练在CD25上导致了性能的一小部分下降,这表明针对特定领域的微调对IO Transformer的成功至关重要。
作者在CD25数据集上评估了两种IO Transformer变体。IO V8 Transformer实现了100%的准确率,表明在输出完全依赖于输入的场景中,它具有有效性。
结果表明,在需要精确输入-输出依赖分析的任务中,IO Transformer 表现出色。在这些情况下,预训练模型显著受益于基于注意力的架构,如 SwinV2。进一步的研究可以探索混合架构,以弥合 IO 和 Output Transformer 之间的性能差距。
在本文中,作者提出了IO Transformer和Output Transformer架构,旨在解决计算机视觉领域中奖励建模的挑战。作者的结果表明,当输入-输出依赖关系至关重要时,IO Transformer表现出色,在CD25数据集上实现了完全准确。相反,当输入变化最小化时,Output Transformer更有效,这体现在IO Segmentation数据集上的95.41%准确率。
输入-输出 Transformer 通过结合输入-输出分析提供细微的评估,使其非常适合高风险应用,如医学影像和自动驾驶汽车。然而,其计算复杂性突显了详细奖励建模与资源效率之间的权衡。另一方面,输出 Transformer 为具有稳定输入条件的情况提供了一种轻量级替代方案,展示了其在实时推理系统的部署潜力。
作者的工作强调了将奖励模型选择与特定任务需求进行对齐的重要性。未来的研究应专注于通过混合模型弥合这两个架构之间的差距,这些模型能够动态地适应输入-输出依赖性的变化。此外,通过将强化学习从人类反馈(RLHF)中引入,可以增强这些模型在复杂环境中的适应性和可靠性。
[0]. IO Transformer: Evaluating SwinV2-Based Reward Models for Computer Vision.