【源头活水】中科院又一创举 SecViT |多功能视觉 Backbone 网络，图像分类、目标检测、实例分割和语义分割都性能起飞

马上科普尚尚

发布于 2024-06-05 08:48:13

1700

发布于 2024-06-05 08:48:13

“问渠那得清如许，为有源头活水来”，通过前沿领域知识的学习，从其他研究领域得到启发，对研究问题的本质有更清晰的认识和理解，是自我提高的不竭源泉。为此，我们特别精选论文阅读笔记，开辟“源头活水”专栏，帮助你广泛而深入的阅读科研文献，敬请关注！

视觉 Transformer （ViT）因其卓越的关系建模能力而受到关注。然而，其全局注意力机制的二次复杂度带来了相当大的计算负担。常见的解决方法是空间地分组 Token 以进行自注意力，减少计算需求。

然而，这种策略忽略了 Token 中的语义信息，可能将语义相关的 Token 分散到不同的组中，从而损害了用于建模 Token 间依赖的自注意力的有效性。基于这些洞察，作者引入了一种快速且均衡的聚类方法，名为语义均衡聚类（SEC）。

SEC以一种高效、直接的方式根据 Token 的全局语义相关性对 Token 进行聚类。与需要多次迭代的传统聚类方法不同，作者的方法在一次传递中完成 Token 聚类。

此外，SEC调节每个簇中的 Token 数量，确保在当前计算平台上进行有效的并行处理，而无需进一步优化。

利用SEC，作者提出了一种多功能的视觉 Backbone 网络，SecViT。在图像分类、目标检测、实例分割和语义分割的全面实验验证了SecViT的有效性。

值得注意的是，SecViT仅用2700万个参数和4.4G FLOPs就达到了令人印象深刻的**84.2%**的图像分类准确率，无需额外的监督或数据。

代码将可在https://github.com/qhfan/SecViT获取。

1 Introduction

自从Vision Transformer（ViT）[13]问世以来，由于其强大的建模能力，已经引起了研究界的广泛关注。然而，自注意力机制的二次复杂度导致了巨大的计算开销，从而限制了ViT的实际应用。已经设计出多种策略来减轻这种计算负担，其中最普遍的做法涉及 Token 分组，从而限制每个 Token 的注意力范围。

具体来说，Swin-Transformer [36]将 Token 划分为多个小窗口，限制每个窗口内的 Token 注意力。CSWin-Transformer [12]采用十字形分组，赋予每个 Token 一个全局感受野。MaxViT [48]结合了窗口和网格注意力，使窗口内的 Token 能够关注到其他窗口的对应 Token 。然而，这些仅依赖于空间定位的方法忽视了 Token 语义，可能限制了自注意力建模语义依赖的能力。为了减轻这个问题，DGT [35]采用k-means聚类进行 Query 分组，考虑 Token 的语义信息以增强特征学习。然而，k-means聚类的迭代性质以及每个簇中 Token 数量可能不均，这影响了并行注意力操作的效率。

考虑到这些因素，一个理想的 Token 划分方案应该高效地分离 Token ，融入语义信息，并高效利用计算资源（如GPU）。对此，作者提出了一种简单、快速且公平的聚类方法，名为Semantic Equitable Clustering（SEC）。SEC根据 Token 与全局语义信息的关联度来分割 Token 。具体来说，作者使用全局池化生成一个包含全局语义信息的全局 Token 。然后计算这个全局 Token 与所有其他 Token 之间的相似性，反映全局语义相关性。在获得相似性矩阵后，将 Token （除全局 Token 外）按相似性分数排序，并将相似分数的 Token 分组到簇中，确保簇间 Token 分布均匀。如图1所示，SEC全面考虑了 Token 语义，并在单次迭代中完成聚类过程，与多次迭代的k-means不同。由此产生的包含相等数量 Token 的簇可以被GPU高效地并行处理。

图1：窗口划分、动态k-means分组与语义公平聚类的比较。作者的语义公平聚类在保持高效聚类的同时融入了图像语义，无需像k-means那样的迭代过程。此外，它使得 Token 的均等划分成为可能，促进了无需额外CUDA优化的GPU高效处理。

图2：在ImageNet-1K上，resent SOTA模型的Top-1准确度与FLOPs对比。SecViT在所有设置中均超越了所有同类模型。

4.484.2%的准确度，无需额外的训练数据或监督。这种卓越的性能在不同规模的模型中得以保持。此外，SecViT在包括但不限于目标检测、实例分割和语义分割的下游任务中证明了其专业能力。例如，仅具有111M55.1

47.6

2 相关工作

视觉Transformer（ViT）[13]被认为是一个强大的视觉架构，因其出色的视觉建模能力而受到认可。许多研究改进了Vision Transformer，包括提高其训练效率和降低计算成本。DeiT使用了蒸馏损失，并将大量的数据增强方法融入到ViT的训练过程中，这增加了模型的数据利用效率，使其能够在数据较少的情况下训练出有效的ViT。由PVT 表示的分层结构通过下采样键和值（KV）减少了全局注意力中的标记数量，从而将全局注意力的计算成本保持在可接受的范围内。除了使用下采样减少标记数量外，一些方法还直接根据标记的重要性进行剪枝，保留重要标记同时丢弃或合并不重要标记[15; 42]。这减少了标记的数量，进而降低了模型的计算成本。另一种极具代表性的方法是将所有标记分组，使得每个标记只能关注其所在组内的标记。这种方法也显著降低了自注意力的计算成本。

基于分组的视觉Transformer。大多数基于分组的注意力机制根据空间结构进行分组[36; 12; 48; 11; 35]。具体来说，Swin-Transformer [36] 根据它们的空间位置将所有标记划分为大小相等的窗口，其中每个标记只能关注其自身窗口内的标记。这显著降低了模型的计算成本。相比之下，CSWin [12] 将标记划分为交叉结构，这也降低了模型的计算成本。除了沿空间维度将标记划分为小窗口外，DaViT [11] 还沿通道维度将通道划分为多个组。与仅考虑位置信息进行分组的方法不同，DGT [35] 通过使用k-means聚类来对 Query 进行分组，同时考虑了语义信息。

3 Method

Overall Architecture

SecViT块由三个模块组成：条件位置编码（CPE）[7]，基于语义公平聚类的自注意力（SECA）以及经典的前馈网络（FFN）[49]。一个完整的SecViT块可以用方程式1表示：

Semantic Equitable Clustering

正如先前所提及，语义公平聚类的设计目标有三：

在聚类过程中充分考虑不同标记中包含的语义信息。
与需要多次迭代的k-means等其他聚类方法不同，语义公平聚类可以在一步完成聚类。
确保每个簇中标记数量相等，便于在GPU上进行并行处理。在以下段落中，作者将详细描述作者的语义公平聚类如何实现这三个目标。整个过程如图3(c)所示。

与语义相关的单一聚类中心。k-means之所以相对复杂，有两个原因。首先，它具有多个聚类中心，每个标记需要计算其与每个聚类中心的距离以确定其簇成员身份。其次，K-means中每个聚类中心的确定并不精确，需要多次迭代才能准确建立簇中心。

适用于ViT的距离度量。与在K-means算法中用于计算标记之间距离的欧氏距离计算不同，在实际计算Self-Attention时，通过点积计算 Query 和键之间的相似性。为了更好地适应Self-Attention的特点，作者使用与点积类似的方法来测量标记之间的距离。具体来说，作者计算聚类中心与每个标记之间的余弦相似度，并根据计算结果的幅度对标记进行排序。具体过程如公式3所示：

基于以上步骤，作者完成了以最小的排序成本捕捉图像中语义信息的聚类过程。此外，与K-means相比，作者已经实现了每个簇的均等划分。聚类完成后，作者在每个簇内的标记上应用标准的Self-Attention（SECA），从而完成标记间信息的交互。

在完成SECA之后，为了进一步增强模型捕捉局部信息的能力，作者采用了一个局部上下文增强模块来建模局部信息，其中LCE [62; 12] 是一个简单的深度卷积：

4 Experiments

作者在包括ImageNet-1k [10]上的图像分类、COCO [33]上的目标检测和实例分割以及ADE20K [61]上的语义分割在内的广泛视觉任务上进行了实验。所有模型都可以使用8个A100 80G GPU进行训练。

ImageNet Classification

作者从头开始在ImageNet-1k [10]上训练作者的模型。为了公平比较，作者遵循DeiT [47]中的训练策略，仅以分类损失作为监督。对于SecViT-T、SecViT-S、SecViT-B和SecViT-L，增加随机深度[23]的最大速率分别设置为0.1、0.15、0.4和0.5。

与SOTA的比较。作者将SecViT与众多最先进的模型进行比较，结果展示在表1中。SecViT在所有尺度上一致优于先前模型。值得注意的是，SecViT-S仅用1500万个参数和2.5G FLOPs就达到了84.2%的Top1准确率。对于更大的模型，SecViT-L在9600万个参数和18.1G FLOPs的情况下达到了**85.6%**的Top1准确率。

与 Baseline 的严格比较。作者选择了两个 Baseline ：一个通用目的的 Backbone 网络，Swin-Transformer [36]，和一个以效率为导向的 Backbone 网络，FasterViT [19]，以与作者的SecViT进行比较。在比较模型（SEC-Swin和SEC-FasterViT）中，作者仅将原始Swin-Transformer和FasterViT中的注意力机制替换为基于语义平等聚类的自注意力，而没有引入其他任何模块（如CPE、卷积Stem等）。如表2所示，仅替换注意力机制就能在性能和效率方面带来显著优势。具体来说，SEC-Swin在Tiny和小型模型尺寸上实现了比Swin**2.0%**的改进甚至超越。同时，SEC-FasterViT在参数更少的情况下达到了比FasterViT更高的准确率。

Object Detection and Instance Segmentation

的盒AP和

与CSWin-Transformer的比较。如表6所示，基于SecViT-T架构，作者将SECA替换为来自CSwin-Transformer的CSWSA。这导致分类性能显著下降（下降了1.2%）。这充分证明了作者提出的标记聚类方法的有效性。

Lce。LCE是一个简单的深度卷积模块，用于进一步增强模型建模局部信息的能力。作者对LCE进行了消融实验，并发现它对模型性能有一定的提升作用。结果在表6中展示。具体来说，它将模型的分类准确率提高了**+0.2**。

Cpe。在CPVT [7]中提出的CPE是一种即插即用、高度可移植的位置编码方法，被许多方法广泛采用以向模型提供位置信息。它由仅包含3x3深度卷积的残差块组成。表6中关于CPE的消融结果表明，它为模型提供了一定的性能提升（大约在分类准确率上增加了**+0.2**）。

Conv Stem。Conv Stem在模型的早期阶段使用，以提取更精细的局部特征。如表6中的数据所示，在分类任务中，Conv Stem在一定程度上增强了模型的性能。具体来说，Conv Stem将分类准确率提高了**+0.3**。

表7：聚类数量的影响。

聚类数量的影响。在表7中，作者验证了在模型的最初三个阶段选择不同聚类数量对性能的影响。对于SecViT-S，作者分别为前三个阶段选择了32、8和2个簇。这个配置达到了84.2%的分类准确率。随着作者在每个阶段逐渐增加簇的数量，模型的总体计算量减少，准确率略有下降。这证明了语义聚类在聚类数量方面的鲁棒性。

Visualization of Semantic Clustering

为了进一步了解作者的语义公平聚类是如何工作的，作者可视化了一些样本的聚类结果。如图4所示，作者选择了预训练SecViT-B的第一、第二和第三阶段来观察不同标记的聚类结果。在图中，颜色相同的 Patch 属于同一个簇。很明显，在第一和第二阶段，作者的模型倾向于捕捉详细的信息，而在第三阶段，它倾向于捕捉语义信息。

5 Conclusion

作者提出了一种简单直接的针对视觉 Transformer （Vision Transformers）的聚类方法——语义公平聚类（Semantic Equitable Clustering，简称SEC）。

该方法通过计算每个标记与全局标记之间的相似性，然后相应地进行排序，将每个标记分配给一个簇。作者的聚类方法考虑了标记中包含的语义信息，在一步内完成聚类，并确保每个簇中标记数量相等，这有助于在现代GPU上进行高效的并行处理。基于语义公平聚类，作者设计了SecViT，一个多功能的视觉 Backbone 网络，在包括图像分类、目标检测、实例分割和语义分割在内的各种视觉任务上取得了令人印象深刻的结果。