Semantics-Guided Contrastive Network for Zero-Shot Object Detection
本公众号将长期、持续致力于分享计算机视觉领域最前沿的科研动态,欢迎各位同学关注、点赞和分享,您的支持是我坚持下去最大的动力。后续将继续为进行代码解读、论文分享。
动动您的小手指,关注一下吧
Part.1
摘要
零样本目标检测(Zero-shot object detection, ZSD)是一项将传统检测模型扩展到从未知类别中检测目标的任务,已成为计算机视觉领域的一个新挑战。大多数现有方法使用严格的映射迁移策略来解决ZSD任务,这可能导致次优的ZSD结果:1)这些模型的学习过程忽略了不可见类的可用语义信息,这很容易偏向于可见类别;2)由于缺乏判别信息,原始视觉特征空间结构不适合ZSD任务。为了解决这些问题,作者为ZSD开发了一种新的语义引导对比网络,名为ContrastZSD,这是一个首次将对比学习机制引入零样本检测领域的检测框架。特别是,ContrastZSD结合了两个语义引导的对比学习子网,分别在区域-类别和区域-区域对之间进行对比。两两对比任务利用了基于真值标签和类相似度信息的监督信号。通过对这些显式语义监督进行监督对比学习,模型可以学习到更多关于未见类别的知识,以避免对已见概念的偏差问题,同时优化视觉数据结构,使其更具判别性,从而实现更好的视觉语义对齐。在两个流行的ZSD基准上进行了大量的实验,即PASCALVOC和MS COCO。结果表明,本文提出的方法在ZSD和广义ZSD任务上都优于以前的最先进的方法。
图1 基于节点到节点投影的传统嵌入函数的ZSD方法示意图(黑色虚线箭头)。
Part.2
拟解决的问题
零样本检测的挑战: 传统的目标检测模型依赖于大量标注数据来训练模型,但标注成本高昂且耗时。零样本学习(Zero-Shot Learning, ZSL)旨在无需类别样本即可识别新类别,而零样本目标检测(ZSD)进一步扩展了这一任务,要求模型不仅能识别还能定位未见类别的目标。
现有方法的局限性: 现有ZSD方法通常采用严格的映射转换策略,这可能导致模型偏向于已知类别,缺乏对未见类别的泛化能力。此外,原始视觉特征空间缺乏区分性,不利于ZSD任务。
Part.3
创新之处
引入对比学习机制: 文章提出了首个将对比学习机制引入ZSD领域的框架,称为ContrastZSD。该框架通过对比学习来优化视觉特征分布,并减轻模型对已知类别的偏见。
语义引导的对比学习子网络: 提出了两个语义引导的对比学习子网络,分别针对区域-类别(Region-Category)和区域-区域(Region-Region)对进行对比。这些子网络利用来自真实标签和类别相似性信息的监督信号,通过监督对比学习来学习未见类别的知识,优化视觉数据结构以获得更好的视觉-语义对齐。
映射对比策略: 与常规的映射转换策略不同,ContrastZSD采用了映射对比策略,通过学习一个共同的中间嵌入空间来调整语义向量和视觉特征的数据结构。
多任务损失函数: 设计了一种新颖的多任务损失函数,结合分类、边界框回归和对比损失,以优化深度网络。
图2 ContrastZSD框架。
Part.4
方法流程
问题定义:
定义了包含前景和背景类别的全类别集合。
引入了类别语义嵌入和类别相似性矩阵,用于描述类别之间的语义关系。
模型架构:
区域特征编码子网络: 使用CNN骨干网络和区域提议网络(RPN)从输入图像中提取全局特征图,生成区域提议(RoIs)和对象级特征。
视觉-语义对齐子网络: 采用映射-转换策略,将区域特征和类别嵌入映射到一个共同的嵌入空间,以便进行直接比较。
语义引导对比学习:
区域-类别对比学习(Region-Category Contrastive Learning, RCCL): 通过对比学习,利用类别嵌入和区域提议之间的一致性,显式地从已知类别向未见类别传递知识,减轻模型对已知类别的偏见。
区域-区域对比学习(Region-Region Contrastive Learning, RRCL): 通过对比学习,利用类别标签信息优化视觉数据结构,提高类内紧凑性和类间可分性。
训练和推理细节:
训练: 采用端到端的训练机制,联合优化网络参数。使用SGD优化器,结合多任务损失函数,包括分类损失、边界框回归损失和对比损失。
推理: 给定测试图像,通过前向传播得到区域提议和相应的特征,然后通过视觉-语义对齐网络生成每个提议的分类得分和坐标偏移,最后应用NMS得到最终检测结果。
实验设置:
在PASCAL VOC和MS COCO数据集上进行评估,这些数据集被划分为已知类别和未见类别的子集。
实现细节包括使用预训练的ResNet-101作为CNN骨干网络,以及使用Word2Vec生成的语义嵌入。
Part.5
实验结果
表1 在PASCAL VOC数据集上,在IoU阈值0.5下的ZSD和GZSD mAP(%),其中“S”和“U”表示在可见类和未见类上的平均性能,“HM”表示它们的调和平均值。
表2 在IoU阈值为0.5的PASCAL VOC数据集上的类智能AP和mAP(%),其中mAPs和mAPu分别指相对于可见类和未见类的mAP值。
表3 MS COCO数据集上不同IoU阈值的ZSD性能(Recall@100(%)和mAP(%)
表4 GZSD性能(以Recall@100(%)和mAP(%)表示),IoU=0.5对MS的每次可见/未见
表5 Class-Wise Recall@100对于MS-COCO的48/17和65/15分割,IoU阈值为0.5
图3 本文提出的ContrastZSD模型在PASCAL VOC数据集上的超参数敏感性。
图4 使用t-SNE可视化PASCAL VOC上的视觉特征分布,其中来自不同类别的点以不同的颜色标记。可见类和未见类的视觉特征分别显示在(a) (b)和(c) (d)中。
图5 在PASCAL VOC数据集上的一些ZSD和GZSD检测结果。已见和未见类别的区域建议分别用红色和绿色方框标记。
图6 在MS COCO数据集的两个分裂上的一些ZSD和GZSD检测结果。对于每次分割,第一行和第二行检测结果分别由ConSE-ZSD和ContrastZSD产生。
版权说明
领取专属 10元无门槛券
私享最新 技术干货