由鹏城实验室、哈工大深圳和University of California at Merced组成的团队在CVPR2024 PVUW比赛的MOSE视频对象分割赛道获得冠军。
视频对象分割(VOS)是一项广泛应用于自动驾驶、增强现实和交互式视频编辑等领域,其主要任务是从视频序列中跟踪和分割目标对象。然而,当前的VOS方法面临许多挑战,如目标外观的显著变化、遮挡以及由于类似对象和背景杂乱导致的身份混淆,尤其在处理长视频和复杂真实环境视频时,这些问题更加突出。
为了应对这些挑战,团队提出了一种新的VOS框架,通过学习语义先验和辨别性查询表示来提升性能, 如图1所示。
图1 整体框架
由于VOS任务涉及的是没有类别标签的通用对象,从VOS数据集中直接学习语义表示具有一定挑战性。然而,预训练的视觉Transformer中的CLS token能够捕捉整个图像的语义信息,提供图像内容的全面、全局表示。
通过将CLS Token与卷积神经网络(CNN)生成的多尺度特征结合,可以在不同尺度上获取详细的语义特征。报告中作者团队使用交叉注意力机制来进行VOS的语义先验和空间依赖关系学习。这一设计不仅能够捕捉目标的细节信息,还能有效处理目标外观随时间变化的问题。
作者团队注意到,直接使用基于在线预测掩码生成的整个对象区域更新目标查询记忆鲁棒性不足,因为预测掩码通常覆盖背景噪声,降低了目标的独特性,并导致错误随时间累积。
为了在帧之间有效传播目标查询,作者们使用目标对象最具辨别力的特征来更新目标查询。通过将目标查询与目标的相关特征图中的每个通道进行比较,并选择最相似的一个,从而选择目标的辨别性特征。基于从新目标样本生成的辨别性目标特征,可以通过动态计算显著查询和显著像素特征之间的关系,以叠加的方式更新目标查询。
所提出的辨别性查询生成方法能够自适应地选择最具代表性的特征来优化目标查询,这有助于应对长视频中目标外观剧烈变化的挑战。通过这一方法,有效地提高了模型在复杂场景和目标变化情况下的视频对象分割性能。该方法在MOSE数据集上进行了严格的验证。MOSE数据集包含复杂且具有挑战性的场景,包括遮挡和拥挤的对象,专注于现实环境中的问题。
实验结果表明,该方法在处理目标外观变化、遮挡和ID混淆等问题上表现出色,完成了在复杂场景下实现高精度目标跟踪和分割的任务,显著提升了VOS在真实世界应用中的效果。更详细的论文正在评阅中。
表1 MOSE Track最终结果和排名
图2 复杂环境中目标的跟踪与分割效果
图3 极小目标的跟踪与分割效果