TPAMI 2024 | 用于图像匹配的动态关键点检测网络

小白学视觉

发布于 2024-09-27 14:32:21

510

发布于 2024-09-27 14:32:21

文章被收录于专栏：深度学习和计算机视觉

题目：Dynamic Keypoint Detection Network for Image Matching

用于图像匹配的动态关键点检测网络

作者：Yuan Gao; Jianfeng He; Tianzhu Zhang; Zhe Zhang; Yongdong Zhang

摘要

在现实世界的挑战，如光照、视角和尺度变化的情况下，建立一对图像之间的有效对应关系是困难的。现代基于检测器的方法通常从给定数据集中学习固定的检测器，这很难提取在极端外观变化和纹理稀疏场景下对各种图像重复且可靠的关键点。为了解决这个问题，我们提出了一种新颖的动态关键点检测网络（DKDNet），通过动态关键点特征学习模块和引导的热图激活器，实现鲁棒的图像匹配。所提出的DKDNet具有几个优点。首先，所提出的动态关键点特征学习模块可以通过注意力机制生成自适应的关键点特征，该机制可以随着当前输入图像灵活更新，并且能够捕获具有不同模式的关键点。其次，引导的热图激活器可以通过充分考虑不同特征通道的重要性来有效地融合多组关键点热图，从而实现更鲁棒的关键点检测。在四个标准基准上的广泛实验结果表明，我们的DKDNet在性能上大幅度超越了最先进的图像匹配方法。具体来说，我们的DKDNet在HPatches上的AUC@3px上比最佳图像匹配方法高出2.1%，在ScanNet上的AUC@5°上高出3.74%，在MegaDepth上的AUC@5°上高出7.14%，在YFCC100M上的AUC@5°上高出12.32%。

关键词

注意力机制
动态关键点检测
图像匹配

摘要

在现实世界的挑战，如光照、视角和尺度变化的情况下，建立一对图像之间的有效对应关系是困难的。现代基于检测器的方法通常从给定数据集中学习固定的检测器，这很难提取在极端外观变化和纹理弱的场景中各种图像的可重复和可靠的关键点。为了解决这个问题，我们提出了一种新颖的动态关键点检测网络（DKDNet），通过动态关键点特征学习模块和引导热图激活器，实现鲁棒的图像匹配。所提出的DKDNet具有几个优点。首先，所提出的动态关键点特征学习模块可以通过注意力机制生成自适应的关键点特征，该机制可以随着当前输入图像灵活更新，并且能够捕获具有不同模式的关键点。其次，引导热图激活器可以通过充分考虑不同特征通道的重要性来有效地融合多组关键点热图，从而实现更鲁棒的关键点检测。在四个标准基准上的广泛实验结果表明，我们的DKDNet在性能上大幅度超越了最先进的图像匹配方法。具体来说，我们的DKDNet在HPatches上的AUC@3px、ScanNet上的AUC@5°、MegaDepth上的AUC@5°和YFCC100M上的AUC@5°上分别比最佳图像匹配方法高出2.1%、3.74%、7.14%和12.32%。

关键词

注意力机制
动态关键点检测
图像匹配

引言

在一对图像之间找到像素级对应关系是计算机视觉中的一个基本任务，它可以应用于视觉定位[1]、[2]、姿态估计[3]、[4]以及同时定位与地图构建（SLAM）[5]、[6]。由于其广泛的应用潜力，它已经吸引了越来越多的来自学术界和工业界的关注，近年来提出了许多方法[7]、[8]、[9]、[10]、[11]。然而，由于现实世界中的挑战，如光照、视角和尺度变化，仍然存在困难。

为了克服上述挑战，已经提出了许多图像匹配方法[9]、[11]、[12]、[13]。一般来说，现有工作可以分为两组，包括无检测器方法[10]、[11]、[13]、[14]、[15]、[16]和基于检测器的方法[7]、[8]、[9]、[17]、[18]、[19]。对于无检测器方法，目标是在图像之间建立密集点的对应关系，因为没有设计关键点检测器[10]、[11]、[13]。NCNet[10]构建4D代价体积来枚举图像之间所有可能的匹配，并在建立的匹配之间实施邻域一致性约束。由于4D代价体积中考虑了所有可能的匹配，无检测器方法取得了巨大的成功。然而，这些方法[10]、[11]通常因为缺乏关键点检测过程来减少匹配空间而遭受高计算成本。不同地，基于检测器的方法[7]、[8]、[12]、[20]旨在通过设计的关键点检测器提取的稀疏匹配点之间找到匹配。如今，这些方法在图像匹配领域仍然很受欢迎，通常包括三个主要阶段。首先，设计一个关键点检测器[17]、[21]来检测局部可重复的显著点，然后从每个关键点周围的局部区域提取描述符[22]，最后从关键点对之间的所有可能候选匹配中选择一组高置信度的匹配[9]。在这些方法中，SIFT[21]是最知名的手工制作检测器之一，它通过利用与图像卷积的差异-高斯函数来检测空间尺度关键点。最近，一些关键点检测器以数据驱动的方式被设计出来[7]、[8]、[17]。例如，R2D2[8]试图学习一个固定的1×1卷积核作为关键点检测器。然后，通过关键点检测器和图像特征图之间的内积操作获得关键点热图。

基于上述讨论，为了实现鲁棒的关键点检测以进行图像匹配，应该很好地设计关键点检测器，然后提出一个关键点热图计算策略，以利用关键点检测器和图像特征图获取关键点热图。具体来说，应该考虑以下两个方面。1) 关键点检测器设计。一般来说，不同图像中的关键点具有不同的模式，由于诸如光照、视角、尺度和对象类别变化等多样化的现实世界挑战而显著变化。传统的基于检测器的方法，如SIFT[21]，使用手工算法设计关键点检测器，这些方法很容易受到人类先验知识的局限，缺乏灵活性。为了缓解这个问题，已经提出了数据驱动的检测器[7]、[8]、[12]、[19]。然而，这些方法（例如R2D2[8]）大多只能从给定数据集中获得一个固定的检测器，可能缺乏适应不同关键点模式的灵活性。尽管已经提出了一些方法[12]通过丰富训练数据集来解决这个问题，但这并不值得，因为构建这样一个学习数据库既耗时又费力。因此，为了处理多样化的挑战因素，需要设计动态关键点检测器。如图1所示，我们可以看到设计出的动态关键点检测器可以随着输入图像灵活更新，并动态感知不同模式的关键点。2) 关键点热图计算。大多数先前的方法[8]直接通过点积操作计算关键点特征和图像特征图之间的相似性来获得关键点热图，这会丢失很多信息，因为它只产生一个关键点热图，而没有充分考虑不同特征通道的重要性[23]。因此，有必要提出一种更有效的热图计算策略，可以充分考虑不同特征通道的重要性。

受到上述观察的启发，我们提出了一种新颖的动态关键点检测网络（DKDNet），用于图像匹配，通过动态关键点特征学习模块和引导热图激活器。如图2所示。在动态关键点特征学习模块中，它被设计为在训练和测试期间为每个输入图像生成自适应的关键点特征。考虑到传统方法中使用的单一和固定关键点检测器的缺点，我们设计了多个原型关键点特征（PKFs）。这里，不同的PKFs旨在关注不同模式的关键点，我们设计的关键点检测器可以随着每个输入图像自适应更新。具体来说，我们首先引入自注意力机制来显式地模拟多个PKFs之间的相互作用。然后，使用交叉注意力机制通过显式模拟PKFs和图像特征图F之间的相互作用来生成自适应的关键点特征。最后，在整体目标函数的指导下，每个关键点特征学习特别适合特定模式（例如形状和纹理变化）。此外，由于PKFs和图像特征图之间的相互作用，生成的关键点检测器获得了长距离信息，这有助于处理强烈的外观变化。在引导热图激活器中，我们提出了一种新方法来获取关键点热图，可以充分考虑不同特征通道的重要性。具体来说，我们将生成的关键点检测器和图像特征图的特征通道分成多个组，然后利用组相关模块分别计算与每个组相关的多组关键点热图，然后使用从图像特征图计算出的引导权重进行融合。

这项工作的主要贡献可以总结如下。1) 我们提出了一种新颖的动态关键点检测网络，用于图像匹配，通过动态关键点特征学习模块和引导热图激活器，可以实现对各种挑战因素鲁棒的动态关键点检测。2) 所提出的动态关键点特征学习模块可以根据当前输入图像通过注意力机制灵活更新，这有利于检测具有不同模式的关键点，并且适合多样化的挑战。引导热图激活器可以充分考虑不同特征通道的重要性，有助于实现更鲁棒的关键点检测。3) 在四个具有挑战性的基准上的广泛实验结果表明，我们的方法在性能上大幅度超越了最先进的图像匹配方法。

Ⅲ 我们的方法

在本节中，我们提出了用于图像匹配的动态关键点检测网络。整体架构如图2所示。

A. 概述

B. 动态关键点特征学习模块

C. 引导热图激活器

D. 目标函数

E. 讨论

在本节中，我们讨论了我们提出的动态关键点检测网络（DKDNet）与现有的一些先进方法之间的主要区别和联系。

R2D2：R2D2旨在检测可重复和可靠的关键点。然而，它使用固定的卷积核作为关键点检测器，其关键点热图是通过直接计算关键点特征和图像特征图之间的相似性通过点积操作获得的。因此，关键点检测缺乏对测试图像中不同关键点模式的适应性，这不利于处理图像匹配中的多样化挑战。不同地，我们尝试设计一个动态关键点特征学习模块，该模块利用多个原型关键点特征生成一组动态关键点特征，这些特征能够适应输入图像，在训练和测试期间都能实现。
DETR：DETR是专门为目标检测任务提出的。通过设计一个有效的Transformer编码器-解码器，包含一组对象查询，它可以通过交叉注意力机制在对象查询和全局图像上下文之间建立交互，然后并行输出最终的一组检测预测。与DETR不同，我们的动态关键点检测器是专门为图像匹配任务设计的。此外，我们还引入了一个引导热图激活器来考虑不同特征通道的重要性，这有助于从不同对象中提取鲁棒的关键点。
MaskFormer和Mask2Former：MaskFormer和Mask2Former是专门为语义分割任务提出的。受DETR启发，MaskFormer利用强大的注意力机制有效地与输入图像进行交互，并计算一组对，每个对包括一个类别预测和一个相应的掩码嵌入向量。基于MaskFormer，Mask2Former还引入了一种新颖的多尺度方法，有效利用高分辨率特征以增强整体性能。与MaskFormer和Mask2Former不同，我们提出的方法专门针对图像匹配任务中的复杂挑战。我们利用动态关键点特征来识别输入图像中的不同模式的关键点。此外，我们还设计了一种新颖的引导热图激活器，有助于识别每个关键点最相关的特征通道。通过选择性地关注最有信息量的通道，我们的方法可以更准确、更鲁棒地检测关键点，即使在具有挑战性的条件下也是如此。这些创新使我们的方法在图像匹配任务中实现了最先进的结果。
与R2D2、DETR、MaskFormer和Mask2Former的不同之处：与R2D2、DETR、MaskFormer和Mask2Former不同，我们将注意力机制应用于关键点检测和图像匹配，从而实现了一个动态关键点特征学习模块，该模块可以使用一组原型关键点特征生成多个动态关键点特征。通过这种方式，我们设计的关键点检测器可以专注于各种模式的关键点，并适应每个输入图像。我们还设计了一种新颖的方法来计算关键点热图，充分考虑了不同特征通道的重要性。

IV. 实验

在本节中，我们首先介绍实现细节。然后，我们在四个公共基准上展示实验结果。最后，进行了一系列消融研究以验证每个组件的有效性。

A. 实现细节

在这项工作中，我们使用Pytorch [46]实现了所提出的模型。与[8]中一样，骨干网络受到L2-Net [31]的启发，有两个小的差异：(a) 为了在所有阶段保持输入分辨率，将下采样替换为扩张卷积，(b) 最后的卷积层被3个连续的卷积层替换。实验表明，这种修改在权重数量上减少了5倍，同时保持了类似的精度。注意力层的数量设置为3，dropout操作的因子设置为0.1，前馈的维度设置为256。至于热图激活器，组的数量设置为8，通过卷积实现多组热图融合。将图像特征图放入具有内核大小为的卷积层后，输出的引导权重应用于关键点热图。然后，通过卷积获得最终的关键点热图。目标函数中的权重项设置为0.6，设置为1.2。我们采用了R2D2 [8]提出的关键点检测策略来进行完整的检测过程。具体来说，我们从原始尺寸开始，逐步处理输入图像的各个尺度。我们从原始尺寸开始，逐步将图像下采样2的幂次，直到图像小于128像素。在每个尺度上，我们将检测到的关键点投影回原始尺寸，并结合它们以生成最终的关键点。对于最终的最近邻匹配，我们使用的描述符是CNN骨干网络（即图像特征图F）的输出，与R2D2 [8]类似。对于训练，我们采用了与R2D2相同的数据集[1]、[47]、[48]作为户外训练数据集，以及[49]作为室内训练数据集。一开始，动态关键点特征学习模块和引导热图激活器中的所有参数都是随机初始化的，我们从头开始训练这些参数。我们使用Adam优化器[50]训练我们的模型。学习率设置为，权重衰减为。在单个RTX 3090 GPU上训练24小时后收敛。

B. 数据集和评估指标

HPatches: HPatches [51]数据集是评估图像匹配性能的流行基准，包含116个场景的真实单应性。对于每个场景，第一幅图像被视为参考图像，该场景中的其余五幅图像用作查询图像。这里，我们遵循[8]、[19]的评估程序，排除了8个高分辨率序列，剩下108个图像序列。在这些序列中，56个包含视角变化大，52个在光照变化显著。至于评估指标，我们使用与[13]相同的定义，并报告角错误累积曲线下的面积（AUC）。

YFCC100M: YFCC100M数据集[53]通常用于验证户外姿态估计的性能。它包含1亿张来自互联网的照片。图像对具有充足的光照和尺度变化，使数据集具有挑战性。我们采用与[9]、[54]相同的测试对进行评估，即在该数据集的4个场景中，每个场景由1000个图像对组成。真实的姿态是通过使用现成的SfM工具[55]生成旅游地标的3D重建来创建的。为了恢复相机姿态，我们使用预测的匹配来估计本质矩阵与RANSAC [56]。最后，可以根据这个本质矩阵计算旋转矩阵和平移向量。与以前的作品[9]、[54]、[57]一致，我们使用的评估指标是姿态误差的AUC，在阈值(5°, 10°, 20°)。

ScanNet: ScanNet [49]是一个大规模室内数据集，用于针对室内姿态估计任务。它由具有真实姿态和深度图像的单目序列组成。由于包含宽基线和广泛无纹理区域的图像对，该数据集具有挑战性。我们遵循[9]、[13]的工作设置，并使用[9]中的1500个图像对来评估所提出的模型。这里，我们采用的评估指标与上述户外情况相似，即报告室内姿态误差的AUC在阈值(5°, 10°, 20°)。

MegaDepth: MegaDepth [58]由196个场景的100万张互联网图像组成。此外，还提供了由COLMAP [59]构建的这些图像的稀疏3D点云和深度图。极端视角变化和重复模式是MegaDepth的主要挑战。我们遵循[13]的工作设置，并使用[13]中的1500个图像对来评估所提出的模型。这里，我们采用的评估指标与上述户外情况相似，即报告姿态误差的AUC在阈值(5°, 10°, 20°)。

C. 与最先进方法的比较

在HPatches数据集上的结果：我们所提出的DKDNet与其他最先进的图像匹配方法[7]、[8]、[9]、[11]、[13]、[15]、[19]、[52]进行了比较。结果表明，我们的方法在所有方面都优于其他方法。得益于我们提出动态关键点特征学习模块和引导热图激活器，我们的方法能更好地处理现实世界中的挑战，如光照变化和视角变化。与表现最好的现有方法LoFTR [13]相比，我们的DKDNet在AUC@3px、AUC@5px和AUC@10px上的总体性能分别提高了2.1%、3.1%和3.4%。与基线相比，我们提出的方法在AUC@3px、AUC@5px和AUC@10px上分别比R2D2 [8]提高了17.4%、14.8%和11.2%。这充分证明了我们提出动态关键点特征学习模块和引导热图激活器的有效性。此外，我们对我们提出的方法进行了全面的评估，仅使用单尺度推理。如表II所示，我们报告了可重复性、匹配得分和关键点定位误差。可以看出，我们提出的方法在可重复性(Rep.)、匹配得分(M. Score)和关键点定位误差(MLE)方面均优于先前最先进的方法[52]，分别提高了10.9%、15.9%和37.2%。最后，我们在图5中展示了一些定性结果。可以发现，我们的方法在面对光照变化（前两行）和视角变化（后两行）的挑战时，能够实现鲁棒的关键点检测并表现良好。

为了进一步证明我们提出的DKDNet可以有效地实现对各种挑战性因素具有鲁棒性的动态关键点检测并获得更可靠的图像匹配结果，我们展示了与几种最先进方法的定性比较，包括HPatches上的R2D2 [8]，SuperGlue [9]和LoFTR [13][51]。我们在图3中给出了光照变化下的定性比较，在图4中给出了视点变化下的定性比较。绿色和红色十字分别表示正确和不正确的匹配。很明显，我们提出的方法检测到更强大的关键点，并在不同的光照和视点变化下实现了更高的匹配精度。

在YFCC100M数据集上的结果：如表III所示，我们比较了我们提出的方法与其他最先进的图像匹配方法[7]、[8]、[9]、[13]、[34]。结果表明，我们提出的方法可以大幅度超越其他图像匹配方法。与表现最好的现有方法LoFTR [13]相比，我们的DKDNet在AUC@5°、AUC@10°和AUC@20°上分别提高了12.32%、7.94%和2.66%。与基线相比，我们提出的方法在阈值(5°, 10°, 20°)上均优于R2D2 [8]。具体来说，我们的DKDNet在AUC@5°、AUC@10°和AUC@20°上分别提高了18.75%、16.67%和11.93%。结果表明，我们的方法在YFCC100M数据集上明显优于其他图像匹配方法。在图6中，我们展示了一些定性结果。每行显示了测试集中特定场景的一对图像。与HPatches相比，同一匹配对中存在多个挑战，如图6所示。因此，对关键点特征的鲁棒性有更高的要求。我们提出的方法能够在YFCC100M数据集上实现鲁棒的图像匹配，这在很大程度上得益于我们提出的动态关键点特征学习模块和引导热图激活器。借助这两个设计，我们的方法可以适应各种挑战，为不同模式的关键点动态捕获不同的模式。

在ScanNet数据集上的结果：我们比较了我们提出的方法与其他最先进的图像匹配方法[7]、[8]、[9]、[11]、[13]、[19]、[34]、[54]、[57]、[60]、[61]。如表IV所示，我们提出的方法在所有3个阈值上都优于其他最先进的方法。与表现最好的现有方法LoFTR [13]相比，我们的DKDNet在AUC@5°、AUC@10°和AUC@20°上分别提高了3.74%、5.51%和7.15%。与基线

相比，我们提出的方法在AUC@5°、AUC@10°和AUC@20°上分别比R2D2 [8]提高了18.37%、28.86%和36.13%。结果表明，我们的方法可以在室内场景中实现更准确的位姿估计。显然，我们的模型能够在室内姿态估计中建立准确的对应关系，并在图像匹配方法中实现了最先进的性能。最后，我们在图7中展示了一些定性结果。每行显示了测试集中特定场景的一对图像。可以看出，ScanNet数据集中的主要挑战因素是广泛无纹理区域的存在。我们的方法能够在ScanNet上实现所有图像匹配方法中的最佳性能。我们将最高性能归因于我们设计的动态关键点特征学习模块和引导热图激活器，它们可以充分考虑不同特征通道的重要性，并自适应地提取显著的关键点，以减轻无纹理区域中的匹配混淆。为了进一步洞察我们提出的方法所取得的优越性能，我们在ScanNet [49]上展示了与最先进方法的定性比较。如图9所示，我们的方法可以保留比其他方法更多的正确匹配点，这有助于实现更优越的性能。

在MegaDepth数据集上的结果：我们比较了我们提出的方法与其他最先进的图像匹配方法[7]、[8]、[9]、[11]、[13]。如表V所示，我们提出的方法在位姿精度方面优于所有竞争对手。与表现最好的现有方法LoFTR [13]相比，我们的DKDNet在AUC@5°、AUC@10°和AUC@20°上分别提高了7.14%、4.73%和2.64%。与基线相比，我们提出的方法在所有错误阈值下都显著优于R2D2 [8]。具体来说，我们的DKDNet在AUC@5°、AUC@10°和AUC@20°上分别提高了22.80%、18.83%和14.17%。结果证明了我们设计的效...

D. 消融研究

为了分析我们提出的方法的有效性，我们在HPatches、ScanNet和YFCC100M数据集上进行了一系列消融研究。

动态关键点特征学习模块的有效性：为了证明动态关键点特征学习模块的有效性，我们将这个模块添加到基线R2D2 [8]中，并与[8]进行比较。加入动态关键点特征学习模块(DKF)后，在HPatches、ScanNet和YFCC100M数据集上的性能显著提高。具体来说，在加入动态关键点特征学习模块后，性能在HPatches上提高了16.3%，在ScanNet上提高了16.63%，在YFCC100M上提高了16.34%。主要原因是我们提出的动态关键点特征学习模块能够适应当前输入图像，并动态生成能够分别关注特定模式关键点的关键点特征。因此，不同模式的关键点可以更成功、更鲁棒地被检测到。

为了进一步验证我们提出的动态关键点特征学习模块的有效性，我们研究了原型关键点特征数量的影响。我们设计了七个模型，分别设置、、、、、和，并在HPatches、ScanNet和YFCC100M数据集上评估性能。如表VI所示，我们发现整体性能随着的增加而提高，当时模型可以获得最佳性能。当继续增加时，结果不再提高。原因可能是设置能够充分考虑各种挑战中不同模式的关键点，更多的关键点特征原型可能会由于缺乏足够的显式约束而影响我们网络的训练。此外，即使，我们提出的方法仍然比Superglue [9]在AUC@3px、AUC@5px和AUC@10px上分别提高了9.1%、8.0%和3.5%。这一结果证明了我们提出的关键点检测器学习策略的有效性，该策略利用了Transformer解码器。

引导热图激活器的有效性：为了证明引导热图激活器的有效性，我们将其应用于基线R2D2 [8]进行比较。具体来说，加入引导热图激活器(GHA)后，在HPatches上的性能提高了1.6%，在ScanNet上提高了4.94%，在YFCC100M上提高了2.24%。主要原因是引导热图激活器可以充分考虑不同特征通道的重要性，并专注于每个输入图像中不同关键点的相关通道，从而实现更鲁棒的关键点检测。

为了进一步验证我们提出的引导热图激活器的有效性，我们研究了特征通道组数的影响。我们设计了五个模型，分别设置、、、和，并在HPatches、ScanNet和YFCC100M数据集上评估性能。如表IX所示，我们发现当时模型可以获得最佳性能。增加更多组时没有性能增益。原因可能是设置能够充分考虑不同特征通道的重要性。

计算开销分析：为了评估我们方法的效率，我们对每个组件带来的计算开销进行了全面分析。结果如表X所示。SuperGlue [9]的训练成本无法获得，因为源代码未公开。如表X所示，主要的计算开销是由多尺度推理带来的。具体来说，这一过程将测试成本增加了0.4 GPU小时。值得注意的是，我们方法的计算开销在没有多尺度推理的情况下与其他方法相当。重要的是，与LoFTR [13]相比，我们的方法在效率上更优越，减少了0.38 GPU小时的计算开销。此外，即使没有多尺度推理，我们的方法在ScanNet数据集上仍然比LoFTR高出2.31%、3.70%和5.60%。

注意力机制的有效性：我们提出的动态关键点检测网络主要依赖于动态关键点特征学习模块，其中我们利用自注意力来显式模拟不同PKFs之间的相互作用，利用交叉注意力来显式模拟PKFs和图像特征图之间的相互作用。得益于注意力机制，不同的PKFs可以学习关注每个输入图像中的不同模式的关键点，并生成自适应的关键点特征，从而实现鲁棒的关键点检测。为了进一步证明注意力机制的有效性，我们研究了注意力层数量的影响。如表VII所示，我们发现在之前，性能随着注意力层数的增加而提高，增加更多层时性能提升不大。考虑到更多的注意力层会增加计算成本，我们在实验中选择。此外，我们还分别研究了多头数量和前馈维度的不同设置。当改变时，固定为256；当改变时，固定为8。如表VII所示，我们发现在和时获得了最佳性能。

密集损失的有效性：为了进一步验证我们提出的密集损失的有效性，我们在ScanNet数据集上进行了消融研究。结果如表XI所示，使用密集损失的性能在AUC@5°、AUC@10°和AUC@20°上分别提高了1.85%、2.36%和2.23%。

多尺度检测的有效性：为了进一步证明多尺度检测的有效性，并提供公平的比较，我们在ScanNet数据集上进行了消融研究，如表XII所示。结果表明，我们的多尺度检测将我们方法的性能提高了1.43%、1.81%和1.55%。值得注意的是，我们的方法在采用和不采用多尺度推理的情况下都优于其他最先进的基于检测器的方法。具体来说，当采用多尺度推理策略时，我们的方法比SuperGlue [9]分别高出9.41%、13.46%和14.32%。此外，即使没有多尺度推理，我们的方法在ScanNet数据集上仍然比LoFTR高出2.31%、3.70%和5.60%。

关键点特征行为分析：为了进一步研究我们提出的关键点特征的行为，我们在HPatches数据集上进行了消融研究。具体来说，对于HPatches数据集中的每个图像，我们首先收集每个动态关键点特征提取的关键点。然后，我们计算这些关键点坐标的均值，作为当前关键点特征关注的中心点。如图10所示，我们可以看到不同的关键点特征显示出不同的空间偏好。这些关键点特征会在各自的区域内聚合特征，以捕获不同模式的关键点。

E. 局限性

如图11所示，我们提出的DKDNet很难从主要无纹理区域的图像中提取足够的关键点。因此，我们无法在这些图像之间建立满意的匹配，导致性能较差。虽然可以通过降低关键点检测阈值的自然策略来增加提取的关键点数量，但这些提取的关键点大多数不是可重复的，无法帮助提高匹配精度。在我们的工作中，我们采用了多尺度推理策略来缓解这些挑战。然而，这种策略导致了额外的计算成本。未来，我们希望探索一种更高效的键...

Ⅴ. 结论

在这项工作中，我们提出了一种新颖的动态关键点检测网络（DKDNet），用于图像匹配，通过动态关键点特征学习模块和引导热图激活器。借助这两个精心设计的组件，我们提出的方法可以在统一框架中实现动态关键点检测，以进行准确的图像匹配。所提出的动态关键点特征学习模块可以借助注意力机制为每个输入图像动态生成多个关键点特征，这些特征可以随着当前输入图像灵活更新，并捕获各种挑战的不同模式的关键点。引导热图激活器可以生成多组关键点热图，并使用从图像特征图计算出的引导权重进行融合，这可以充分考虑不同特征通道的重要性，并实现更鲁棒的关键点检测。在四个具有挑战性的基准上的广泛实验结果证明了我们提出的方法的有效性。