目标检测的最新进展依赖于具有多尺度融合和注意力机制的模块化架构。然而,静态融合启发式方法和类无关注意力机制在存在遮挡、杂乱和类别不平衡的动态场景中限制了性能。我们提出动态类感知融合网络(DyCAF-Net),通过三项创新解决这些挑战:(1)一种基于输入条件的均衡颈部结构,通过隐式固定点建模迭代优化多尺度特征;(2)一种双动态注意力机制,利用输入和类别相关的线索自适应地重新校准通道和空间响应;(3)类感知特征适应,通过调制特征以优先考虑稀有类别的判别区域。通过与YOLOv8及相关架构进行的全面消融研究,以及与九个最先进基线模型的基准测试,DyCAF-Net在13个多样化基准测试中(包括高遮挡和长尾数据集)在精确率、mAP@50和mAP@50-95指标上均取得了显著提升。该框架保持了计算效率(约1110万参数)和具有竞争力的推理速度,同时其对尺度变化、语义重叠和类别不平衡的适应性使其成为医学成像、监控和自主系统等实际检测任务的稳健解决方案。DyCAF-Net的代码可在https://github.com/Abrar2652/DyCAF-NET 获取。 关键词—动态目标检测、类感知注意力、多尺度特征融合、隐式深度均衡模型、类别不平衡缓解
目标检测在YOLOv8[1]和Faster R-CNN[2]等架构的发展下取得了巨大进展,这些架构采用模块化设计,包括主干网络、颈部结构和检测头。其中,负责多尺度特征融合的颈部结构在处理尺度变化这一现实检测场景中的基本挑战方面起着关键作用。传统设计如特征金字塔网络(FPN)[3]和PANet[4]通过自上而下和自下而上的特征传播解决了这一问题。最近的工作如BiFPN[5]引入了可学习的融合权重以增强适应性。然而,这些设计主要依赖静态融合启发式方法,无法在具有异质物体尺度的多样化和动态场景中进行泛化。
除了结构改进外,注意力机制在增强特征判别能力方面显示出潜力。如SENet[6]和CBAM[7]等开创性工作分别引入了通道级和空间重新校准。DyNet[8]等动态网络和可变形注意力方法[9]通过将注意力参数与输入条件关联进一步推动了这一领域,实现了场景依赖的适应。然而,这些注意力模块仍然是类无关的,限制了它们在遮挡或长尾数据分布中解决对象歧义的能力,其中稀有类别通常受到较少关注。
同时,隐式神经架构,如深度均衡模型(DEQ)[10, 11],通过求解固定点提供了一种替代堆叠深层的方法,实现了与深度无关的内存效率。在目标检测中,RecursiveFPN[12]采用了这一原理来迭代优化特征。然而,现有的隐式方法在均衡更新期间不会传播类感知语义线索,限制了它们在杂乱或细粒度设置中的可解释性和判别能力。
解决检测中的类别不平衡通常涉及损失重加权,如类别平衡损失[13]、均衡损失[14]和基于度量学习的方法如RepMet[15]。虽然在重新平衡梯度方面有效,但这些方法不会改变底层特征聚合管道以更好地表示代表性不足的类别。DyHead[16]等架构统一了尺度、空间和任务感知注意力,但忽略了在特征级别进行显式类感知重新校准。现代目标检测器隐含地假设多尺度融合和注意力机制可以在对象类别和场景之间共享。然而,我们认为并证明,在具有尺度异质性、语义重叠和类别不平衡的真实条件下,这一假设会失效。这些问题不仅仅是工程问题,还反映了核心机器学习假设的基础局限性:即未能将归纳偏置基于输入上下文和类别特定语义进行条件化。我们在附录A中对相关工作进行了详细讨论。
为此,我们提出了动态类感知融合网络(DyCAF-Net),这是一种通过三个互补原则重新思考颈部设计的新颖检测框架:
这些创新共同使DyCAF-Net能够自适应地跨尺度、空间区域和类别优先考虑判别线索,弥合了尺度感知融合、上下文感知注意力和类别特定推理之间的差距。
本研究的新颖贡献如下:
现代检测器使用注意力来优化特征,以优先考虑任务相关区域。设表示输入特征图。受SENet[6]和CBAM[7]启发,DyCAF-Net通过输入条件注意力扩展了这些工作:
通道注意力:利用全局上下文重新校准通道重要性。对于通道,权重计算为:
其中是全局平均池化,和是可学习权重,σ是sigmoid激活函数。
空间注意力:通过学习的空间掩码突出区域:
其中⊕连接通道池化特征,将它们减少到。与静态方法不同,DyCAF-Net根据输入场景动态调整和,这对于遮挡对象[17]至关重要。
尺度不变检测需要跨金字塔层级融合特征。设表示第层的特征。虽然PANet[4]通过以下方式融合:
但固定启发式方法限制了适应性。DyCAF-Net采用隐式均衡建模[18]来迭代优化特征:
其中Φ是一个轻量级卷积模块,X是主干网络的初始特征。在均衡点,梯度通过隐式微分计算,与堆叠的PANet层相比,内存成本降低了38%[19]。这使DyCAF-Net能够在不存储瞬态状态的情况下解决杂乱场景中的歧义。
类别不平衡使检测器偏向于频繁类别。虽然损失重加权[13]调整训练目标,但DyCAF-Net引入了架构适应。对于类别,一个轻量级子网络生成一个基于类别嵌入的空间掩码:
其中表示逐元素乘法。这在融合过程中优先考虑类别特定区域(例如,车辆的车轮),补充了现有的不平衡策略。与RepMet[15]不同,后者事后隔离嵌入,DyCAF-Net直接将适应集成到颈部结构中。
DyCAF-Net引入了一种动态双注意力机制,旨在通过自适应地重新校准通道和空间特征响应来增强特征判别能力,这些校准基于输入内容。该机制通过两个互补路径工作——通道注意力和空间注意力——它们协同工作以优化特征表示。这些路径强调任务相关区域,同时抑制不太重要的背景杂乱,从而提高复杂环境中的目标检测性能。
https://arxiv.org/pdf/2508.03598
其中H和W分别表示特征图的高度和宽度。是一个具有512个隐藏单元的轻量级2层多层感知机(MLP),它生成基于局部特征的条件空间权重。这使模型能够进行输入依赖的空间聚合,适应对象尺度和遮挡的变化。
聚合的特征通过一个带有SiLU激活的瓶颈层处理,选择SiLU是为了比ReLU更平滑的梯度流[21]。最终通道注意力权重计算为:
其中,,是一个压缩比,用于平衡计算和模型表达能力。
其中表示通道连接。生成的空间注意力掩码强调检测中最相关的区域。
为了融合通道注意力和空间注意力,网络应用广播的逐元素乘法,其中在空间上复制以匹配的大小。最终输出计算为:
其中⊗表示广播的逐元素乘法。残差连接确保保留原始特征图,这有助于稳定训练并促进网络中的梯度流。
传统多尺度融合技术,如PANet[4]中的技术,使用具有显式启发式的堆叠卷积层。相比之下,DyCAF-Net将此过程重新表述为一个固定点均衡问题,其中融合的特征图满足均衡条件:
其中Φ是一个轻量级融合算子,用于跨尺度聚合特征。我们使用Broyden方法[10]来解决这个均衡问题,这种方法因其超线性收敛速度和内存效率而受到青睐。与牛顿-拉夫森方法不同,Broyden方法不需要显式存储雅可比矩阵。迭代过程中的更新步骤为:
其中是步长,使用有限差分近似Φ的雅可比。这种方法允许模型以内存高效的方式优化特征图。
在这里插入图片描述
然后,融合输出计算为所有级别特征的加权和,使用分辨率对齐的上采样或下采样:
该算子允许模型自适应地合并来自多个尺度的信息,同时保持空间分辨率,提高不同对象大小的检测性能。
为了解决类别不平衡的挑战,DyCAF-Net引入了类感知特征适应。特征使用类特定原型进行调制,这些原型通过k-means聚类在训练特征上初始化,以保留语义簇[23]。每个原型的维度为,其中。对于每个类别,通过在空间和通道轴上执行3D互相关来计算空间注意力掩码:
其中*表示互相关操作。这一步允许进行类特定调制,关注每个类的相关区域。然后通过逐元素乘法生成类别的适应特征:
其中是一个类别特定的投影矩阵。最终特征图通过聚合所有类的适应特征获得:
这种方法是对DyHead[16]等方法的重大改进,后者使用任务感知注意力。
用于训练DyCAF-Net的总损失函数结合了三个关键目标。检测损失包含标准的YOLOv8组件,如CIoU损失、分类和目标性损失。
为了确保多尺度融合中均衡解的稳定性,我们引入了均衡一致性损失,它确保特征图收敛到稳定的固定点:
此外,KL正则化损失惩罚过于自信的类注意力图,帮助防止模型过分关注主导类别:
其中是均匀分布。损失权重、和分别通过网格搜索设置为1.0、0.5和0.2。
DyCAF-Net通过用DyCAF-NetNeck替换YOLOv8的PANet颈部,将所提出的模块集成到YOLOv8架构中,该颈部使用双注意力机制和均衡融合迭代优化多尺度特征。检测头通过类感知适应层增强,提高了类别判别能力。
我们在13个真实世界数据集上评估DyCAF-Net:10个来自Roboflow_100(RF100)基准(8个真实世界和2个电磁类别)和3个额外的公共数据集(Final Year、Traffic Density、City Scapes)。我们使用Roboflow数据集提供的默认训练、验证和测试分割用于所有模型。表I显示了每个数据集的类别数量和不平衡比(IR)。基线包括静态图模型(YOLOv8-PANet、DeepWalk[24]、Node2Vec[25])、动态图模型(M²DNE[26]、DyTriad[27]、MPNN[28]、JODIE[29]、EvolveGCN[30]、TGAT)、以及脉冲网络(SpikeNet[31])。DyCAF-Net用我们的DyCAF-Neck替换YOLOv8的PANet颈部,使用批量大小16训练50个epoch。我们使用SGD优化器,学习率为0.01,余弦衰减为0.1,权重衰减为0.0005,dropout率为0.5。输入标准化为640×640,具有翻转、旋转和马赛克增强。类感知原型通过k-means聚类初始化,指导组合损失:检测(CIoU、分类)、均衡一致性()和KL正则化()。实验在2× NVIDIA T4 GPU(Kaggle)上运行,使用FP16混合精度。指标包括精确率、召回率、mAP@50、mAP@50-95、参数计数和推理时间。在数据集-模型对上使用相同的训练配置,以确保对分类头的公平评估。
图1确立了YOLOv8在RF100数据集上相对于YOLOv5、YOLOv7和GLIP的mAP@50性能优势,突显了其在具有挑战性领域(如X-Ray、Axial MRI)中的优势。DyCAF-Net在此基础上构建:图2和表I系统地验证了DyCAF-Net相对于YOLOv8的改进。图2a显示了F1分数的一致改进,证明了更好的精确率-召回率平衡,而图2b通过动态特征抑制和放大确认了在高遮挡场景(如Mask Wearing)中改进的鲁棒性。类感知特征调制进一步对抗不平衡,推动长尾数据集(如Axial MRI)中的mAP@50-95增益,如图2c所示。这些趋势在表I中量化,显示DyCAF-Net保持了效率(约11.1M参数,Axial MRI上的16.5ms延迟vs. YOLOv8的16.0ms),同时在13个基准测试中的10个上优于YOLOv8的精确率和mAP@50-95。将这些原则作为基础设计选择而非辅助模块进行整合,解释了DyCAF-Net的一致优异表现。图3显示,移除每个组件都会降低DyCAF-Net的F1性能,证实了均衡、双注意力和类感知模块在各个数据集上的重要性。这种适应性和实用性的平衡使其在医学成像和监控中特别有效,在这些领域中,遮挡、杂乱和不平衡占主导地位。

在13个数据集上,DyCAF-Net优于九个时序图学习基线,取得了显著的增益(见表II和图5),特别是在mAP@50-95方面,这对于高遮挡和长尾场景至关重要,实现了相对于次佳模型的一致净平均改进:精确率(1.5618%)、召回率(-0.4385%)、mAP@50(1.5571%)和mAP@50-95(2.4538%)。DyCAF-Net在mAP@50-95方面取得了最先进的增益,分别为9.91%(Axial MRI)、3.38%(Mask Wearing)和5.79%(Furniture),这归功于其类感知特征适应和动态融合。值得注意的是,在高度不平衡的Axial MRI数据集(IR:5.54)上,DyCAF-Net在精确率上优于TGAT +25.7%,在mAP@50-95上优于TGAT +9.91%,尽管在召回率上有所权衡(-23.51%)。虽然DyCAF-Net在精确率上偶尔落后(例如,在City Scapes上vs. TGAT -23.69%),但它始终优先考虑整体检测质量,在13个数据集中的10个上显示了更优的mAP@50-95。尽管增加了动态计算,推理时间仍然具有竞争力。像Traffic Density(vs. M²DNE -1.31% mAP@50-95)这样的例外突显了静态融合启发式方法足够的情况。DyCAF-Net基于均衡的优化和双注意力减轻了类别不平衡的影响,在13个基准测试中的4个上实现了>3%的mAP@50-95增益,同时保持了参数效率(约11.1M vs. SpikeNet的约3M)。这些结果验证了其对尺度异质性和遮挡的适应性,将其定位为真实世界检测任务的多功能解决方案。

为了确保公平和无偏见的比较,所有实验都在相同条件下进行,包括共享的主干架构、数据集分割、训练计划和增强策略。通过匹配可训练参数的数量,使基线之间的模型容量保持可比,除了SpikeNet,其轻量级脉冲层缺乏复杂的注意力或融合模块。所有运行都使用一致的硬件和多个随机种子执行,结果报告为平均值。虽然承认预训练权重或随机训练导致的微小变化,但它们的影响在经验上可以忽略不计,支持我们发现的可靠性和可重复性。

具有复杂主干和颈部架构的目标检测器通常需要大量的训练资源,导致高能耗和碳排放[32]。DyCAF-Net采用了一种更高效的方法,通过重用主干权重并仅优化颈部和头部,显著减少了训练负荷。其轻量级、注意力引导的融合模块提高了性能,并且比基于图等更重的替代方案收敛更快。这导致了更低的计算成本、更少的资源使用和更小的环境足迹,符合可持续AI开发实践。

我们提出了DyCAF-Net,这是一种轻量级但有效的检测颈部,用动态类感知融合和基于均衡的优化替换了YOLOv8中的PANet。DyCAF-Net在13个基准测试中的10个上实现了更高的mAP@50-95,特别是在不平衡和遮挡场景中表现出色,同时保持了低推理延迟和参数效率。其性能增益证明了自适应特征融合和类感知重新校准对于真实世界检测任务的好处。


虽然DyCAF-Net改善了稀有和遮挡对象的检测,但在某些情况下,由于激进的重新校准,它可能会略微降低精确率。在低不平衡数据集中的增益也不那么明显。最后,我们的研究集中在静态图像检测上;未来的工作将把DyCAF-Net扩展到视频和少样本学习设置。
现代目标检测器如YOLOv8[1]和Faster R-CNN[2]依赖于三个核心组件:用于分层特征提取的主干网络(backbone)、用于多尺度融合的颈部结构(neck),以及用于边界框回归和分类的检测头(head)。在这些组件中,颈部结构在解决尺度变化方面起着关键作用,这是检测任务中持续存在的挑战。早期工作如特征金字塔网络(FPN)[3]引入了自上而下的路径,将语义丰富的深层特征与空间精确的浅层特征进行融合。随后的进展,如PANet[4],通过自下而上的聚合增强了这一设计以提高定位精度,而BiFPN[5]则使用可学习权重优化跨尺度连接。虽然这些方法有效,但它们依赖于预定义的融合启发式方法(例如,固定的上采样或求和规则),限制了它们对动态场景的适应性,在这些场景中,尺度关系在不同输入间显著变化。这种刚性促使我们在DyCAF-Net中引入基于输入条件的融合,实现基于场景的特征聚合。
注意力机制已成为优化判别特征的有力工具。SENet[6]开创了通道级重新校准,自适应地强调信息丰富的特征图。在此基础上,CBAM[7]集成了空间注意力以突出显著区域。像DyNet[8]这样的动态架构通过将注意力参数基于输入特征进行条件化,推广了这些原则,实现了上下文感知的适应。最近的创新如可变形注意力变换器(DAT)[9]进一步利用可变形采样来关注任务相关区域。然而,这些框架以类无关的方式运行,忽略了在遮挡对象中解耦或缓解长尾数据集中类别不平衡所需的细微特征交互。DyCAF-Net通过类感知注意力解决了这一差距,基于对象类别动态调制空间和通道特征。
像深度均衡网络(DEQ)[10]及其多尺度变体[11]这样的隐式模型,通过求解均衡状态而不是存储中间激活,为目标检测提供了内存高效的替代方案。在目标检测中,Recursive-FPN[12]采用了递归连接来迭代优化特征,隐式地建模均衡动态。虽然这些方法减少了内存开销,但它们缺乏在尺度间显式传播类别特定上下文线索的能力,限制了它们在杂乱场景中解决歧义的能力。DyCAF-Net通过将隐式均衡融合与类感知特征调制相结合,弥合了这一差距,实现了内存高效且语义丰富的多尺度推理。
为解决类别不平衡问题,先前的工作主要集中在损失函数的修改上。类别平衡损失[13]和均衡损失[14]调整训练目标以抵消对频繁类别的偏见,而RepMet[15]则采用度量学习来隔离类别特定嵌入。在架构层面,DyHead[16]统一了尺度、空间和任务感知注意力,但省略了显式的类别级特征调制,在利用语义层次进行检测方面留下了空白。
传统的颈部架构,包括PANet[4]和BiFPN[5],表现出三个关键缺陷。首先,它们的静态融合规则无法适应依赖于输入的尺度关系,导致在异质场景中特征聚合次优。其次,它们的注意力机制缺乏对空间和通道维度的动态条件化,限制了对遮挡或背景杂乱的鲁棒性。第三,类无关的特征聚合忽略了对象类别之间的语义差异,阻碍了在长尾或细粒度数据集中的性能。DyCAF-Net通过动态双注意力机制弥合了这些差距,该机制自适应地重新校准空间和通道特征,通过隐式多尺度均衡建模实现内存高效的融合,并在检测头中进行类感知特征加权,以优先考虑跨对象类别的判别线索。