首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >基于频域解耦的结肠镜息肉分割多尺度聚合网络

基于频域解耦的结肠镜息肉分割多尺度聚合网络

原创
作者头像
用户11764306
发布2026-01-15 22:41:21
发布2026-01-15 22:41:21
800
举报

基于频域解耦的结肠镜息肉分割多尺度聚合网络

摘要 结直肠息肉的自动分割对于结直肠癌的早期筛查和临床干预具有重要意义。然而,息肉形态的多样性以及结肠镜图像中光照变化引起的对比度不均匀,使得准确分割和边缘提取成为一项具有挑战性的任务。为此,本文提出了一种频域解耦的多尺度特征聚合网络(FDANet)。该网络采用小波变换将空间域特征分解为频域子带,提取低频和高频分量。通过利用它们不同的频率特性,引导模型抑制冗余信息,强调与目标相关的特征,实现更鲁棒和准确的分割结果。在FDANet中,低频注意力增强模块(LAEM)通过对低频分量执行高斯差分运算来抑制高频背景噪声,并结合混合注意力机制来加强前景区域的特征表示。高频多尺度聚合模块(HMAM)采用方向性卷积核对高频分量进行建模,提取细粒度的边缘信息,并构建多尺度特征金字塔以适应息肉的形态和尺度多样性,同时在解码阶段增强空间细节感知。此外,引入了一种边缘损失函数来监督该模块内的边缘轮廓建模,有效抑制背景噪声干扰,进一步提高边界定位精度。实验结果表明,该方法在CVC-ClinicDB和Kvasir-SEG数据集上取得了良好的分割效果,优于其他先进的分割方法。

引言 结直肠息肉是从结肠粘膜表面突入肠腔的异常病变。根据其组织学特征,主要分为四类:腺瘤性息肉、炎性息肉、错构瘤性息肉和增生性息肉。其中,腺瘤性息肉作为一种常见的肿瘤形式,具有很高的恶变潜力,被广泛认为是结直肠癌发生的关键癌前病变。据统计,超过90%的结直肠癌病例是从腺瘤性息肉逐渐演变而来的。因此,息肉的早期发现、精确定位和及时切除对于预防结直肠癌的发生具有重要的临床意义。在临床实践中,结肠镜由于能够直接可视化和进行组织活检,已成为结直肠息肉筛查和诊断的主要技术,广泛应用于胃肠内窥镜领域。目前,息肉的检测和边界划定在很大程度上依赖于内镜医师的主观判断,其诊断准确性受其临床经验和操作熟练程度的影响。在涉及小息肉、边界不清晰或不典型形态特征的情况下,人工识别容易出现遗漏或误判,从而严重影响早期诊断的准确性并延误及时干预。

随着人工智能的快速发展,基于深度学习的计算机辅助干预已成为医学图像分析领域的一个突出研究重点。在各种深度学习方法中,卷积神经网络(CNN)因其强大的特征提取和空间表示能力,在医学图像分割任务中显示出显著优势。其中,基于U-Net架构的网络依靠其独特的U形编码-解码结构和跳跃连接机制,在磁共振成像、超声图像和病理切片等各种医学影像数据的分割任务中取得了优异的性能,成为最受欢迎和广泛使用的经典网络结构之一。

然而,在结直肠息肉分割这一具体任务中,现有方法仍面临诸多挑战。首先,由于肠道内部结构狭窄曲折,加上粘膜表面湿润且反光,采集到的图像常存在运动模糊、光照不均和镜面高光。如图所示,图像中明显的光反射严重干扰了息肉与背景的分离。此外,光照不均导致整体图像对比度降低,从而使息肉边界变得模糊。其次,结直肠息肉表现出高度的形态多样性和不确定性。不同患者和疾病进展不同阶段的息肉可能呈现出多种大小、形状、颜色和表面纹理特征,也可能伴有遮挡或其他复杂因素。如图显示,息肉被肠皱襞和残留物部分遮挡,这降低了模型准确区分其与周围组织的能力。另外,图描绘了多个大小和位置各异的息肉,其中较小的息肉更容易被忽略,从而增加了漏检风险。

为了应对结直肠息肉图像中的挑战,现有研究从多个角度提出了创新性的解决方案。在融合局部细节与全局语义建模方面,Dong等人提出了将视觉Transformer与卷积模块相结合的方法。通过局部相似性增强和全局语义引导,提高了息肉区域的定位能力,使模型能够有效处理图像中的运动模糊和镜面反射干扰区域。Wei等人采用注意力机制,根据图像内容动态调整前景和背景特征的权重,从而增强对前景息肉的关注,同时抑制背景噪声的干扰。针对息肉形状和尺寸的多样性,Tomar等人设计了一个多尺度特征聚合和自适应选择模块,使模型能够灵活处理不同尺度和数量的息肉目标。Srivastava等人提出了区域边界约束网络,以增强模型对息肉轮廓和结构边界的感知,从而有效缓解因小目标或模糊边缘引起的分割误差。然而,大多数现有方法仅依赖于图像在空间域的显式结构信息进行特征建模。然而,在存在肠皱襞、组织重叠和严重光干扰的情况下,基于空间域的特征提取极易受到高频噪声的干扰。如图所示,结直肠息肉的边界区域被明亮的反射点遮挡,这限制了基于空间域的方法感知边缘信息的能力,并增加了误判的可能性。在频域中,图像被表示为一组频率分量,它们共同描述了不同空间尺度上的模式和结构。高频分量主要包含边缘和细节信息,而低频分量则捕捉整体轮廓和区域强度分布。通过灵活组合和调节这些频率分量,网络可以有效提取在空间域中难以检测的关键局部变化,同时保留图像的全局结构信息。因此,通过对空间域和频域进行协同建模,网络可以充分利用空间域在上下文理解和语义表示方面的优势,同时利用频域的分析能力更准确地提取边缘结构和纹理细节。这种双域方法能够更全面地表达前景目标特征,同时有效抑制背景噪声、伪影干扰和光照不均,从而提高模型在复杂成像场景中的分割准确性和稳定性。

基于以上分析,我们提出了一种新颖的频域解耦多尺度特征聚合网络(FDANet),该网络集成了小波变换对编码特征进行多尺度频域解耦,随后在解码阶段进行特征聚合,以增强模型在结直肠息肉分割中的能力。FDANet通过两个专门的模块来提取和聚合频域信息:低频注意力增强模块(LAEM)和高频多尺度聚合模块(HMAM)。具体来说,LAEM模块利用基于小波变换从空间特征中提取的低频信息来抑制背景噪声,从而增强前景息肉区域的表示,并提高模型的整体鲁棒性。HMAM模块聚合三个方向的高频分量,并通过构建多尺度特征金字塔来有效增强边缘和轮廓等结构信息的表达。此外,为了解决高频聚合过程中可能引入的噪声干扰,本文引入了一个边缘损失函数,该函数在优化过程中同时考虑区域一致性、结构完整性和边界细化,从而进一步提高分割精度。总之,本文的主要贡献概述如下:

  1. 我们提出了一种基于小波变换的频域解耦多尺度特征聚合网络,通过用解析频域信息补充空间特征,提高了结直肠息肉的分割能力。
  2. 我们设计了一个低频注意力增强模块,通过高斯差分滤波抑制空间背景噪声,并采用注意力机制来加强前景显著特征表示。
  3. 我们提出了一个高频多尺度聚合模块,利用高频信息构建特征金字塔以捕捉息肉的形态多样性,并引入边缘损失函数来指导模型学习准确的边界轮廓。
  4. 在两个公共数据集上进行了广泛的对比和消融实验,验证了所提出模型的优越性和各模块的有效性。

相关研究 息肉分割是指利用医学图像分析技术自动识别和描绘结肠镜图像或视频中息肉区域的过程。早期息肉分割主要依赖医生的视觉检查和手动描绘息肉区域,这既耗时又低效,且主观性强。近年来,研究人员致力于开发高效可靠的自动分割方法,以提高息肉检测的诊断效率和准确性。例如,Jerebko和Tajbakhsh采用边缘检测算子提取候选息肉感兴趣区域,并结合形态学变换技术确定实现息肉分割的最佳阈值。其他方法则使用了如K均值聚类、粒子群优化和分水岭算法等方法,通常利用特定先验知识进行自动息肉分割。这些传统方法通常依赖手工设计的特征来提取形状、颜色和纹理等低级视觉信息。然而,由于息肉与周围组织的相似性以及息肉表现出的形态多样性,固定的特征表示不足以捕捉所有可能的变化,常常导致漏检或误报。为了解决这些限制,研究人员越来越多地采用基于深度学习的方法来自动学习特征表示,捕捉图像内更高级的语义信息,从而提高分割准确性。

随着深度学习技术的快速发展,基于卷积神经网络(CNN)的方法在结直肠息肉分割领域取得了显著突破。作为该领域的一个里程碑,Ronneberger等人提出的U-Net架构采用对称的编码器-解码器结构,并带有跳跃连接,使其能够在提取深层语义特征的同时整合浅层空间结构信息,从而显著提高了分割性能。基于U形结构,研究人员提出了多种改进方案以应对息肉分割任务中的挑战。例如,Zhang等人和Alam等人引入了Transformer模块来增强全局上下文特征的建模能力,并结合注意力机制来捕捉局部空间结构信息,从而提高了模型对图像的理解能力,增强了息肉的分割精度。鉴于息肉大小、形状和位置的可变性,提高网络的多尺度特征提取能力对于有效应对特征表示的多样性至关重要。Zhao等人提出了一种通用多尺度减法网络,通过计算相邻编码器层级之间的特征差异并进行多层特征映射,增强了解码器的多尺度信息表示,从而提高了分割精度和细节恢复能力。尽管上述网络在息肉分割任务中取得了良好效果,但由于息肉与其周围粘膜之间边界模糊等问题,现有方法仍存在一定的局限性。

准确提取息肉边界仍然是息肉分割中的一项挑战性任务。为了解决这个问题,最近的研究侧重于增强模型对息肉边界的关注。其中一些方法分解特征图以增强关键组件的特征表达。例如,Fan等人提出了用于息肉分割的Pra-Net,该网络采用并行解码器结构来预测粗略分割区域,并整合了反向注意力机制以引导模型关注息肉的边缘和内部结构,从而实现息肉区域的细粒度分割。Wang等人提出的ISCNet利用图像级上下文信息来显式建模息肉区域内前景-背景关系,从而增强目标特征表示并抑制无关干扰。此外,通过局部特征提取模块进一步分析了息肉边缘和周围组织的细粒度特征,从而提高了分割边界的完整性和准确性。另一方面,可以通过特征聚合获得更丰富的特征表示。例如,Su等人提出了一种新颖的多级特征融合方法,该方法采用可学习的语义偏移场来动态校正不同级别特征之间的错位,并融入辅助边界分支来专门优化边界特征。Zhou等人引入了跨级特征聚合网络(CFA-Net),该网络通过边界预测网络生成边界感知特征,并采用分层策略将其整合到骨干网络中。结合多尺度特征增强机制,CFA-Net有效提高了边界区域的表示能力。

Yue等人提出的LFSRNet采用编码器-解码器架构,通过病灶感知的特征选择和细化模块实现高级特征的非局部注意力融合和自适应细化。然后,它准确定位解码器中相邻较高层输出中的息肉区域。Li等人提出的DFINet将特征提取从空间域扩展到频域,在每个编码层引入了空间和频域特征交互模块,并设计了一个边界增强模块来融合跨层特征和多尺度上下文信息,从而有效处理不规则息肉形态和模糊边界等问题。此外,一些研究更侧重于边界约束以提高息肉分割的准确性。例如,Bui等人和Cai等人设计了一个边缘注意力模块来提取图像中的高频边缘信息,引导网络关注边缘信息,有效提高了网络感知关键边缘区域的能力。Yue等人设计了边界不确定性感知网络BUNet和边界细化网络BRNet,关注那些既不偏向前景也不偏向背景的模糊区域,挖掘边界线索以指导相邻较高层的预测,并通过自上而下的混合深度监督实现从粗到细的息肉分割。然而,Wu等人和Yue等人不仅跨层聚合了低级和高级特征,还设计了一个边缘引导模块,协同探索高层边界信息和低层区域信息,并进行联合监督,以生成准确的息肉边界。

频域特征提取方法将空间特征转换为频域分量,利用其独特特性为分割任务提供显著优势。在频域中,图像被表示为一组描述不同尺度结构模式和纹理信息的频率分量,从而为分割提供更具区分度的特征表示。例如,Li等人引入了一个全局滤波器来提取高频信息,从而弥补了精细细节的缺失。Qin等人利用频域信息扩展了通道注意力机制,有选择地增强了显式特征表示,提高了模型捕捉息肉特征的能力。此外,频域特征也可以作为独立分支与空间特征融合。例如,Zhong等人将频域信息整合到U-Net的跳跃连接中,并与空间域特征融合,进一步提高了模型的分割性能。Zhu等人通过将Mamba模块与ResNet框架集成,构建了多频融合编码器,以建模全局上下文和空间区域信息,从而缓解了息肉与周围组织视觉相似度高的问题。同时,在特征提取过程中加入频域方法进一步丰富了特征表示。Liu等人在CNN结构内嵌入了小波变换,通过频率分解有效提取图像的细节和结构特征,并增强了息肉的空间结构表示。此外,Li等人将傅里叶变换应用于输入图像,利用幅度和相位分量来增强空间特征图中的深层全局特征和浅层细节特征,从而提高模型的分割性能。

尽管上述方法通过利用频域分量有效提高了模型的分割性能,但结肠镜图像中广泛存在的光斑和噪声干扰带来了重大挑战。如果不加选择地抑制噪声,简单地提取频域分量会导致光斑区域产生的伪边缘与真实息肉边界混淆,难以准确定位真实边缘。此外,由噪声引起的异常激活会在深度网络的特征传播过程中逐步放大,最终导致分割输出的边界扭曲。与先前方法不同,我们提出了一种频域解耦策略来分离高频和低频分量。基于这些分量的特性,利用高频特征来增强息肉的空间细节表示,同时利用低频特征来抑制背景噪声,从而提高边界分割的准确性和鲁棒性。

提出的方法 FDANet的整体工作流程如图所示。该网络采用编码器-解码器架构,并结合频域信息进行结直肠息肉分割。编码器基于卷积神经网络(CNN)构建,并在每个阶段应用小波变换进行频域解耦,得到低频(LL)和高频(LH、HL和HH)分量。低频分量用于低频注意力增强模块(LAEM)以抑制高频背景噪声并增强息肉的前景特征表示。高频分量被纳入高频多尺度聚合模块(HMAM)以细化边缘和轮廓等特征,从而捕捉局部空间信息,并通过特征聚合提高解码器的重建能力。此外,为了进一步增强模型的边界感知能力,引入了边缘损失函数来指导复杂轮廓结构的学习,提高息肉区域的细粒度分割性能。

频域解耦 频域解耦的目标是将特征图从空间域转换到频域。在这种表示中,位于频谱低端的低频分量捕捉图像的全局结构信息,而位于频谱高端的高频分量表示细节和边缘结构的细微变化。因此,为了增强模型捕捉层次结构信息和边缘细节的能力,本研究在编码器的每个阶段引入了一个频域解耦模块。该模块采用二维离散小波变换(2D-DWT)将特征从空间域转换到频域,从而实现低频和高频分量的分离。详细的计算过程描述如下:

假设第i层编码器的输出特征图为 (F{i} \in R^{C{i} \times H{i} \times W{i}}):

$$\begin{aligned} \left{ L L{i}, L H{i}, H L{i}, H H{i}\right} =\operatorname {DWT}\left( F_{i}\right) \end{aligned}$$

其中,(\operatorname {DWT}(\cdot )) 表示小波变换,LL是表示图像全局结构的低频分量,LH、HL和HH分别表示垂直边缘、水平边缘和角落等高频细节的高频分量。

最后,获得的低频和高频分量通过卷积运算进行进一步调整,以满足LAEM和HMAM模块的输入要求,便于后续的特征细化。

低频注意力增强模块 由于肠壁表面湿润且有气泡,这些因素在结肠镜采集息肉图像时会形成高反射区域,在图像中表现为随机分布的高频噪声。这种噪声不仅降低了图像的整体对比度,还会干扰小息肉周围的特征表达,导致模型误判。为了有效抑制背景噪声干扰,我们提出了LAEM模块,其具体结构如图所示。

在空间域进行特征提取时,卷积操作固有的高频敏感性使其容易受到息肉周围噪声的干扰,从而影响分割的准确性。相比之下,在频域中操作能够更有效地抑制此类噪声,从而获得更平滑的特征表示。此外,鉴于肠道环境内颜色分布相对均匀,息肉区域通常位于频谱的低频段,与背景噪声形成明显的频率对比。因此,本研究中提出的LAEM模块整合了空间域和频域特征。通过利用低频分量,有效抑制背景噪声,同时保留息肉的空间结构特征,从而提高分割性能。

为了进一步阐明LAEM模块的噪声抑制机制,本文从空间域和频域两个角度进行分析。首先,对输入的低频特征LL进行上采样,使其空间分辨率与原始空间特征 (F{i}) 保持一致。在空间域中,卷积操作对高频分量敏感,尤其是边缘噪声和光照变化等高频扰动,很容易干扰特征提取过程。LAEM模块通过引入具有不同标准差的高斯核对特征进行滤波。较小的标准差用于保留局部结构信息,而较大的标准差用于平滑特征图并抑制细粒度噪声。在特征图中减去不同尺度的平滑结果,有效地去除了高频分量,仅保留了低频结构信息。这种操作可以在保持目标轮廓完整性的同时,抑制随机噪声和局部伪边界。此外,在频域中,噪声通常表现为高频信号,而息肉的主要形态特征集中在低频区域。LAEM模块使用从频域提取的低频特征 (F{diff}) 作为引导,对空间域特征 (F_{i}) 进行加权滤波。元素级乘法操作在空间上抑制了频域中相应的高频噪声响应。这相当于低频引导降噪,可以自适应地减少背景区域中的噪声信号。上述过程的计算公式如下:

$$\begin{aligned} \left{ \begin{aligned} F{\text {up}}&= \operatorname {Upsample}(LL) \ F{\text {diff}}&= G{\sigma _1}(F{\text {up}}) - G{\sigma _2}(F{\text {up}}) \ F{e}&= \operatorname {ReLU}(F{\text {diff}}) \odot F_{i} \end{aligned} \right. \end{aligned}$$

其中,(\operatorname {Upsample}(\cdot )) 表示上采样操作,(G_{\sigma _1}(\cdot )) 表示标准差为 (\sigma) 的高斯滤波操作,(\sigma _1) 和 (\sigma _2) 对应于具有不同标准差的高斯滤波器,在本文中分别设为1和5。

为了进一步提高特征的判别能力,本文引入了CBAM混合注意力机制来增强对滤波后编码特征的关注。该机制可以有效增强低频特征中与前景多尺度结构相关的重要响应,从而提高模型感知关键信息的能力。具体过程描述如下:

$$\begin{aligned} \left{ \begin{aligned} M{c}&= \sigma \left( \textrm{MLP}\left( \operatorname {AvgPool}(F) + \operatorname {MaxPool}(F)\right) \right) \ M{s}&= \sigma \left( \textrm{Conv}{7\times 7}\left( \operatorname {AvgPool}(F); \operatorname {MaxPool}(F)\right) \right) \ F'&= M{c} \odot F \ F{L}&= M{s} \odot F' \end{aligned} \right. \end{aligned}$$

其中,(\sigma) 代表 (\operatorname {Sigmoid}(\cdot )) 函数,(\odot) 代表元素级乘法。

通过高斯差分滤波和注意力增强,有效地保留了息肉的空间结构,同时减少了背景噪声和非结构干扰,并加强了前景的显著特征。最后,该模块将特征图 (F_{L}) 输出到后续的编码阶段,从而提高了分割模型的鲁棒性。

高频多尺度聚合模块 息肉的位置和形态是临床诊断的关键因素;然而,在结肠镜中观察到的息肉位置和大小通常是随机的,并且存在显著的个体间差异。因此,准确定位息肉并描绘其边界轮廓仍然是一个技术挑战。为了解决这个问题,并更有效地捕捉不同大小息肉的空间结构和细粒度细节,我们在解码阶段提出了HMAM模块。该模块通过聚合从小波变换获得的高频分量(LH、HL、HH)来构建特征金字塔,旨在全面表示大目标和小目标的空间细节和位置特征。该模块的结构和细节如图所示。

对于编码阶段小波变换获得的高频分量,HMAM模块设计相同方向的卷积核进行处理,以提取方向性细节特征,赋予网络方向选择性响应能力,并避免特征聚合过程中边缘特征的混淆。同时,为了适应不同尺度目标的特征响应,HMAM基于多尺度高频特征构建了一个特征金字塔,从而增强模型在解码阶段恢复息肉区域的能力。在HMAM中,特征聚合过程主要分为两个阶段。第一阶段称为高频感知(HFP),旨在捕捉局部纹理和突变边缘变化等细粒度特征。具体计算过程描述如下:

首先,我们从小波变换中获得三个高频分量:LH(水平边缘)、HL(垂直边缘)和HH(对角结构),每个分量反映了图像沿不同方向的强度变化。为了更充分地探索这些高频分量中的结构信息,我们为每个方向设计了独立的卷积核,以适应水平、垂直和对角方向的纹理特征。通过采用方向性建模的卷积结构,增强了网络捕捉各向异性边缘的能力。具体实现细节如下:

$$\begin{aligned} \left{ \begin{aligned} F{L H}&=\operatorname {Conv}{L H}(L H) \ F{H L}&=\operatorname {Conv}{H L}(H L) \ F{H H}&=\operatorname {Conv}{H H}(H H) \end{aligned} \right. \end{aligned}$$

其中,(\operatorname {Conv}{L H}) 表示形状为 (1 \times 3) 的卷积核,用于捕捉图像中的水平边缘;(\operatorname {Conv}{H L}) 表示形状为 (3 \times 1) 的卷积核,用于提取垂直边缘信息;(\operatorname {Conv}_{H H}) 表示形状为 (3 \times 3) 的卷积核,用于增强对角方向的结构响应。这种结构设计不仅提供了不同形状的感受野,还根据边缘方向性增强了特征提取的鲁棒性,从而提高了模型对边界位置和形状变化的感知和响应能力。

为了避免高频分量之间的信息冗余和语义冲突,上述三个方向性卷积在提取方向性特征时降低了输出通道的维度。随后,将水平、垂直和对角特征在通道维度上进行拼接,并通过 (1 \times 1) 卷积进行融合,以整合多方向边缘信息,从而获得更准确的息肉轮廓表达:

$$\begin{aligned} F{H}=\operatorname {Conv}{1 \times 1}\left( \operatorname {Concat}\left( F{L H}, F{H L}, F_{H H}\right) \right) \end{aligned}$$

在第二阶段,为了适应不同大小目标的特征响应,基于HFP模块的输出构建了特征金字塔。将不同尺度(其中i表示尺度级别)的高频特征 (F_{H}^{i}) 进行整合,并将所有特征统一重采样到网络第二层的空间分辨率以进行聚合:

$$\begin{aligned} F{a}=\sum {i=1}^{N} \operatorname {U p}\left( F_{H}^{i}\right) \end{aligned}$$

其中,(\operatorname {Up}(\cdot )) 表示双线性插值上采样。这一策略使网络能够同时捕捉浅层空间轮廓信息和深层高级语义表示,使其非常适合大目标和小目标共存且轮廓形态变化显著的场景。

为了进一步优化解码器的性能,我们提出了一种门控机制,将动态调制聚合的高频信息注入到解码阶段的跳跃连接中。该机制根据边缘和轮廓等高频特征的语义分布,自适应地增强有效的结构信号并抑制噪声干扰,从而在保留目标细节的同时提高可辨别性。

具体来说,门控机制首先对聚合的高频特征进行 (1 \times 1) 卷积操作,生成权重掩码;然后通过 (\operatorname {Sigmoid}) 激活函数生成权重图,以动态调整高频增强信号的注入强度,从而实现对跳跃连接中关键信息的选择性增强。

$$\begin{aligned} \operatorname {Gate}\left( F{L}, F{a}\right) =\sigma \left( \operatorname {Conv}{7\times 7}\left( R\left( F{a}\right) \right) \right) \cdot F_{L} \end{aligned}$$

其中,(\sigma) 表示用于生成门控权重的 (\operatorname {Sigmoid}) 激活函数,(\operatorname {R}(\cdot )) 表示用于调整特征图大小的重采样操作,(F_{L}) 表示解码阶段的特征图。通过门控机制,可以有效抑制高频特征中的噪声干扰,并突出结构清晰的区域。同时,逐元素卷积操作有助于保持语义对齐,避免特征融合过程中的误差累积。

最后,通过门控机制增强的编码特征被传递到解码器,从而实现端到端的高频语义增强。

损失函数 为了提高边缘分割性能并缓解频域解耦引入的噪声干扰,我们在基于区域的损失函数 (L{\text{ dice } }) 之外,引入了边缘损失函数 (L{\text{ edge } }) 用于边缘掩码监督。具体来说,(L_{\text{ edge } }) 监督HMAM模块,指导模型准确学习边缘信息,同时抑制高频噪声的影响。损失函数的具体公式如下:

$$\begin{aligned} \text{ Loss } =\alpha \cdot L{\text{ dice } }+\beta \cdot L{\text{ edge } } \end{aligned}$$

$$\begin{aligned} L{\text{ dice } }=1-\frac{2 \cdot \sum {i} y{i} \hat{y}{i}+\varepsilon }{\sum {i} y{i}+\sum {i} \hat{y}{i}+\varepsilon } \end{aligned}$$

$$\begin{aligned} L{\text{ edge } }=\frac{1}{N} \sum {i}\left| \nabla y{i}-\nabla \hat{y}{i}\right| \end{aligned}$$

其中,(\alpha) 和 (\beta) 是加权系数,y 表示真实标签,(\hat{y}) 表示模型预测,(\varepsilon) 是为了避免除零而引入的平滑项,(\nabla) 表示边缘提取操作。

实验 息肉分割数据集和实现细节 为了确保实验的公平性和结果的普适性,本文在两个公共数据集CVC-ClinicDB和Kvasir-SEG上评估了所提出的方法。CVC-ClinicDB包含从29个不同的内窥镜视频片段中提取的612幅图像。该数据集中的图像分辨率相对较低,内容特征一致,适合评估模型在息肉分割任务中的稳定性及其准确定位边界的能力。相比之下,Kvasir-SEG包含1000幅具有不同分辨率的息肉图像,涵盖了广泛的息肉形态和解剖区域。该数据集能够全面评估模型在不同病变特征、复杂背景干扰和尺度变化下的泛化性能。

为了全面评估所提出模型的性能,采用了5折交叉验证策略。具体来说,将数据集随机打乱并分成五个子集。在每次实验中,选择一个折作为测试集,其余四个折作为训练集,训练集与测试集的比例保持在8:2。为了进一步优化训练过程,将训练集按6:2的比例随机划分为训练子集和验证子集。在训练期间,所有输入图像被统一调整大小为 (256 \times 256) 像素,并应用随机镜像、旋转和平移等数据增强技术来丰富训练数据。在每次实验中,保留在验证集上表现最佳的模型权重,用于后续的测试评估。最后,计算五个测试折的平均性能指标,以全面反映所提出模型在息肉分割任务中的实际性能。

本文提出的分割模型使用PyTorch深度学习框架实现,并在配备NVIDIA RTX A4500 GPU的计算平台上进行训练。总训练周期数设置为100,批次大小为8。采用AdamW优化器更新模型参数,初始学习率设置为1e-3。采用CosineAnnealingLR学习率调度器定期调整学习率,使其在每个周期内遵循余弦曲线从初始值平滑衰减,最小值降低到初始学习率的50%。

评估指标 在医学图像分割任务中,评估指标通常分为两类:基于区域的指标和基于边界的指标。基于区域的指标,例如DICE系数(DICE)和Jaccard系数(JAC),通过计算预测结果与真实标签之间的重叠程度来评估分割性能。这些指标侧重于整体区域匹配,但对边界描绘的准确性不太敏感。因此,只要整体重叠区域足够大,即使预测边界与真实边界之间存在明显偏差,指标得分也可能保持较高水平。相比之下,基于边界的指标侧重于评估分割边界沿线的局部误差。诸如第95百分位Hausdorff距离(HD95)和平均表面距离(ASD)等指标,有效地衡量了预测边界与真实边界之间的距离差异。然而,这些指标对图像中的噪声和异常值敏感,在某些条件下可能导致不稳定的评估结果。考虑到基于区域和基于边界的指标各自的优点和局限性,本文采用DICE、JAC、HD95和ASD四个评估指标,从区域和边界两个角度全面评估模型的分割性能。此外,为了进一步增强评估系统的临床相关性,本文引入了另外两个指标:敏感性(SE)和精确度(PC),它们分别反映了模型处理漏检和误报的性能。在息肉分割的背景下,SE量化了模型正确识别真实病变区域的能力,而PC衡量了所有预测区域中正确分割的比例。通过整合这两个指标,可以对实际临床场景中可能出现的欠分割和过分割问题进行更全面的分析。

消融实验 为了分析每个模块对整体网络性能的贡献,在CVC-ClinicDB和Kvasir-SEG数据集上进行了详细的消融实验。具体来说,采用U形神经网络作为基线模型,并逐步整合各个模块以构建三种对比网络变体。实验结果如表1和表2所示。

从表1的结果可以看出,在引入LAEM模块后,模型的Dice系数分别提高到0.9041和0.8766,HD95分别降低到2.6773和4.3772,充分验证了该模块在提高分割性能方面的有效性。此外,图5所示的消融实验结果和注意力图进一步表明,LAEM模块通过结合小波变换的低频特征和高斯差分算法,可以有效抑制结肠镜图像中的高频噪声和背景干扰。同时,通过整合CBAM注意力机制,增强了息肉目标区域的特征响应,使其在特征提取阶段能够更准确地聚焦于目标区域。HMAM模块的引入使模型的Jaccard系数增加到0.8454和0.8134,并将ASD值分别降低到0.2275和0.4836,表明该模块在提高目标边界分割准确性方面具有积极作用。图5中的可视化结果进一步验证了HMAM模块通过为高频特征设计专用卷积核进行细节提取,并构建多尺度特征金字塔融合全局上下文信息,有效增强了模型定位息肉边界的能力。

通过结合LAEM和HMAM模块的高低频处理优势,FDANet模型在息肉分割任务中实现了最佳的整体性能。在CVC-ClinicDB数据集上,FDANet将DICE系数、SE和PC分别提高到0.9447、0.8976和0.9498,优于使用单个模块获得的结果。同样,在Kvasir-SEG数据集上,FDANet保持了强大的性能,分别实现了0.9202、0.8582和0.9145的DICE、SE和PC值。这些结果充分验证了整体结构设计的可行性和有效性。

超参数实验 为了验证LAEM模块中高斯差分过程参数选择的合理性,本文在CVC-ClinicDB和Kvasir-SEG两个数据集上设置了不同组合的高斯核标准差进行比较实验分析。表3显示了使用DICE作为评估指标的结果,其中 (\sigma _1) 表示较小的标准差,(\sigma _2) 表示较大的标准差。

结果表明,在CVC-ClinicDB和Kvasir-SEG两个数据集上,组合 ((\sigma _1, \sigma _2) = (1, 5)) 均获得了最高的DICE分数。在此设置下,较小的 (\sigma _1) 可以有效保留图像中的边缘结构信息,而较大的 (\sigma _2) 有助于平滑背景噪声。通过两者之间的差分运算,不仅显著增强了前景区域的显著特征,还有效抑制了背景干扰,从而提高了分割性能。相比之下,标准差过小或过大的组合在两个数据集上的表现均不理想。因此,本文最终选择 (\sigma _1 = 1) 和 (\sigma _2 = 5) 作为高斯差分模块的默认参数配置。

对比实验 为了验证所提出模型在结肠镜息肉分割任务中的优越性,本文对比分析了当前几种主流方法,包括U-Net、Pra-Net、Polyp-PVT、SSFormer-S、ColonNet、ASPS和SAM2Unet。表4和表5分别展示了各方法在CVC-ClinicDB和Kvasir-SEG数据集上的定量评估结果,而图6和图7则展示了在代表性样本上的定性比较。在图中,绿色轮廓表示真实标注,红色轮廓表示模型预测结果。实验结果表明,所提出的方法在分割准确性和边界定位精度方面均表现出显著优势。

在CVC-ClinicDB数据集上,FDANet在多个评估指标上表现出优异的分割性能。与依赖反向注意力机制引导模型关注息肉边缘和内部结构的Pra-Net相比,FDANet通过小波变换在频域解耦图像特征。在提取高频边缘信息以提高分割精度的同时,FDANet还利用低频内容信息来抑制背景干扰,从而提高整体分割质量。实验结果表明,所提出的模型将JAC、SE和PC分别提高了5.97%、4.09%和3.46%。与次优的Polyp-PVT模型相比,尽管其基于Transformer的架构在全局上下文建模和多尺度特征融合方面具有优势,但全局自注意力机制不加区分地处理所有图像区域。这种不加区分的处理使得难以有效区分真实病变特征和背景噪声,导致在遇到受光斑干扰的样本时模型性能显著下降。相比之下,本文提出的方法在HMAM模块内部引入了一种监督机制。通过对从不同层级聚合的高频边缘信息施加额外的损失约束,有效抑制了解码过程中的噪声干扰,并增强了模型在复杂场景下的分割鲁棒性。最终,FDANet实现了0.9447的DICE系数,并将HD95降至2.1703,两者均优于其他对比模型。图6中的定性比较结果进一步证实了我们的观点;所提出的模型不仅成功避免了高频噪声干扰,其分割结果在边缘准确性和区域完整性方面也显著优于对比方法,充分验证了所提方案的先进性。

在更具挑战性的Kvasir-SEG数据集上,由于图像背景更复杂且病变形态变化更大,所有对比模型的性能相比CVC-ClinicDB都有所下降。尽管如此,所提出的算法仍然表现出优秀的泛化能力和稳定性。与CoInNet的卷积-反卷积特征融合架构和SSFormer-S基于Transformer的多尺度特征融合策略不同,我们的方法在HMAM模块中充分利用了小波变换提取的高频特征,并设计了自适应多尺度卷积核以实现更精细的特征建模。基于此构建的多尺度特征金字塔进一步增强了息肉边缘和轮廓的空间信息表示,实现了对目标边界的精确表征。与ASPS和SAM2Unet等更先进的网络相比,它在Dice分数上表现相当,但在反映边缘预测精度的HD95指标上超越了这两个网络。得益于上述策略,我们提出的方法在几个关键指标上取得了显著改进,Dice和Jaccard系数分别达到0.9202和0.8433,SE和PC分别提高到0.8582和0.9145。关于形状相似性指标,得益于提出的多尺度特征聚合机制和边界损失约束,模型能够更好地捕捉息肉真实、不规则、锯齿状或小突起等细节。这使得模型在边界区域的预测更贴近真实轮廓,有效减少了极端边界误差,并将HD95降至3.9584。然而,这种对细节的敏感性是有代价的。在重建复杂或起伏的边缘时,模型会产生小的局部偏移。尽管这些细微扰动对整体形状一致性的影响有限,但它们会累积反映在平均距离指标中,从而略微增加了平均ASD至0.4329。图7显示了各方法在Kvasir-SEG数据集上的分割可视化结果。可以观察到,由于息肉病变的形态多样性、纹理复杂性和边界模糊,现有方法在处理大息肉时容易出现漏检,在具有相似背景纹理的区域则表现出显著的过分割问题。相比之下,所提出的方法在复杂场景中表现更稳定,有效抑制了背景干扰,准确捕捉了息肉的边缘轮廓,并生成了更接近真实标签的分割结果,显示出更高的分割准确性和边界识别能力。

最后,本文比较了FDANet与当前许多先进方法在模型参数数量和推理效率方面的差异,具体结果列于表6。由于提出的FDANet基于U型编解码结构设计,其整体参数规模较小,有效降低了模型复杂度。然而,FDANet设计的核心是充分利用频域信息来提高分割性能。因此,需要在每个编码阶段执行频域变换操作,这不可避免地会引入额外的计算开销。此外,提出的HMAM模块通过融合编码器各阶段的特征图构建多尺度特征金字塔,以增强息肉边缘和轮廓的空间表达能力。然而,由于该模块需要等到编码器的所有特征处理完成后才能运行,也会导致推理阶段产生一定的时间延迟。综上所述,FDANet在保持较低参数量的同时,能够实现准确的分割性能,并显示出良好的计算效率。尽管其包含的频域变换和多尺度聚合操作相比结构更简单的网络会带来一定的额外时间开销,但总体时间成本仍在可接受范围内,并且优于基于Transformer的方法。

**泛化能力验证实验

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基于频域解耦的结肠镜息肉分割多尺度聚合网络
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档