前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >PropSAM:基于传播的深度学习模型在多模态医学影像3D目标分割中的应用 !

PropSAM:基于传播的深度学习模型在多模态医学影像3D目标分割中的应用 !

作者头像
未来先知
发布2024-09-29 11:12:42
90
发布2024-09-29 11:12:42
举报
文章被收录于专栏:未来先知

作者提出了一种深度学习模型,用于在多模态医学影像中分割任何3D目标 背景: 体积分割对医学影像应用至关重要,但通常由于手动标注和针对每个医疗场景的特定模型训练而受阻。当前的普遍分割模型在表现和效率方面表现不佳,因为它们的结构和推理策略存在缺陷。在临床实践中,存在一种需要高精度和高效分割任何3D目标的能力的需求是高精度和高效的分割工具。 方法: 作者引入PropSAM,一种基于传播的分割模型,利用3D医学结构内的信息连续流动。PropSAM结合了一个基于CNN的UNet架构进行内层切片信息处理,并利用Transformer-based注意力模块促进层间的传播。这种方法旨在通过关注结构和语义连贯性而不是孤立的特定目标来增强各个影像模式下的分割有效性。在这个创新框架的基础上,PropSAM工程化以支持一个视图的特征,如一个2D边界框或一个2D草图 Mask ,与现有方法所需的两个视图请求不同。 结果: 在44个多医学数据集上,PropSAM的性能显著优于MedSAM和SegVol等流行模型,平均DSC提高了18.1%以上,同时保持稳定的预测,即使请求偏差(单向方差分析检验,P≥0.5985)和传播配置多变(单向方差分析检验,P≥0.6131)。由于其高效的结构和推理策略,PropSAM的推理速度显著快于现有模型(Wilcoxon秩和检验,P<0.001)。PropSAM使用的单一视图请求也增强了人类提示的效率,与现有方法所需的两个视图请求相比,减少了约37.8%的交互时间。此外,由于PropSAM专注于 slices 之间的结构或语义传播关系,它在处理未见物体时表现出强大的性能。它在处理不规则和复杂目标时表现出优势,DSC提高与其目标的多少负相关(r<-0.1249)。源代码和补充材料可在Github1中找到。 结论: PropSAM代表医学影像分割的一个重大进步,它提供了一个通用且多用途的工具,具有高效、用户友好的设计。其潜在地可以快速适应新的任务,且需要最小的再训练,凸显其在临床应用中的前景,可能铺平了通向更自动化和可靠的医学影像分析的道路。

1 介绍

体分割是医学影像分析中的一个关键任务[1],这包括在三维(3D)医学图像中识别和划分感兴趣区域(ROIs)等领域物体,如器官、病变和组织。在各种医学影像模式(包括计算机断层扫描(CT),磁共振成像(MRI),正电子发射计算机断层扫描-计算机断层扫描(PET-CT)和微型计算机断层扫描(micro-CT))上准确地划分这些目标具有重要意义。这对于许多临床应用至关重要,如疾病诊断,手术和治疗计划[5, 6],疾病进展监测[7, 8, 9],以及治疗优化。在大多数当前的临床场景中,3D医学图像内部的手动分割仍然是划分解剖结构和病理区域的主要方法。这个过程不仅耗时且费力,而且需要对不同物体和影像模式进行精确的分割[13]。因此,有必要开发能够在任何医学影像模式和目标上处理半自动或全自动分割算法的方案。

为了解决这些挑战,过去十年,基于深度学习的模型在医学图像分割方面取得了巨大进展,因为它们能够在各种任务中学习复杂的图像特征并进行精确的分割。然而,这些成功的模型通常仅针对某些分割挑战而设计,这是由各种医学影像模式和目标目标的特定需求驱动的。通常,这些特定的任务特定模型需要为每个新任务组装大型、仔细标注的数据集,在这些数据集中,医学专家仔细划分每个特定目标和模式。尽管这些模型在特定设置下频繁地获得高准确性和良好性能,但它们依赖于大量标注数据集的限制了其适应性和可扩展性。对于每种新目标或模式,都需要重复相同的过程:数据收集、医疗专家手动标注和模型训练,这既消耗大量资源,也不实际应对紧急的医疗情况或罕见的病理学。数据标注和专家标注的成本高,这进一步加剧了这些挑战,阻止了这些模型在各种临床环境中的广泛应用。因此,迫切需要更通用的模型,可以克服这些限制,提供在不进行专门定义的狭窄数据集上的灵活性和快速适应性[22]。

最近,基础模型概念在自然图像处理领域崛起,其中像“分割任何东西”的模型(SAM)展示了在不同任务间惊人的泛化能力,归功于大量数据集的训练。经过广泛和多样化的图像集训练的SAM模型能够以最小用户提示(如点、边界框和 Mask )进行精确分割任何目标。受到这一成功的启发,研究行人开始将这些通用的框架应用到医学图像领域,主要通过两种类型的模型。类型I模型(图1b),如MedSAM[13, 35]经常作为范例,直接将SAM方法应用于各种二维(2D)医学图像,通过在广泛的医学图像上训练,MedSAM可以在基于用户的简单2D提示的2D医学图像中实现精确目标分割。尽管MedSAM在适应医学用途方面展现了前景,但它与3D医学图像的复杂性相抗衡。模型未考虑3D医学图像堆叠切片之间的连续性,导致在实现连续的体积分割方面面临显著挑战。这一局限性需要实现更复杂的用户互动,例如在不同的解剖平面上给出多个提示或在一张切片上进行密集标注,才能达到满意的分割结果。意识到这些差距,进一步的研究已经引领到提出体积分割模型(类型II模型,图1c),如SegVol[25],以扩大SAM原理到3D空间。尽管这些模型在分割特定集合的3D医学目标方面已经展示了潜力,但模型的架构引入了海量的参数,使在有限的3D医学标注数据集上完全发挥其泛化能力变得困难。此外,计算需求大和交互成本相对较高,使得其在临床设置中应用受到挑战。

鉴于类型I和类型II模型所面临的挑战,作者提出通过建模3D医学图像切片之间的传播关系来解决这些问题,作者称之为III型模型(图1d)。具体来说,作者引进了一个高效的框架PropSAM,它通过传播信息来增强医疗图像中任何3D目标的多模态体积分割性能(图1a)。PropSAM实现这一目标的方式是通过结合了一个边界框到 Mask 模块(Box2Mask),经过对超过1000万张医学图像的训练,具有应对边界框式提示的能力,以及一个传播模块(PropMask),经过对超过100万传播任务的训练,了解3D医学图像切片之间的传播关系。在PropSAM中,作者使用卷积神经网络(CNN)设计局部分割组件,包括Box2Mask模块和PropMask模块的分割部分。此外,一种基于Transformer的注意力方法模拟了切片间的信息传播关系。这种设计使得PropSAM比其他纯Transformer模型(如MedSAM和SegVol)更加高效,从而减少了参数和计算的量,并更快地进行推理。此外,PropSAM的学习重点是在切片之间的结构或语义关系的传播,这与现有方法从大量特定物体的提示中学习不同。这种方法可以创建出更多数量和更普遍适用的工作任务。作者在44个医学数据集上严格评估了PropSAM,覆盖了各种分割目标和医学成像模态。实验结果显示PropSAM始终优于最先进的(SOTA)分割基础模型,且效率更高。此外,PropSAM表现出对未见物体的鲁棒性,在偏离的用户提示和不同的参数配置下保持稳定。此外,使用少量标注数据微调PropSAM,可以使其快速转变为一种强大的专家模型,尤其对于新目标类型超过了从头训练的专有模型。这些结果强调了PropSAM作为多样化体积医学图像分割新范式的潜力。

2 Results

在医学影像学中,有效 Voxel 分割模型的需求至关重要,通常由用户交互式提示启动。现有模型可分为I型和II型模型,如图1(b)-c所示。这些模型在许多场景中表现出色,但存在固有局限性。I型模型无法充分解决医学影像的3D复杂性,而II型模型,虽然在体束分析方面具有前景,但仍面临计算效率和完全依赖3D标注以充分发挥模型能力的挑战。相比之下,3D医学结构中信息的固有连续性为利用2D模型学习切片间信息传播关系提供了机会,同时平衡模型性能与计算效率。基于此洞察,作者提出了PropSAM,一种基于传播的3D物体分割模型,如图1(d)中的III型模型所示。PropSAM的重点是学习3D医学图像中2D切片间的信息传播,而不是特定的分割目标。这种方法不仅扩展了模型的通用学习任务,还增强了其通用分割能力。它在用户提示的一个切片上基于知识传播进行3D分割,从而实现高效和精确的分割。

如图2所示,PropSAM的工作流程始于医生查看3D医学图像并向切片内提供目标目标的提示。PropSAM支持两种类型的提示:边界框和基于草图的 Mask (参见图1(a)、附加文本S1.1和附加图片S2)。当使用边界框时,Box2Mask模块在框内执行前景分割,标准化输入提示格式为基于草图的 Mask ,以便后续模块使用。在PropSAM中,医生标注的切片被称为'引导切片',相应地,该提示被称为'引导提示'。PropMask模块然后发挥关键作用,利用引导切片和相邻切片之间的信息传播关系来实现分割任务的传递,从而实现有效体束分割。在推理阶段,PropSAM首先使用医生的提示进行初步分割。随后的轮次使用先前预测的最边缘切片作为新的引导切片,从而使得分割任务在相邻切片之间传播。这个过程会迭代地进行,直到3D医学图像的边界被触及或者PropSAM没有更多内容需要预测为止。

Data characteristic and preprocessing

在这项研究中,作者收集了44个3D医学图像数据集(见补充表S1),其中包含43个公开的数据显示集和作者临床实践中的一个微型CT数据集。这些数据集涵盖了各种医学影像模式,如CT、MRI、PET-CT和微型CT,共包含168个不同的目标目标类型,总数为1,645,871个3D目标进行实验分析(请参见图3a)。这些44个数据集的多样性可分为五个维度(见补充表S4):3D扫描数量、 Voxel 数量、大小各向异性、间距各向异性和目标类型多样性。这种多维多样性对于全面评估PropSAM是必不可少的,如图3b所示。大小各向异性定义为3D扫描中最小尺寸与最大尺寸之比,而间距各向异性则定义为3D扫描中最小尺寸与最大间距之比。符合MedSAM [13]协议的建立的协议,作者将这些数据集分为34个内部数据集(D01-D34)进行训练和验证,以及10个外部数据集(D35-D44)进行独立测试(补充表S2-S3)。

如在前面的第二部分2.1所述,PropSAM包含两个主要模块:Box2Mask和PropMask模块。为了训练和评估Box2Mask模块,作者采用了一个2D架构模型(详细内容请参见第四部分4.1-4.2),处理3D图像及其3D标注的过程分为三个步骤:

1)基于3D Mask 创建边界框以提取ROI图像;

2)对这些ROI图像进行归一化;3)应用随机数据增强技术来增强训练数据(详细内容参见补充文本S1.3.2)。在进行这些预处理之后,作者总共获得了19,344,368个样本(2D医学图像- Mask 对),其中包含14,974,620个训练样本,3,782,206个间隔验证样本和587,542个间隔验证样本。此外,对于训练和评估PropMask模块,作者还采用了一个2D架构模型,该模型接收引导切片、提示切片以及相邻切片作为输入,进一步将3D图像及其3D标注进行预处理:

1)确定裁剪尺寸以获取引导切片和相邻切片,从而构建ROI任务;

2)对这些ROI任务进行归一化;

3)采用随机数据增强技术来增强这些ROI任务的训练(补充文本S1.4.2的详细内容)。在进行这些预处理步骤后,作者得到了总共1,345,871个任务(一个引导切片、一个引导提示切片和多个相邻切片),其中包含1,020,576个训练任务、258,889个间隔验证任务和66,406个外部验证任务。

PropSAM exceeds the segmentation performance of existing models

作者在内部和外部数据集上评估了两种版本的PropSAM,PropSAM-2DBox(接受边界框式(风格1)的提示)和PropSAM-2DMask(接收 Mask 式(风格2)的提示),与两种流行的现有模型MedSAM和SegVol进行比较。与PropSAM-2DBox不同,它只需要一个视角的提示,如2D边界框,而MedSAM和SegVol都需要体积医学图像内的两个视角提示(通常在一个轴向上的提示框和一个正交提示框)。这两种视角提示形成了分割目标的最紧密的3D边界框,限制了推理范围在给定的切片区域(见补充图S2)。此外,原设计用于2D医学图像分割的MedSAM,需要单独处理每个包含分割目标的2D医学切片。分割结果然后堆叠形成一个体积上的最终3D分割,遵循其官方GitHub 2的指导。作者将这一过程称为“切片逐片预测”。相比之下,SegVol直接分割体积医学图像,并使用放大的全局图像和裁剪的块作为输入,采用“缩放-缩放”策略以平衡全局和局部图像特征的获取。作者将这种过程称为“块逐块预测”。

如图4a所示,作者的两种 Proposal 的PropSAM在各种实验数据集上都表现出优异的分割性能(见补充表S5),通过Dice相似系数(DSC)评估,在不同的实验数据集上达到0.95或0.95+。具体来说,PropSAM-2DBox和PropSAM-2DMask在31个内部数据集和所有10个外部数据集上的DSC都高于MedSAM和SegVol。总的来说,PropSAM-2DBox在所有数据集上平均DSC比MedSAM高19.7%,比SegVol高18.1%。同样,PropSAM-2DMask在所有数据集上平均DSC比MedSAM高25.1%,比SegVol高23.6%。

这些结果表明所 Proposal 的PropSAM的强大性能,并展示了在外部验证数据集上的杰出性能。此外,作者还观察到MedSAM由于其“切片逐片预测”并没有在任何3D分割任务上表现出优越性能。另一方面,SegVol虽然在器官相关的分割目标(如DSC=0.941的肝脏,DSC=0.912的肾脏和DSC=0.842的胰腺)上的表现良好,但在病变相关的或组织相关的分割目标(如DSC=0.)上表现出明显的下降。

针对整体病变(DSC=0.001),白质强化(DSC=0.080),肾小球(DSC=0.080)。这些SegVol的局限性源于3D分割模型在有限医疗图像数据中的普遍挑战,以及“逐块预测”可能导致精细信息损失和间断,对于预测罕见annotations和变量形状的病变具有挑战性。相比之下,PropSAM-2DBox和PropSAM-2DMask都能准确地分割与器官相关的、病变相关的和与组织相关的分割目标。例如,它们的DSCs分别为全体病变0.669和0.755,白质强化0.443和0.569,肾小球0.769和0.874。这表明PropSAM的非特异性泛化能力。

这些定量性能分析强调了PropSAM在多种医学影像学模式下准确分割任意3D目标的能力,并且可能用于临床应用。

PropSAM demonstrates superior inference and interaction efficiency compared to existing models

作者对PropSAMs、MedSAM和SegVol在所有数据集上的推理时间进行了全面的评估。如图4b所示,MedSAM的推理速度最慢(推理时间最长),而SegVol较MedSAM有所提升。然而,在作者的提出的PropSAMs中(在2DBox和2DMask版本中),无论在2DBox还是在2DMask上,始终实现了最快的推理速度(最短的推理时间)。图4b的右侧详细展示了在44个数据集上的具体推理时间比较,其中PropSAMs在近所有情况下都优于其他模型(见附录表格S6-S7)。

PropSAMs的优越推理速度主要归因于两个因素:模型结构设计和推理策略设计。现有模型通常直接或主要基于自然图像中的成功SAM模型,这些模型采用完全基于Transformer的架构,擅长于模拟长程关系。然而,作者观察到在医学图像中,特别是在分割任务中,局部信息同样重要,蕴含了许多解剖结构细节,对于准确分割至关重要。在同一解剖结构的不同切片之间通常存在长程关系。因此,作者的PropSAM采用类似于UNet[16]的基于CNN的架构,进行精确的位置分割,同时利用Transformer架构中的注意力机制来模拟切片之间的信息传播。这种方法不仅使得PropSAM能够利用在医学分割[16, 1]中已经证明成功的架构,还减少了模型的参数数量(总共32.48 M参数和53.1 M参数,当与Box2Mask模块结合以支持边界框提示时)。

在此类比中,推理策略方面,MedSAM,一种类型I模型,对于每个切片都使用复杂的Transformer模型来作出回应,需要大量的计算资源(图1b)。SegVol,一种类型II模型,采用与3D-nnUNet模型相似的推理过程,预测单个像素,这些像素后来会被密集的覆盖滑步合并。这不仅由于3D模型的固有复杂性增加了计算成本,还可能导致由于滑动窗口块预测的小步长引起的预测开销增加和潜在错误(图1c)。相比之下,PropSAM属于类型III模型,只需要2D模型参数数量和计算负载,可以在不需要重叠窗口滑块的情况下进行双向并行推理。因此,PropSAM为分割任何3D目标提供更有效的流水线,比现有模型更高效。

此外,作者还分析了不同模型之间的交互效率。MedSAM和SegVol都需要双视图提示,而PropSAM-2DBox只需要交互一次。在作者的提取的测试子集中(见附录文字S2获取更多实验详细信息),有经验的放射科医生使用各种交互提示,根据不同的数据集和目标进行交互。

作者记录了每种交互所花费的时间,并比较了不同提示类型的差异。如图4c所示,基于单视图 Box 的PropSAM提示明显比最常用的双视图 Box 提示节省了时间( Wilcoxon秩和检验,P<0.0001),同时减少了约37.8%的交互时间,并非常贴近临床医生的实际需求。

此外,尽管单视图 Mask 提示(用于PropSAM-2DMask)需要比单视图 Box 提示更多的时间,但它与最常见的双视图 Box 提示的交互代价相当(P=0.2766),并且详细提示信息可以极大地提高模型的整体性能(图4a)。这些分析表明,PropSAM的两种提示类型比双视图 Box 提示具有优势,为用户提供在实际应用中灵活选择的可能性。

综上,基于深度可分离卷积和Transformer的模型在医学图像分割任务中取得了显著的提升。PropSAM的模型结构设计和推理策略设计使其在每个数据集上都实现了最快的推理速度。此外,PropSAM的交互提示设计也提供了用户在实际应用中灵活选择的可能性。

PropSAM exhibits predictive stability and consistency

如第二节4所述,PropSAM使用单视图提示,通常由根据实体瘤反应评价标准(RECIST)选择的医生进行选择。为了评估由不同医生提供的提示引起的变异对PropSAM性能的影响,作者进行了一项删节研究。如图4d-e所示,作者模拟了五个实验组,这些组的偏差分别为0%(无偏差),±5%,±10%,±15%和±20%。PropSAM-2DBox和PropSAM-2DMask在这些变化中均显示出稳定的DSC,这一点由单向方差分析测试证实,其P值分别为0.6736和0.5985(见附录图S9和附录表S8以获取更多详细信息)。尽管随着偏差增加,性能略有降低,但重要的是需要注意的是,在临床实践中,偏差±20%对应总共范围为40%的情况并不罕见。尽管出现了如此大的偏差,但PropSAMs仍保持了值得称赞的性能。

此外,在推理过程中,PropSAMs依次将最边缘的预测切片选择为下一轮的引导切片和引导提示。这个切片与原始引导切片的距离可能影响后续预测的准确性,特别是在相距甚远时,因为距离会导致传播关系减弱。这种影响可能会通过迭代传播增强,进而影响目标的总体三维分割。为了评估传播切片厚度的影响,作者进行另一项删节研究,传播切片厚度分别为10mm,20mm,30mm和40mm。如图4f-g所示,PropSAMs在不同的厚度下均显示出稳定的预测稳定性和一致性,这一点由单向方差分析测试证实,其P值分别为0.7114和0.6131(请参阅附录图S10和附录表S9以获取更多详细信息)。根据这些发现,作者实际选择了20mm作为PropSAMs的默认传播切片。

总之,通过涉及各种提示偏差和传播切片厚度的删节实验,PropSAMs显示出显著的预测稳定性和一致性。这为PropSAMs的临床应用提供了可靠的坚实基础。

PropSAM's superior efficacy in segmenting complex and irregular objects

作者将不同模型的定性分割结果用图5a所示的方式进行了可视化。作者提出的PropSAMs有效地利用了切片之间的传播信息,从而产生了视觉上完整且平滑的分割结果。

逐层预测'并将其整合起来,没有达到PropSAM所产生的那样精细的分割可视化效果。

此外,作者观察到不同目标之间的分割难度不同。例如,大多数器官具有相对固定的形状,使得它们的学习和分割比较容易,而有些组织或病变相关的目标则更具挑战性。为了量化这一过程,借鉴BiomedParse [37]的方法,作者通过以下指标评估了目标的“不规则性”和作者对其预测的准确性:

很明显,PropSAM的定性结果最接近真实值。这尤其值得注意,因为在这个样本中,与典型的肾脏相比,分割目标具有不规则形状(由黑箭头表示)。PropSAM成功地识别了这一独特特征,而MedSAM和SegVol则难以准确区分这一特定部分。这次成功也强调了PropSAM学习的重点更加鲁棒,使其能够根据结构和语义变化动态适应切片之间的罕见和复杂形状变化。相反,MedSAM和SegVol可能会因依赖正常肾的特征而觉得这些异常难以处理。这些分析表明了PropSAMs进行各种目标精确分割的潜力,特别是那些具有不规则形状的目标。

PropSAM demonstrates strong generalization and adaptability across diverse segmentation tasks

作者从两个角度进一步探讨了PropSAM的泛化能力:模型微调和从头开始训练。首先,如图5(a)所示,作为通用分割模型,PropSAM在十个外部数据集上优于MedSAM,显示出其在不熟悉的数据集和物体上的强大泛化能力(配对t检验,p=0.0017)。然后,作者将这十个数据集分为训练集和验证集,对PropSAM在训练集上的微调最小,创建了PropSAM-2DMask-Finetuned模型。实验表明,在微调数据最小的情况下,PropSAM可以快速适应对应任务并提高性能。然而,值得注意的是,PropSAM-2DMask-Finetuned相对于PropSAM-2DMask的改进不显著(配对t检验,p=0.0017),这说明PropSAM的泛化模型在未见过的物体上表现良好。

其次,作者在划定的训练集上从头开始训练PropSAM,并评估了与通用模型PropSAM在十个数据集上的性能恢复百分比(如图5(b)所示)。实验揭示,即使在不多的数据情况下,从头开始训练PropSAM也可以在对应的数据集上实现75.33%以上的性能恢复,这说明PropSAM的学习任务足够简单,可以在有限的样本上实现快速适应。另外,作者还观察到,与训练目标结构相似的分割物体在性能上有所提升。例如,在对数据集D35从头开始训练时,数据集D39的性能恢复达到87.57%,因为这两个数据集中的物体都是病变相关的,且结构相似。这进一步强调了PropSAM的学习重点不是特定的语义目标,而是切片之间的结构或语义信息传递关系。

此外,作者使用雷达图(如图5(c)所示)展示了使用通用模型微调(PropSAM-2DMask-Finetuned)和从头开始训练(PropSAM-2DMask-Scratch)在十个数据集上的分割性能。如 noted,除了在微调的数据集上表现良好外,PropSAM-2DMask-Scratch在对结构相似的分割物体性能上也表现出色。总的来说,PropSAM-2Dmask-Finetuned的表现优于PropSAM-2DMask-Scratch,说明一方面,通用能力有助于微调特定目标并实现更精确的分割结果[38, 39],另一方面,它展示了PropSAM在处理各种分割物体方面的充分通用能力。

这些分析突显了PropSAM的有力泛化能力,展示了其在微调和从零训练场景下的泛化能力,证实了其在分割任务中的适应性和精确性。

3 Discussion

体分割在医学影像学中起着关键作用,支持至关重要的下游任务,如疾病诊断、手术规划和治疗监测。传统的做法通常需要专家进行大量手动标注以训练特定医学场景的专用分割模型。这个过程既耗时且高效,同时也难以适应临床需求的不断扩大。随着大型模型技术的发展,特别是SAM的崛起,实现通用分割能力的前景令人充满希望。这些在大规模数据上进行训练的模型展示了强大的分割性能,且需要很少的人为交互,在未见物体方面表现出色。这些能力与临床需求完全一致,有可能加速分割过程,迅速收集高质量的标注数据,并提高下游分析任务的稳定性。

当前的一般的分割模型主要从自然图像处理的成功中得到启示,根据基础模型架构和推理策略差异分为两类。第一类是(类型I模型),直接将SAM的2D模型架构应用到医院图像上,通过大量医学图像的训练或微调。然而,这些模型使用'逐层预测'方法,忽视了医学图像中存在的3D空间连续性,这在体分割中至关重要,导致性能仍有改进的空间。第二类是(类型II模型),将SAM的架构扩展到3D,并涵盖了更全面的3D空间连续性,但代价是参数的显著增加。由于可用的医学体分割标注数据集有限,这些模型仍然表现不足,无法充分利用其性能。而且,它们的计算成本还因需要分别预测和合并3D重叠步长的块而进一步增加。

认识到这些现有模型面临的一些挑战,作者提出了一种新的方法,利用3D医学图像断层之间的信息连续性,称为PropSAM(类型III模型)。PropSAM将一个基于2D卷积神经网络(CNN)的UNet架构与切片间的信息传播和提示指导融合相结合,它是一种具有2D卷积神经网络模块、Transformer模块和整体2D模型架构的高度并行推理方法。与早期模型相比,PropSAM在多个医学断层上的性能和分割目标上表现出稳定性,特别是在提示和不同参数设置的变化中表现出强大的泛化能力,尤为适用于外部数据集。

PropSAM的一个重要特点就是其学习焦点。不同于现有模型,PropSAM学会的目标传播关系跨切片,即本质上抛弃特定目标的概念,而学习结构或语义连续性。一方面,这种学习焦点使得更多的训练目标可以衍生出来。例如,对于一个有十个断层的目标,作者可以通过指定不同的引导断层和提取不同的相邻断层形成 dozens 的训练任务。另一方面,学习切片间的信息传播使得该模型能够学习更通用的结构或语义传播关系,从而表现出在对外部数据集和未见物体方面的良好泛化能力。

此外,PropSAM还可以被视为一个自回归模型。自回归模型(特别是生成预训练 Transformer (GPT)系列 [40, 41, 42, 43])通过利用"预测下一个标记"的方法在各个领域取得了先进的进步。这种方法使他们能从庞大的数据集中积累全面的知识,并有效地作为成千上万独特多任务杂和的混合体,从而增强了模型学习和泛化的能力 [41, 44]。PropSAM使用引导切片和提示来"预测下一个切片",并用结果预测来迭代地继续这个过程。在训练期间,PropSAM与相邻切片一起构建了一个引导切片和提示(任务)。这种策略模仿了GPT模型的方法,通过生成成千种多样性的传播多任务,不仅有助于模型学习通用传播关系,而且优于在"针对特定目标提示"框架下操作的其他模型的一般化能力。此外,这表明PropSAM可能受益于现有成功自回归模型的先进技术,可能进一步展示其在分割通用医学3D目标方面的能力。

尽管目前PropSAM版本的成果有前景,但它仍然面临两个局限性:1) 虽然进行了大量的实验,证明了PropSAM的分割效果、泛化能力,以及效率和成本效益,但分割任务仅在临床实践中充当一个中间步骤,为各种下游任务服务。因此,作者计划在临床环境中将PropSAM集成为软件或Web应用程序,结合患者诊断和预后研究其在未来实用性 clinics。2)目前,虽然PropSAM支持医生最常用的提示形式,2D边界框和2D草图口罩,但还有更多的交互形式可以引入,如点划线。作者希望在PropSAM的基础上进一步增强,构建更全面的系统和安全工具有关。

总的来说,本研究引入了PropSAM,一种基于传播的通用分割方法,用于分割各种医学影像学目标的3D目标。PropSAM在44个数据集和多个医学模式中展现出了优异的分割能力和强大的泛化能力,以及更高的推理和交互效率。足够的实验表明,其潜力应用于临床实践,有望成为医生和其他用户的有效助手。

4 Methods

Data acquisition

作者收集了44个公共三位一体医学分割数据集(见附加表S1),涵盖多个模态,如CT、MR、PET-CT和微-CT,以构建一个大规模且全面的数据集,用于模型训练和验证(图1a)。自作者收集的数据集广泛用作通用和专业医学图像分割模型的训练和验证数据后,作者数据集中的所有体积医学图像都具有高质量的标注。

如附加表S4和图2(b)所示,作者在五个维度记录了这44个数据集:三位一体扫描的数量、 Voxel 数量、形状各向异性、间隔各向异性和目标类型多样性,这对于全面评估PropSAMs非常重要。遵循nnUNet[1]的定义,形状各向异性是三位一体扫描中最小尺寸与最大尺寸的比率,而间隔各向异性是三位一体扫描中最小间隔与最大间隔的比率。此外,与MedSAM[13]协议相一致,作者将这些数据集分为34个内部数据集(D01-D34)用于训练和验证,以及10个外部数据集(D35-D44)用于独立测试(附加表S2-S3)。

如附加表S2和S4所示,作者的数据集包含168种不同的类别目标和1,645,871个三位一体物体,涵盖器官、病变和问题,用于实验分析,以增强两个主要模块Box2Seg模块和PropSAMs的稳定性和泛化能力。

Data pre-processing

首先,为了获取Box2Mask模块的边界框,作者在含有超过100像素的前景 Mask 标注的切片的最小边界框上生成最紧密的边界框。然后,作者随机调整边界框的宽度和高度,缩放比例在1.0到1.25之间,以考虑实际使用中的潜在偏差,并使用处理后的边界框作为Box2Mask模块的训练数据。相应地,作者构造了PropSAM的ROI任务。作者生成覆盖引导切片 Mask 的最紧密边界框,然后随机调整其宽度和高度,缩放比例在1.0到2.0之间,以捕获目标目标周围的上下文。这个调整的边界框然后用于裁剪传播厚度内的相邻切片,形成裁剪后的ROI任务作为PropMask模块的训练数据。

Box2Seg和PropSAM的训练数据都需要经过两步骤的数据预处理:图像归一化和随机数据增强。获得ROI图像/任务后,作者将归一化裁剪图像的强度值到原切片图像标注 Mask 的像素值百分位数0.5和99.5之间的范围,分别代表最小和最大值。图像的上下文/任务在归一化后得到了增强和强调。最后,为了优化训练效率,作者对用于Box2Mask模块的每张样本图像进行了五倍离线数据增强。具体来说,每张图像有50%的概率是水平翻转和垂直翻转。另外,作者随机调整图像的亮度和对比度,并且以50%的概率进行这些调整,调整范围设定为[-0.2,0.2]。图像还以50%的概率随机旋转45度,用常数值(通常为黑色)填充边界框之外的任何区域。否则,由于PropMask的基本训练单元是任务,每个任务由几张图像组成(通常为20张相邻图像和一张引导图像)。具体来说,任务中的每张图像有50%的概率是水平翻转或垂直翻转,并且可以以最大45度的角度进行旋转。这些样本被均匀缩放到224分辨率,作为输入到Box2Mask模块和PropMask模块。

按照这些预处理步骤,作者总共得到了19,344,368个样本用于Box2Mask模块和43种数据集共284个目标(如图1(a))。根据MedSAM中的数据划分,这些数据被分成内部和外部验证集。内部验证集进一步被分成训练和验证集,比例为80:20。Box2Mask模块有14,974,620个训练样本,3,782,206个内部验证样本,和587,542个外部验证样本(补充表S2)。PropMask模块有1,020,576个训练样本,258,889件内部验证任务,和66,406个外部验证任务(补充表S3)。作者在训练集上训练PropSAM,使用内部验证集来评估模型性能并选择最终的模型预训练权重。外部验证集用于证明PropSAM的鲁棒性和使用未见过的目标和数据集的能力。

Network architecture

PropSAM由Box2Mask模块和PropMask模块组成。这两个模块都基于卷积神经网络(CNN)构建,它们在计算机视觉领域已久经成为了主流网络架构,并比现在常用的Transformer架构更有效,因此它们适用于更广泛的临床应用场景。值得注意的是,基于UNet架构的[16]网络,尤其是nnUNet模型,已经成为了近年来医学影像分割最广泛适应和最有效的策略。

要将根据边界框提示裁剪的ROI图像转换为二进制前景 Mask (如图2a所示),作者采用了基于卷积神经网络(CNN)的六阶段解码编码器-解码器UNet模型[16]作为Box2Mask模块。输入使用了三维通道,适合于三倍灰度图像。第一阶段特征有32个,后续每个阶段翻倍,达到512。因此,六个阶段的通道数分别为[32,64,128,256,512,512]。每个阶段包括两个卷积层,接着是实例归一化和激活函数LeakyReLU。所有卷积核都是3,每个阶段内的步长都是1,而每个阶段的最后一个层的步长为2进行下采样。此外,为了保持低频特征,采用了跳过连接来连接每个编码器层和对应的解码器。作者还对六个解码阶段的二进制前景分割预测进行深度监督。

作者通过Box2Mask模块从两种类型的提示中获取二进制2D Mask 。2D Mask 作为引导切片的分割,PropMask模块利用它来为相邻切片生成分割(如图2b所示)。作为网络的核心组件,其架构和基于UNet[16]。PropMask由图像编码器、 Mask 编码器、一系列交叉注意力模块和解码器组成。图像编码器和 Mask 编码器也是六阶段CNN编码器,与Box2Mask模块的编码器相同,但 Mask 编码器的输入通道直接接受2D Mask 提示。引导切片及其相邻切片通过图像编码器产生六个分辨率)的支撑特征、 Query 特征。同时,从引导切片获取的2D Mask 通过 Mask 编码器生成六个分辨率的 Mask 特征。接下来,使用一系列交叉注意力模块。给定一组 Query 向量,键向量和值向量,交叉注意力的定义如下:

其中

代表 Query 和键的点积,用于衡量 Query 和键之间的相似度或对齐,交叉注意力在来自不同输入源的 Query 、键和值集之间尤其有用,模型可以将来自这些源的信息整合起来。

PropMask的支撑特征、 Query 特征和 Mask 特征分别被扁平化为1维向量,作为交叉注意力的支持、 Query 和值向量。考虑到交叉注意力的定义,PropMask中交叉注意力模块的输出可以被视为 Query 特征的值向量。值向量可以被 Reshape 为2D特征图,作为 Query 图像的特征图。为了平衡模型效率和性能,交叉注意力模块只执行在切片和 Mask 的最低四分辨率特征图上。最后,在最低分辨率下,交叉注意力模块的输出通过解码器多个反卷积来生成不同分辨率的输出,与UNet架构[16]的反卷积结构一致。遵循UNet架构[16],每个解码器阶段的输出与 cross-attention模块或编码器阶段的同一分辨率特征图 concatenate,作为下一解码器阶段的输入和最终解码器输出是预测 Mask ,用于计算Dice能量损失与实际 Mask 标签的反向传播。

Training configuration and inference settings

作者利用PyTorch46实现作者的模型,并将其运行在一台配备CUDA平台(版本11.8)的服务器上。Box2Mask模块和PropSAM模块使用四块NVIDIA A800-SXM4-80GB GPU和64块Intel(R) Xeon(R)铂金8358 P CPU(2.60GHz)进行训练。使用AdamW优化器,Box2Mask模块的初始学习率为1e-3,PropMask模块的初始学习率为5e-4,权重衰减为1e-4。学习率根据余弦退火LR时间表进行调整,最大周期为100个周期,最小eta为1e-5。

对于Box2Mask模块,在每个epoch中,作者随机选择10,000个样本进行训练,并在20个epoch后使用一组5,000个随机选择的验证样本进行评估。训练持续了4,100个epoch,批量大小为1,024,大约持续了六天。图S5说明了训练和验证曲线的走势。作者将每个epoch最新的预训练权重设置为Box2Mask模块的最终权重配置。一旦训练了Box2Mask模块,作者在推理阶段分配一个GPU和8个CPU用于推理评估,以及与比较方法相比的资源比较,以确保推理时间和资源比较的公平性。在推理阶段,首先从提示性边界框裁剪ROI图像,然后通过一系列候选最小和最大参数规范化。最小参数按照50%至40%的百分位数(以1为单位)确定,最大参数按照90%至95%的百分位数(以0.5为单位)确定。这些参数合并后用于标准化ROI图像,最终得到候选规范化ROI图像。随后,Box2Mask模块用于预测前景。最终标准化参数和是根据预测的前景像素的0.5%和99.5%百分位数确定的。这些参数然后用于标准化ROI图像的前景预测。

对于PropMask模块,在整个训练过程中,作者每个epoch随机选择10,000个任务。每个任务包括引导切片和四个随机选择的相邻切片。在20个epoch之后,使用一组5,000个随机选择的验证任务进行评估。训练持续了4,500个epoch,批量大小为160,大约持续了七天。图S8显示了训练和验证损失曲线的走势。作者选择最近的一个预训练权重作为PropMask模块的最终权重配置。

Loss function

Evaluation metrics

Statistics and reproducibility

样本大小和数据集数量是根据作者能够下载和处理的所有公开数据集的可用性来确定的,以及作者从临床实践中获取的一个稀疏模式数据集(D44)。没有使用统计方法来预先确定样本大小或数据集数量。对所有数据集中的每个目标类型进行了DSC计算,通过计算构成数据集目标的DSCs的平均值来获得数据集的DSC。在ablation研究中,通过单向方差分析测试对多个实验组的性能进行比较;在本研究中,-值大于0.05表示各组之间性能无显著差异,表明实验结果的稳定性。使用Wilcoxon秩和检验评估模型之间的推理速度和交互时间差异;-值小于0.05表示存在显著差异。作者使用配对t检验比较不同模型之间的优化差异。使用线性模型对模型性能改善和目标不规则性之间的关系进行建模,负相关系数表示不规则性与模型性能改善显著相关。

作者使用R(版本4.1.3)进行结果分析和统计分析,使用Python(版本3.7.10)进行模型构建、训练和推理。为了确保可重复性,作者在补充材料中详细介绍了作者的方法,包括数据收集和处理、模块详细信息、损失函数定义、实验细节和评价指标(补充图S1-S10,补充表S1-S10和补充文本S1)。这些程序遵循良好的临床实践和数据隐私法规。

在实验中,作者使用Micro-CT扫描仪从患者体内获取CT图像,并将图像分割为二值图像和骨组织图像。作者利用临床工作中使用的稀疏D44数据集对模型进行训练和评估。采用Keras深度学习框架构建了基于卷积神经网络(CNN)的骨肿瘤检测模型。模型采用了密集连接的全卷积网络结构,并添加了密集连接以提高模型的特征提取能力。作者还使用数据增强技术来增强模型的泛化能力,包括剪裁、旋转、缩放和插值等。作者通过改变数据增强参数设置(例如剪裁百分比、旋转角度和插值因子等)来确定最优数据增强组合。在模型训练过程中,作者使用了交叉验证方法对模型性能进行评估。采用Keras深度学习框架构建了基于卷积神经网络(CNN)的骨肿瘤检测模型。模型采用了密集连接的全卷积网络结构,并添加了密集连接以提高模型的特征提取能力。作者还使用数据增强技术来增强模型的泛化能力,包括剪裁、旋转、缩放和插值等。作者通过改变数据增强参数设置(例如剪裁百分比、旋转角度和插值因子等)来确定最优数据增强组合。

在模型训练过程中,作者使用了交叉验证方法对模型性能进行评估。作者还使用了一对一(One-vs-One)分类方法来评估模型性能,该方法将患者数据集分为训练集和测试集两部分。在一对一分类方法中,作者将模型的预测结果与真实值进行比较,并根据预测结果的准确率来评估模型性能。作者还使用了一对多(One-vs-Multiple)分类方法来评估模型性能,该方法将患者数据集分为训练集和测试集两部分。

在一对多分类方法中,作者将模型的预测结果与真实值进行比较,并根据预测结果的准确率来评估模型性能。作者通过比较不同数据集、不同模型和不同分类方法下的性能指标来评估模型的鲁棒性和泛化能力。此外,作者还分析了模型在骨肿瘤检测任务中的性能差异,并探讨了影响模型性能的因素。

作者发现,模型在骨肿瘤检测任务中的性能受到骨肿瘤形状、大小和位置等因素的影响。作者发现,模型在骨肿瘤检测任务中的性能受到骨肿瘤形状、大小和位置等因素的影响。作者还发现,模型在特定类型的骨肿瘤(例如,长骨肉瘤)检测中的性能可能优于在非特定类型骨肿瘤检测中的性能。

在结果分析方面,作者首先使用PCA分析方法对患者数据集进行降维处理,以便更好地可视化和分析数据集中的潜在结构。作者还使用t检验对不同数据集之间的差异进行了评估。

参考

[1].PropSAM: A Propagation-Based Model for Segmenting Any 3D Objects in Multi-Modal Medical Images.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 介绍
  • 2 Results
  • Data characteristic and preprocessing
  • PropSAM exceeds the segmentation performance of existing models
  • PropSAM demonstrates superior inference and interaction efficiency compared to existing models
  • PropSAM exhibits predictive stability and consistency
  • PropSAM's superior efficacy in segmenting complex and irregular objects
  • PropSAM demonstrates strong generalization and adaptability across diverse segmentation tasks
  • 3 Discussion
  • 4 Methods
  • Data acquisition
  • Data pre-processing
  • Network architecture
  • Training configuration and inference settings
  • Loss function
  • Evaluation metrics
  • Statistics and reproducibility
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档