首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

医学图像分割论文分享:Learnable Ophthalmology SAM

医学图像分割论文分享:Learnable Ophthalmology SAM

01 摘要

图像分割是眼科图像分析的关键。但其模态图像的多样性阻碍了大多数现有分割算法的应用,因为它们依赖于基于大量标签的训练或泛化能力较弱。在此基础上,提出了一种简单有效的适合于眼科多模态图像多目标分割的可学习提示层,命名为可学习的眼科多模态图像分割提示层(SAM)。可学习提示层从每个Transformer层学习医学先验知识。在训练过程中,本文只对提示层和任务头进行一次训练。本文基于9个公开可用数据集的四个医学分割任务证明了本文所提出思想的有效性。本文只是为现有的基本CV模型在医学领域的应用提供了一种新的改进思路。

论文地址:

https://arxiv.org/abs/2304.13425

02 引言

分割对眼科诊断和治疗至关重要。眼科拥有10多种影像学检查[1]。多模态图像之间的差异带来了不同的分割目标,例如彩色眼底的血管和光学相干断层扫描(OCT)的视网膜层,这阻碍了单一模型在眼科中的应用,因为现有的分割算法大多依赖于专家标记或泛化能力较弱。

图1用基本CV模型和本文的算法提取血管和病变的例子

Segment Anything (SAM)[2]、DINOv2[3]等几个基本的CV模型在本月发布,它们是在大型视觉语料库上训练的基于Vit的大型模型。它们都在各种自然场景中证明了有前途的分割能力。但它们不能从医学图像中分割血管或病变,分割血管或病变有助于医生的诊断或治疗方案。如图1所示,DINOv2不能提供来自视网膜彩色眼底或光学相干断层血管造影(OCTA)的血管。SAM可以从OCTA图像中找到若干血管,但不能从彩色眼底分割血管或病变。可能的原因是血管或病变与视网膜之间的边缘差异不明显。对于视网膜光学相干断层扫描(OCT)图像,SAM不产生层信息,而是作为一个整体考虑。因此,SAM不能直接应用到我们的医学图像分割中。

由于这些基础CV模型具有计算机视觉基础模型的巨大潜力,作者相信它们对医学领域也有帮助[4,5]。然而,它们的掩膜分割预测在医学领域还没有得到充分的探索。作者分析了大量的分割结果,发现在边缘差异明显的情况下,SAM和DINOv2的分割结果是可以接受的。然而,血管或病变可能不够明显而无法识别。上述两种模型的特征提取能力已经被其他一些计算机视觉任务所证实[6,7]。从有效性和效率的角度来看,如何将这种基础模型应用于医学图像分割?

模型微调通常用于在大规模基准测试中使用这样的基础模型。在医学领域,对整个网络的参数进行全调优或仅对模型的头部进行头部调优都无法提供可用的结果。近年来,提示调优在自然语言处理[8]和自然图像处理[9]中取得了相当大的成果,其定义是将提示作为特定于任务的连续向量,在微调过程中直接通过梯度对其进行优化[10]。例如,SAM中使用的稀疏(点、框、文本)和密集(掩码)两组提示符,在医学领域,尤其是血管领域,无法提供准确的分割结果。因此,在本文中,作者提出了一种新的可学习的SAM提示,它可以准确地指定医学图像中需要分割的内容。因此,本文的贡献如下:

1.提出了一种新的可学习的SAM提示层,称为learnable Ophthalmology SAM,它可以在一次微调后准确地分割多模态眼科图像中的血管或病变或视网膜层。

2. 提出的可学习提示能够自动学习不同模态图像中感兴趣的目标,并具有数据集之间的泛化能力。

3. 在基于九个公开可用数据集的四个分割任务上证明了所提出的提示的有效性。

03 Learning Ophthalmology SAM

受[9,11]的启发,作者冻结了主干模型的主要参数,如视觉ViT (Vision Transformer, ViT),并尝试在训练过程中插入一些特定于任务的可学习参数,使模型可以适用于下游任务,而无需对模型进行完全微调。因此,本文提出了一种简单有效的从特征中学习提示符的方法,并将其应用于医学图像分割中。

3.1 Preliminaries

对于可视ViT (visual transformer, ViT),首先对输入x进行patch embedding处理,提取嵌入特征。然后N个转换层将提取的特征编码为一个特征表示。最后,任务头(例如分段头)基于上述表示生成特定于任务的输出。

3.2 Learnable Prompt Layer

如图2(a)所示,冻结了SAM中图像编码器的所有Transformer层的权重。然后,采用特定于任务的头部而不是SAM的提示生成器和掩码解码器来产生结果。SAM的训练主要基于自然图像。虽然有研究表明它在医学图像上有一定的分割能力[4,5],但对于某些医学图像,如OCT、彩色眼底等,它并不能产生可用的结果。假定SAM缺乏这些场景的先验知识。在本文中,作者在每个Transformer层之间提出了一个可学习的提示层来学习知识,并将其作为特定任务的提示。在训练过程中,只训练提示层和特定任务的头部,用红色火焰标记,如图2 (a)所示。Transformer层和贴片嵌入用蓝色冻结,用蓝色雪花标记。

图2 框架结构和本文提出的提示层示意。

网络的可学习提示层结构如图2(b)所示,它简单而有效。只是采用两个1 × 1的Conv (Conv 1x1)与层归一化(LayerNorm)和GELU作为非线性激活函数作为层的主体部分。受[12]的启发,引入了3 × 3深度卷积(DW-Conv 3x3)来捕获特征的局部模式。

对于任务头,作者首先使用两个核大小为2 × 2的转置卷积层对ViT中最后一层的特征进行两次上采样。然后采用group = 4[13]的多尺度卷积层和线性层生成分割结果。

04 实验结果

4.1 数据集

本文在三个医学分割任务上对我们的算法进行了评估,包括血管分割、病变分割、基于9个公开可用数据集的分层,包括用于血管分割的三个颜色眼底数据集FIVES[14]、HRF[15]、CHASEDB[16],用于血管分割的四个OCTA数据集ROSE-1[17]、ROSE-2[17]、OCTA- 6m[18]、OCTA- 3m[18],用于血管分割的一个病变分割数据集iDRiD[19]和一个视网膜层分割数据集ARoI。

4.2 比较结果

表1基于一次性提示学习SAM的分割结果。*为一卷OCT数据集训练的结果。

表2 基于零样本血管分割结果

图3 四项任务的可视化分割结果

图4 基于5个数据集的双模态图像的泛化结果。

图5 基于5个数据集的双模态图像的泛化结果。

版权说明

本文中的内容全部来自论文《Learnable Ophthalmology SAM》,分享文章的目的是为了让更多刚入门的同学能够快速了解最前沿的科研动态,进而筛选出对自己有帮助的文献,助力科研。如有侵权,请联系本公众号立即删除。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OdPH5YXX2XUzWwXFeoyxoo4A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券