基于大规模开放领域图像和文本对训练的视觉语言模型(VLMs)已 recently 被用于开发视觉语言分割模型(VLSMs),该模型允许在推理过程中提供文本提示以指导图像分割。 如果能够为医学图像构建鲁棒且强大的 VLSMs,则可以帮助医学专业人士在许多临床任务中节省大量时间,这些任务需要他们勾勒出感兴趣的目标结构。由于医学图像注释数据集较少,因此医学图像的 VLSMs 采用基于开放领域自然图像数据集的 VLM 或 VLSM 的微调;这种微调既耗时又昂贵,因为它通常需要更新所有或大部分预训练参数。 最近,在 VLMs 中提出了名为适配器(adapters)的轻量级块,该适配器在微调期间保持预训练模型冻结,只训练适配器,从而大幅减少了所需的计算资源。我们引入了一种新的适配器 VLSM-Adapter,它可以通过 transformer 编码器微调预训练的视觉语言分割模型。 我们在广泛使用的基于 CLIP 的分割模型上的实验表明,VLSM-Adapter 只有 300 万个可训练参数,但其性能优于现有最佳成果,并且与端到端微调的上界相当。 源代码:https://github.com/naamiinepal/vlsm-adapter。
2010年代初,当深度神经网络能够使用大规模图像或文本数据学习强大的表示时,深度学习在单领域任务(如图像分类或语言翻译)中取得了初步成功[5,10]。由于公开可用的规模化注释图像中缺少医学图像,因此广泛使用了迁移学习,其中网络使用从自然图像(如ImageNet[5])预训练获得的权重进行初始化,并在特定领域的较小数据集上进一步微调[30]。
最近引入的基础视觉语言模型(VLMs)可以从大规模图像-文本对中学习强大的联合表示,并且可以适应包括密集预测任务(如语义分割)在内的广泛任务,以开发视觉语言分割模型(VLSMs),在推理过程中可以提供文本提示以指导图像分割。VLSMs在医学领域具有吸引力,因为强大的VLSMs可以帮助医疗专业人员在许多需要费时耗力勾勒感兴趣目标结构的临床任务中。
VLSMs具有独立的或联合的视觉和语言编码器,后跟解码器或掩码生成网络,该网络是端到端训练的[28],或者解码器是单独训练的,使用从VLM预训练中获得的冻结编码器参数[18]。最流行的VLM,广泛适应以创建不同的VLSMs,是对抗性语言-图像预训练(CLIP)[21],它使用独立的视觉和语言编码器。
它通过可学习参数将图像和文本投影到共享嵌入空间,使语义上相似的图像-文本对靠近,而将不相似的对推得更远。各种VLSMs[18,28,29]利用CLIP捕获的多模态语义信息,在开放词汇分割任务中训练一个分割模型。Yu等人[31]使用预训练的自监督掩码提议网络和CLIP,在开放领域上实现零样本引用图像分割,而不需要额外训练。
尽管开放领域VLMs在下游任务中显示出令人印象深刻的零样本或少样本性能,但将它们适应于医学图像分割需要进一步微调[1,20]。这种微调通常需要更新所有[12]或大部分(通常是最后几层)预训练参数[16],这是昂贵的,因为VLMs比流行的仅图像模型(几个到几个亿参数)大得多。
已经为不同的视觉[4,22]、语言[11,25]或视觉语言分类任务[8,24]引入了适配器。适配器是参数更少的较小网络,可以插入现有的预训练架构中,然后在微调期间保持预训练权重冻结只训练适配器。VL-Adapter[26]重复使用预训练的VLMs进行视觉-文本任务,如图像字幕和视觉问答。尽管已经提出了几种基于VLM的分类任务的方法,但还没有研究过用于端到端训练的VLSMs的适配器。侧面适配器网络(SAN)[29]引入了ViT[6]作为适配器网络,与CLIP的编码器并行,为图像-文本输入生成分割掩码。
本文提出了可学习的适配器网络,以微调已经训练的端到端VLSMs,即VLSM-Adapter,它适应了预训练模型中间学习表示的领域特定数据集,同时保留了已经在大规模预训练中学习到的权重。我们在VLSM的一个变种CLIPSeg[18]中增加了可学习的适配器模块,引入了300万个可训练参数,这超过了同样模型的端到端微调。
本文的主要贡献:
基于编码器-解码器架构的视觉语言分割模型预训练模型被冻结,同时引入了与原始冻结网络相比具有更少参数的 Adapter 模块,用于在包含三元组的小型训练集上进行微调:
D=\{(v_{i},l_{i},m_{i})\}_{i=1}^{S}。在这里,S 是训练样本的数量,v_{i}、l_{i} 和 m_{i} 分别代表第 i 个训练样本的图像输入、文本提示和目标 Mask 。输入图像是2D三通道RGB图像,目标 Mask 是二值图像,即 v_{i}\in\mathbb{R}^{H\times W\times 3},m_{i}\in\{0,1\}^{H\times W}。
Adapter 模块[11]是非线性投影块,它们在不改变预训练模型参数的情况下,将预训练模型的表示适配到下游任务,使得预训练模型学到的表示能够用于其他任务。方程式(1)表示 Adapter 网络的基本块。
f^{\prime}=Adapter(f)=f+\sigma(\psi(f\cdot W_{1})\cdot W_{2}) \tag{1}
在这里,f 是预训练模型学到的表示,f^{\prime} 是适配后的特征,W_{1} 和 W_{2} 是可学习的 Adapter 权重。\psi 和 \sigma 是非线性激活函数,在大多数情况下,它们是相同类型的。 Adapter 权重初始化为 W_{1}\in\mathbb{R}^{d\times d^{\prime}},W_{2}\in\mathbb{R}^{d^{\prime}\times d},其中 d^{\prime}\leq d。输入张量的尺寸在 Adapter 中输出时不得改变,因为它们必须被后续的预训练层使用,即,\{f,f^{\prime}\}\in\mathbb{R}^{\cdots\times d}。
如图1所示,作者在保持解码器静态的同时,向VLSM-Adapter的编码器段引入 Adapter 。在引入变换块 Adapter 时的位置变化提供了三种递增的VLSM-Adapter变体。(1) V-Adapter 在图像编码器层中具有 Adapter 。
(2) VL-Adapter 为文本编码器层添加 Adapter 。
(3) VLC-Adapter 在瓶颈层为条件文本特征添加额外的 Adapter 层。
由于CLIPSeg [18] 提供了变换编码器和用于分割 Mask 生成的预训练视觉语言解码器,作者将其作为实验的候选模型来验证VLSM-Adapter。
在CLIPSeg网络中实现了两种VLSM-Adapter变体以进行微调:CLIPSeg 浅 Adapter (SA) 和 CLIPSeg _密集 Adapter (DA)_。
CLIPSeg [18]中的浅层 Adapter (SA)学习在将预训练编码器表示输入到解码器网络之前对其进行投影(图1b)。 Adapter 被引入到CLIPSeg编码器中的跳跃连接处,这些编码器被视觉-语言解码器用来预测分割 Mask 。由于原始的CLIPSeg模型[18]使用了来自图像编码器中L_{t}\in\{3,6,9\} Transformer [27]层的跳跃连接,因此在这些连接处引入了三个 Adapter 层。类似的策略为文本编码器中L_{t}层的跳跃连接添加了 Adapter 模块。CLIPSeg SA引入了d^{\prime}=512作为 Adapter 块的隐藏维度,导致了420万的可训练参数。
在CLIPSeg中的稠密 Adapter (DA)学习在送入解码器网络之前调整编码器连续层的表示(图1c)。仿照Houlsby等人[11],作者在每个注意力层的两个残差连接之前应用 Adapter ;每个自注意力层中使用两个 Adapter 块。由于超过L_{T}层后,解码器不再使用中间表示,因此作者在图像编码器的最多\max(L_{t})=L_{T}=9个注意力层上使用 Adapter 块。同样,DA对文本编码器实施了相同的 Adapter 模式。DA还在CLIPSeg的文本条件嵌入[18]中使用 Adapter ,以确保与SA的一致性。块的隐藏维度为d^{\prime}=64,仅引入了300万可训练参数。表1的实证结果表明,尽管参数更少,但DA在性能上超过了SA。
SA和DA之间的主要区别在于,DA在将激活传递到下一个编码器块之前调整了每个编码器块的激活。相比之下,SA调整了传递给解码器的提取内部激活。
普德尔等人[20]最近提出了多种自动提示生成方法,并在八个来自不同模态的医疗成像数据集上对基于CLIP的不同VLSM进行基准微调,包括五个非放射学数据集和三个放射学数据集。遵循该工作的惯例,作者使用了他们的文本提示以及相同的数据集划分。他们提出的方法为单个实例图像- Mask 对生成了多个文本提示,即许多文本提示指向同一个图像- Mask 对。在进行作者的实证分析时,作者在众多提示中随机抽取了一个单一的文本提示来生成图像- Mask -文本三联体,同时遍历数据加载器。
在非放射学数据集中,有三个是内窥镜图像,具有息肉分割任务(Kvasir-SEG[13],ClinicDB[3],和BKAI[19]),另一个具有糖尿病足溃疡分割任务(DFU[14]);最后一个具有皮肤病变分割任务(ISIC-16[9])。三个不同的放射学图像包括乳腺超声分割(BUSI[2]),2D-超声心动图(CAMUS[15])和胸部X光(CheXlocalize[23])。
作者对五种模型进行了实验分析的基准测试——其中两种(CLIPSeg [18]和CRIS [28])是通过端到端的微调进行训练,另外三种(SAN [29],CLIPSeg SA和CLIPSeg DA)则是通过 Adapter 微调。SAN可以通过训练一个ViT块[6]并冻结CLIP[21]来从图像-文本输入生成分割 Mask 。作者是首次将 Adapter 用于预训练的编解码模型以进行视觉-语言分割任务,例如CLIPSeg DA和CLIPSeg SA。由于Houlsby等人[11]提出的 Adapter 模块与卷积编码器不兼容,因此它们没有在CRIS [28]中实践。作者使用骰子分数(DSC(%))、交并比(IoU(%))以及95^{th}百分位的豪斯多夫距离(HD95)作为评估方法性能的指标。
作者在NVIDIA GeForce RTX 3090上执行了 Baseline 方法和提出方法的训练和推理。作者使用浮点数16混合精度训练以降低内存占用和提高前向-后向循环的速度。作者使用的批处理大小为32。对于DA和SA的初始学习率分别为1e-3和3e-4,并使用一个调度器,如果在5个连续周期内未观察到验证损失下降,则将学习率按0.3的比例进行缩放。如果在20个连续周期内未观察到验证DSC(%)的进展,则停止训练;因此,没有固定的训练周期数。模型使用带权重衰减1e-3的AdamW [17]进行优化。此外,每个实验都针对三个不同的种子值进行测试,以检验方法的连贯性并考虑在提示抽样中的随机性。作者结合了骰子损失和二进制交叉熵损失作为目标函数,如公式(2)所示。
\mathcal{L}=\lambda_{d}\cdot\mathcal{L}_{Dice}+\lambda_{ce}\cdot\mathcal{L}_{ BCE} \tag{2}
这里,\lambda_{d} 和 \lambda_{ce} 是超参数;作者在实验中选择了它们的值为 \lambda_{d}=1.5 和 \lambda_{ce}=1,如表1所示。由于 Adapter 对其在编码器分支中的位置敏感,以泛化数据集的特定领域分布,在选择一种变体之前,应当评估 Adapter 在不同位置的表现。(更多指标见补充部分的表2)
VLSM-Adapter 的变体。在图 2 中,我们展示了 Section 2.3 中定义的 VLSM 中适配器三种不同位置的结果。
结果显示,在大多数数据集中,VL-Adapter 表现最佳——因此,我们在表 1 中只保留了这种配置的性能。VLC-Adapter 在 ClinicDB [3] 数据集中显示出最佳性能。V-Adapter 在 Kvasir-SEG [13] 数据集中表现出最佳得分,甚至超过了 CRIS [28] 设置的上限。
通过为所有放射学和非放射学数据集进行端到端的微调,带有 Adapter 模块的CLIPSeg在几乎所有指标上与不带 Adapter 模块的版本相比都显示出优越的性能(见表1)。尽管带有 Adapter 模块的CLIPSeg的可训练参数数量只有端到端设置中的1/47,但它的表现优于后者,这表明在CLIPSeg的中间层引入具有少量可训练参数的可学习 Adapter 模块,而不是为小数据集微调整个模型,是有益的。
在表1中,尽管提出的CLIPSeg DA模型可学习参数数量只有SAN[29]模型的2.6分之一,但其表现却更佳。在端到端微调的情况下,CRIS[28]模型在几乎所有数据集上的表现都优于CLIPSeg[18]。CLIPSeg DA模型的表现与CRIS模型相当,甚至在ISIC-16[9]数据集上表现得更好,尽管其参数数量只有CRIS的46分之一。此外,在这种计算约束很高的场景中,这种指标下降可能并不显著,而这正是作者提出的 Adapter 模型发光发热的地方。
DA网络在大多数数据集上的表现优于SA网络,除了ClinicDB[3]和BUSI[2];即使在这两个数据集上,DA网络的指标也与SA网络持平,如表1和图3所示。
由于DA网络中的 Adapter 层更多,作者推测这些层可以比SA更精细地调整预训练模型的内部表示。此外,尽管SA网络的 Adapter 维度更宽,为512,但它并不能胜过只有64维度 Adapter 的DA网络。这表明,尽管投影维度较小,更深的 Adapter 网络仍能捕捉到复杂的表示。
作者提出了一种VLSM-Adapter模块,该模块能够适应下游的分割任务,而无需改变预训练的编解码器架构的参数。在特定领域的学习过程中,更新额外的 Adapter 比同一VLSM的端到端微调表现更好。在较小维度上精细调整预训练模型的内部表示——密集 Adapter ——比在更高维空间粗糙地适应表示——浅层 Adapter ——更为关键。此外,作者应该开放实验,将 Adapter 放置在视觉或文本编码分支中。
作者的方法在多种数据集和指标上表现优于SAN,其中密集 Adapter (DA)表现最佳。
VLSM-Adapter为VLSM在未来的持续学习和多任务学习机器领域开辟了可能性,因为可以为新数据或任务训练专门的 Adapter ,同时冻结核心架构以防止遗忘。
这些 Adapter 允许在转移学习设置中对大型VLSM进行有效的微调,尤其是在医学图像分割领域,这里通常数据量较小。
[1].VLSM-Adapter: Finetuning Vision-Language Segmentation Efficiently with Lightweight Blocks.