哈工程大学提出参数高效精调多模式大语言模型，用于医学视觉落地！

未来先知

发布于 2024-11-27 15:19:04

1000

多模态大型语言模型（MLLMs）继承了语言模型的优越文本理解能力，并将这些能力扩展到多模态场景。这些模型在多模态任务的一般领域中取得了出色结果。然而，在医学领域，大量的训练成本和广泛的需求医学数据给医学MLLM的开发带来了挑战。此外，由于答案为自由文本形式，需要生成预定义格式的任务，如视觉定位，对MLLM来说变得困难。迄今为止，医学视觉定位领域还没有医学MLLM的工作。对于涉及根据短文本描述识别医学图像中的位置的医学视觉定位任务，作者提出了一种称为 Parameter-efficient Fine-tuning 医学多模态大型语言模型用于 Medical Visual Grounding（PFMVG）的方法。为了验证模型的性能，作者在医学视觉定位的公共基准数据集上评估它，它在该数据集上取得了竞争性结果，并显著优于GPT-4v。作者的代码将在同行评审后开源。

1 Introduction

医学视觉定位通过分析医学影像，将感兴趣区域（ROIs）与相应的文本描述关联起来。这是一个需要全面理解和精确对齐视觉和文本的任务。将此技术整合到临床工作流程中，可以增强图像内医疗发现的解释，帮助医生迅速识别关键信息，准确定位疾病，并促进精确的临床决策。

尽管医学视觉基础研究具有重要意义，但目前尚处于未被充分探索的阶段。现有方法主要采用视觉语言预训练（VLP）模型[1, 2]，通过对比学习全局对齐图像和文本特征，进而针对医学视觉基础任务进行微调[3, 4]。然而，这些方法往往缺乏语义粒度，忽视了关键的局部图像特征。为了提高语义理解，一些研究将文本词与局部图像区域进行对齐[5, 6]。然而，词级对齐受到上下文变化的影响，限制了对病理描述的准确捕捉。为了克服这一局限，杨等人[7]提出了一种结合全局和局部对比学习的框架，它利用全局特征的同时，精确地对齐句子级特征与局部图像区域。

近年来在多模态语言模型（MLLMs）方面取得了显著的进展，极大地提升了基础模型的能力。这些模型推动了基于图像的交互式通信，在视觉任务和复杂内容理解和生成方面表现出色。受到MLLMs的启发，作者认为在MLLMs的框架内，医学视觉定位问题的最优解决方案。MLLMs深入地将跨模态（图像和文本）信息融合，提高了医学知识的表示和推理。它们可以识别微妙的图像细节，如病变特征，并理解复杂的文本描述，如病理报告。相比之下，尽管视觉预训练语言模型（VLP）可以处理视觉和语言数据，但它们的跨模态理解和推理相较于MLLMs，特别是在专业医学图像和术语方面，显然较弱。

从零开始训练一个医学MLLM非常耗资源，因为需要全面覆盖医学知识，大型专业数据集，以及巨大的计算资源。为了克服这些挑战，作者提出了一种名为PFMVG的框架，它利用了一个基础的MLLM以及参数高效的微调（PEFT）技术进行医学视觉定位。具体来说，作者将预训练的MiniGPT-v2权重进行微调，使其适应医学特定的内容，以对齐医学文本和视觉知识，然后进行任务特定的微调以进行医学视觉定位。

作者的资源高效的策略包括冻结某些模型层，如视觉编码器，并更新关键层，如低秩自适应（LoRA）层[13]用于MLLM和线性投影层[13]用于将图像特征与语言模型输入对齐。作者还设计了特定的 Prompt 模板用于微调。在MS-CXR数据集[6]上的广泛实验表明，PFMVG在八个疾病类别中实现了最先进的结果，超过了现有的基准，在加权平均IoU和Dice得分方面。此外，消融研究证实了作者的两阶段微调过程的有效性。

2 Methodology

Model Architecture

PFMVG 方法具有一个用于图像编码的 ViT 和一个用于图像文本嵌入处理和生成响应的 LLM（语言模型）。ViT 连接到一个可训练的线性投影层。具体来说，作者使用来自 EVA [14] 的预训练 ViT-G 模型，在微调阶段期间保持冻结。为了减少计算资源，作者缩短了视觉嵌入的长度。将每四个连续 Token 合并为一个嵌入，将视觉输入 Token 数量减为四分之一。这些连接的嵌入随后被输入到一个可训练的线性投影层，将其映射到 LLM。在这个阶段，投影的视觉嵌入充当作者多模态文本输入模板中的组件。与问题相结合，它们被输入到 LLM 中以生成响应。作者使用开源预训练的 LLaMA2-Chat（7B）作为作者的 LLM，通过更新仅 LoRA 参数实现高效的微调，同时保持其余模型冻结。

Two Stages Fine-tuning and Multimodel Instruction Template

为了提高MLLM在医学视觉基础指令上的遵循度，作者实现了一个两阶段的微调过程，使用预训练的MiniGPT-v2权重。第一阶段专注于图像描述，以帮助MLLM获取多模态医学知识。阶段2则提高模型在医学视觉基础上的技能。

第一阶段微调：医学影像文本知识学习。 在第一阶段微调中，作者冻结所有模型参数，除了线性投影层和LoRA参数。作者使用三个医学影像文本数据集，ROCO [15]，CLEF2022 [16]，和MIMIC-CXR [17]，来增强模型对医学多模态背景的理解。

阶段2微调：医学视觉定位。 在阶段2中，与阶段1类似，作者保持ViT模型不变，同时更新线性投影层和LoRA参数。为了提高模型在医学视觉定位方面的熟练程度，作者在MS-CXR数据集[6]上训练它。

这些坐标都被归一化到[0, 100]的范围内。在验证阶段，模型生成的坐标被反向转换回原始图像分辨率，以确保精确的医学视觉定位。

3 Experiments

Datasets and Implementation Details

本文实验中使用了四个公开数据集：ROCO [15]，MIMIC-CXR [17]，CLEF2022图像描述数据集 [16]，以及MIMIC-CXR数据集 [17]。ROCO包含超过80,000张图像及对应的描述。MIMIC-CXR包括473,057张胸片图像及206,563份相关报告。CLEF2022包含超过90,000张图像-描述对。MS-CXR专门针对医学视觉定位设计。MS-CXR包括1,153个样本，带有边界框，涵盖八种疾病，附有简短放射学报告。为确保公平评估，作者将数据集随机分为训练、验证和测试集，患者比例为7：1：2，并在所有八种疾病上评估模型的平均性能。

作者在四块NVIDIA Tesla A40 GPU上实现了作者的方法。在微调阶段，作者使用了随机裁剪的图像。首先使用MiniGPT-v2预训练权重初始化模型进行第一阶段微调。在第一阶段微调中，模型经过预训练3个周期，批量大小为2。这个阶段使用了AdamW优化器，权重衰减系数为0.05，初始学习率为，随着余弦退火计划逐渐减小到。在第二阶段微调中，模型在MS-CXR数据集上训练了50个周期，批量大小为4。AdamW优化器被使用，学习率从初始的减小到最终的。（iii）仅在医学视觉定位数据集上进行微调；（iv）有两种阶段的微调。

表3揭示了，在不进行微调的情况下，wIoU为0.101，经过仅第二阶段的微调后，wIoU显著提高至0.374，增加了0.273。在仅第一阶段进行微调后，模型的性能明显下降，wIoU仅为0.016。对于五个疾病类别，模型未能生成有效输出。对于剩下的类别：肺炎、心律失常和胸腔积液，模型能生成有效输出，其中肺炎的IoU为0.049。对于心律失常和胸腔积液，尽管能生成有效输出，但IoU分数均为0。在完成两阶段微调后，模型达到最佳性能，wIoU为0.407，相较于仅第二阶段微调，提高了8.82%。