放射科报告生成的关键性在医学影像学中得到了广泛认可,然而,医生的手动标注过程既耗时又费力,因此需要开发自动报告生成方法。现有研究主要利用Transformer来生成放射科报告,但这些方法在计算上可能非常耗时,限制了它们在实际应用中的使用。 在这项工作中,作者提出了一种名为 R2Gen-Mamba 的新颖自动放射科报告生成方法,该方法利用了Mamba的高效序列处理能力和Transformer架构的上下文优势。由于Mamba的计算复杂性较低,R2Gen-Mamba不仅提高了训练和推理效率,而且生成了高质量的报告。在两个具有超过21万张X光图像报告配对的基准数据集上的实验结果表明,与几种最先进的方法相比,R2Gen-Mamba在报告质量和计算效率方面的有效性。 本文主要研究了深度学习在医学影像领域的应用。作者们提出了一种基于深度学习的医学影像分割方法,该方法在保留原始图像特征的同时,能够实现对医学影像的快速、准确分割。该方法基于卷积神经网络(CNN)架构,通过对原始图像进行卷积操作,提取图像特征,并利用全连接层实现像素 Level 的分类。 作者们通过实验验证了该方法的有效性,并与传统的影像分割方法进行了比较。实验结果表明,该深度学习方法在医学影像分割领域具有较高的准确性和鲁棒性。
放射科报告生成在医学影像学中至关重要,为诊断和治疗患者状况提供了关键信息。传统上,这些报告是由医生手动标注的,这既费时又费力。这一挑战进一步加剧,因为医学影像数据的数量不断增加,使得放射科医生难以满足及时准确报告的需求。人们越来越关注开发能够减轻医疗专业行人负担并保持临床设置所需高标准的自动报告生成方法。
许多方法已经引入用于自动放射科报告生成[1, 2, 3]。大多数现有研究依赖于Transformer模型[4],这些模型在各种自然语言处理任务(如图像描述和文本生成)中表现出令人印象深刻的性能。Transformer利用自注意力机制来模拟长程依赖关系,使其特别适合从复杂医学图像生成连贯且具有上下文相关性的报告。然而,Transformer模型通常因高计算复杂性而受到批评,限制了其在实际应用中的使用。最近,Mamba模型[5],旨在在不牺牲性能的情况下降低计算复杂性,已日益受到关注。Mamba的高效序列处理能力使其成为Transformer的有吸引力的一种替代方案,但其在放射科报告生成方面的潜力尚未得到充分探索。
在本研究中,作者提出了一种新颖的放射科报告生成方法,称为R2Gen-Mamba,该方法充分利用了Mamba和Transformer架构的优势。
具体而言,R2Gen-Mamba 采用具有低计算复杂度的 Mamba 作为编码器,同时采用保留强大上下文处理能力的 Transformer 作为解码器。通过结合这些互补模型,R2Gen-Mamba 为降低放射科报告生成的计算负担提供了新的途径,同时确保高质量、上下文相关的报告。
在两个基准数据集 IU X-Ray [6]和MIMIC-CXR [7]上的实验结果表明,与传统基于Transformer的模型相比,R2Gen-Mamba在报告质量和计算效率方面具有优势。与最先进的(SOTA)研究相比,R2Gen-Mamba为自动放射科报告生成提供了更高效的资源解决方案。
作者在两个基准数据集上进行了实验:IU X-Ray [6] 和 MIMIC-CXR [7]。IU X-Ray 数据集包括 7,470 张胸 X 光片与 3,955 份报告的配对,而 MIMIC-CXR 包括 473,057 张图像和 206,563 份报告。遵循先前的研究 [1, 2, 3],作者排除了没有报告的样本。
作者在 IU X-Ray 上使用 70%/10%/20% 的划分进行训练、验证和测试,并在 MIMIC-CXR 上使用官方的划分,详细信息请参见表1。作者使用了两种评估指标:传统的自然语言生成(NLG)指标(BLEU [8], METEOR [9], 和 ROUGE-L [10])和临床疗效(CE)指标。对于 CE 指标,作者使用 CheXbert [11] 工具自动为生成的报告进行标签,并与地面 truth 在 14 种胸部疾病类别上进行比较,使用精确度、召回率和 F1 分数。
参考[1, 2, 3]之后,作者为每个病人使用两张IU X-Ray图像和一张MIMIC-CXR图像作为输入。视觉提取器利用预训练的ImageNet上的ResNet101模型,将特征映射到512维。Mamba编码器设置为512维,扩展因子为16,局部卷积宽度为4,块扩展因子为2。Transformer解码器也设置为512维,有3层,8个头,以及0.1的dropout率。作者使用Adam优化器,并将视觉提取器的其他参数的学习率设置为,其他参数的学习率设置为,每轮衰减0.8。在验证集上取得最佳BLEU-4分数的模型被选中,推理时的beam大小为3,以在生成质量和计算效率之间实现平衡。
为了评估作者R2Gen-Mamba的有效性,作者对现有最先进的方法进行了比较分析,这些方法包括R2Gen [1],R2Gen-CMN [2]和R2Gen-RL [3]。使用相同的数据,R2Gen和R2Gen-CMN分别使用其发布的代码和推理预训练权重实现,而R2Gen-RL则从零开始使用其发布的代码进行再训练。
不同方法生成的典型报告如图2所示。从这幅图中可以看出,R2Gen-Mamba生成的报告包含更精确的信息,在准确性和清晰度上优于竞争方法。关于NLG和CE指标的定量结果如表2所示,从中作者可以得出几个关键发现。
首先,作者的R2Gen-Mamba结合了Mamba和Transformer,在大多数情况下超过了现有方法,表明Mamba在报告生成方面的优势以及将Mamba与Transformer相结合的可行性。其次,在BLEU-1和BLEU-2指标上,R2Gen-Mamba在MIMIC-CXR上的表现略低于R2Gen,但在BLEU-3、BLEU-4、METEOR和ROUGE-L上超过了R2Gen。BLEU-1和BLEU-2衡量了单个词和词对的重叠,反映了基本词汇匹配。BLEU-3和BLEU-4衡量了三元组和四元组,捕捉了更长的上下文依赖性。
更高的BLEU-3和BLEU-4分数表明R2Gen-Mamba生成的文本具有更好的语法和语义结构,反映了更强的上下文建模和语法一致性。
METEOR结合了词汇匹配、词序和形态变化,而ROUGE-L评估了生成文本和参考文本之间的最长公共子序列。作者的R2Gen-Mamba在这些指标上的更好表现表明了更强的词汇选择、语法结构和与参考文本的匹配。最后,R2Gen-Mamba在临床疗效(CE)指标上的优越性能表明,生成的报告为诊断和决策提供了更有价值的临床信息。这突出了与竞争方法相比,作者的R2Gen-Mamba在临床相关性和实用性方面的优势。
在提出的R2Gen-Mamba框架中,作者使用Mamba编码器可以显著降低模型复杂性,仅需594.944K参数,并占用58.216M浮点运算(FLOPs)。这比SOTA R2Gen模型中使用的Transformer编码器,其包含4.728M参数,计算复杂度为462.422M FLOPs,有了显著的改进。参数数量和计算成本的显著减少凸显了Mamba编码器的效率,使其在资源受限的环境中更适合,同时保持放射科报告生成的优越性能。
本文提出了R2Gen-Mamba,一种利用Mamba的高效序列处理和Transformer的上下文优势进行医学影像报告生成的全新模型。
R2Gen-Mamba在降低计算复杂性的同时,产生高质量的医学影像报告。
在两个数据集上的实验表明,R2Gen-Mamba在自然语言生成和临床效果指标方面都超过了现有方法。
作者的研究结果强调了将Mamba与Transformer技术相结合在医学影像报告生成中的有效性。
[0]. R2Gen-Mamba: A Selective State Space Model for Radiology Report Generation.