
DRUGONE
胎儿超声检查是产前诊断的核心手段,但自由手持超声扫描高度依赖操作者经验,对新手学习曲线陡峭。研究人员提出 Sonomate,一种面向胎儿超声理解的视觉锚定语言模型,旨在在扫描过程中为超声医生提供实时智能辅助。该模型通过对超声视频特征与同步语音转写文本特征进行对齐建模,实现对胎儿超声视频内容的语义理解。研究人员结合粗粒度的视频–文本对齐与细粒度的图像–句子对齐,并引入解剖结构感知机制与上下文标签校正,以应对真实临床数据中语言异质性和时序不同步等挑战。实验结果表明,Sonomate 能在无需额外人工标注训练的情况下完成胎儿解剖结构识别,并在图像级与视频级视觉问答任务中取得稳定性能。该研究为将多模态大模型引入超声检查培训与临床辅助决策奠定了基础。

超声成像具有无辐射、无创、便携和低成本等优势,是孕期筛查中最常用的影像技术。然而,高质量超声检查不仅依赖于图像判读能力,还高度依赖复杂的实时扫描技巧,这一技能通常需要多年训练才能掌握。全球范围内经验丰富的超声医生短缺,使得提升检查效率和培训质量成为迫切需求。
近年来,视觉–语言预训练模型在自然图像领域取得显著成功,但直接迁移到医学影像面临明显挑战。胎儿超声图像与自然图像在视觉特征和语义表达上差异巨大,且超声医生在扫描过程中产生的语言描述往往与图像内容存在时序错位或语义不相关。因此,构建贴合超声场景、理解视频级动态过程、并兼顾专业语言习惯的多模态模型,是实现智能超声辅助的关键。
方法
研究人员基于真实临床环境下采集的胎儿超声视频–语音对构建多模态训练数据集,并将语音自动转写为带时间戳的文本。模型首先采用粗粒度视频–文本对齐,拉近匹配视频与文本特征、拉远不匹配样本;随后引入细粒度图像–句子对齐,在帧级别将视觉内容与对应语句关联。为缓解临床语言中大量与视觉无关或提前描述操作的问题,研究人员提出解剖结构感知对齐和上下文标签校正策略,逐步修正跨模态对齐噪声,从而训练出稳健的视觉锚定语言表示。
结果
数据集与建模挑战
研究人员构建了包含完整胎儿超声扫描流程的视频–语音数据集,覆盖不同孕期、不同操作者和多种解剖检查场景。分析显示,仅部分语句与当前画面直接相关,且语言与视觉内容常存在明显时间错位。

图 1|数据集概览。

图 2|研究整体框架。
跨模态对齐能力评估
与通用医学视觉–语言模型相比,Sonomate 在视觉特征与文本特征的联合嵌入空间中表现出更清晰的聚类结构,说明其能更准确地将解剖语义与超声图像对应。

图 3|跨模态对齐的可视化分析。
解剖结构识别性能
在多个内部与外部数据集上,Sonomate 能在无需针对具体任务重新训练的情况下识别胎儿关键解剖结构,整体性能显著优于现有视觉–语言基线模型。

图 4|解剖结构识别流程与数据集。
与人工和监督模型的比较
在标注样本极少甚至无标注的场景下,Sonomate 的表现优于多种全监督模型,并超过经验有限的人工判读水平,显示出良好的数据效率和泛化能力。

图 5|解剖结构识别性能评估。
图像级与视频级视觉问答
Sonomate 支持基于单帧图像或完整扫描视频的视觉问答任务,可回答与解剖结构、检查顺序和扫描质量相关的问题,且在多种问答类型上均取得稳定表现。

图 6|基于知识的视觉问答任务。
安全机制与鲁棒性评估
为确保临床使用安全性,研究人员引入异常问题检测与问题改写机制,使模型能够识别超出训练分布的问题,并避免给出不可靠回答。

图 7|Sonomate 的安全防护机制。
讨论
Sonomate 展示了一种面向真实临床场景的视觉锚定语言模型设计范式,通过显式建模视频–语言对齐关系,使模型能够理解胎儿超声的动态扫描过程。与以往基于静态图像或文本注释的方法相比,该框架更贴近超声医生的实际工作流程。
研究人员认为,Sonomate 的核心价值在于:一是降低新手超声医生的学习门槛,二是为复杂检查过程提供实时认知支持,三是为未来构建可交互的智能超声系统奠定基础。未来,该方法有望与更多临床知识、实时反馈机制和硬件系统结合,进一步提升产前诊断的可及性与一致性。
整理 | DrugOne团队
参考资料
Guo, X., Alsharid, M., Zhao, H. et al. A visually grounded language model for fetal ultrasound understanding. Nat. Biomed. Eng (2026).
https://doi.org/10.1038/s41551-025-01578-3
内容为【DrugOne】公众号原创|转载请注明来源