一、ACOUSLIC-AI2024介绍
在资源匮乏的环境中诊断胎儿生长受限具有挑战性。胎儿生长受限 (FGR) 影响高达 10% 的妊娠,是导致围产期发病率和死亡率的关键因素。FGR 与死产密切相关,还可能导致早产,给母亲带来风险。这种情况通常是由于各种母体、胎儿和胎盘因素阻碍胎儿遗传生长潜力所致。产前超声检查中胎儿腹围 (AC) 的测量是监测胎儿生长的一个关键方面。当小于预期时,这些测量值可以指示 FGR,这种情况与大约 60% 的胎儿死亡有关。FGR 诊断依赖于对胎儿腹围 (AC)、预期胎儿体重或两者的重复测量。这些测量必须至少进行两次,两次测量之间至少间隔两周,才能得出可靠的诊断。此外,AC 测量值低于第三个百分位数本身就足以诊断 FGR。然而,由于超声检查设备成本高昂且缺乏训练有素的超声检查人员,对 AC 测量至关重要的生物识别产科超声的常规实践在资源匮乏的环境中受到限制。
适合新手操作的人工智能驱动的低成本产前超声检查。建议新手操作员使用低成本超声设备和标准化盲扫协议在资源匮乏的环境中获取产科数据。盲扫采集协议的特点是操作员无需查看超声图像即可执行扫描。这些协议产生 2D 超声帧序列,当超声探头沿着妊娠腹部的特定轨迹时捕获这些帧序列。与传统的临床超声检查不同,经验丰富的超声检查人员寻找标准平面来进行生物测量,盲扫数据带来了一系列独特的挑战。图像数据的质量有限,可能不包含传统上用于测量的精确标准平面。
为了解决这些限制,越来越多的文献集中于使用人工智能(AI)对按照标准化协议获得的徒手超声序列进行产前评估任务自动化,从而绕过了专家超声解释的需要。此类任务包括胎儿生物统计测量、胎龄估计和妊娠风险检测。这些人工智能解决方案有潜力嵌入到移动设备中,提供适合资源有限环境的完整、离线、低成本和便携式解决方案。
ACOUSLIC-AI(与操作员无关的腹围超声测量)挑战赛是一项分类和分割挑战赛。这是提出使用盲扫数据进行胎儿生物测量任务的第一个挑战。目标是开发人工智能模型并对其进行基准测试,用于在这种特定数据类型上自动测量胎儿腹围,旨在扩大资源有限地区的产前护理的可及性。本次挑战赛将开发人工智能模型来估计盲扫 2D 产前腹部超声序列中的AC,这些序列是由五个非洲外围医疗机构和一家欧洲医院的新手操作员获得的。模型必须确定最佳测量框架,并在该框架内准确分割胎儿腹部。必须提供识别出的框架和相应的分割掩模,这将用于精确测量胎儿腹围。这些模型将根据盲扫数据得出的专家估计进行评估。这一挑战代表了资源匮乏环境中森林遗传资源检测的第一步。其主要目的是根据新手操作员获得的盲扫数据准确估计AC。这些估计最终可用于检测FGR,尽管FGR检测超出了挑战本身的范围。最终目标是为超声成像创建有效的人工智能应用程序,这将有助于改善为这些地区的孕妇和新生儿提供的护理。
二、ACOUSLIC-AI2024任务
ACOUSLIC-AI 挑战赛旨在评估和基准化 AI 模型,这些模型使用盲扫超声数据自动测量胎儿腹围。其最终目标是在资源有限的地区扩大产前护理的可及性。这一挑战涉及分析从新手操作员获取的盲扫序列中提取的一系列 2D 超声帧。任务是确定最适合测量胎儿腹围的框架。除了选择最佳帧之外,还必须在与所选帧相对应的超声图像上提供腹部的二元分割掩模。该分割掩模应适合椭圆拟合工具,以便在评估期间测量其周长。
AI模型提供两个输出
胎儿腹部分割掩模:uchar类型的 2D numpy 数组,与输入图像的尺寸匹配,像素间距为 0.28 mm。将使用椭圆拟合工具将椭圆拟合到分割掩模,因此要使用适当的后处理来确保其掩模适合于此(例如,删除不属于预期分割的断开连接的组件)。然后将计算该椭圆的周长并与参考测量值进行比较。
胎儿帧编号:表示识别出分割帧编号的整数,如果未识别到相关帧,则为-1。请注意,评估软件中的索引从0开始,表示有效帧编号范围为[0, 840),-1 表示未找到相关帧。
三、ACOUSLIC-AI2024数据集
训练集有300例,验证集10例,测试集290例。
ACOUSLIC-AI 挑战赛中包含的成像数据是由新手用户(1 小时培训)使用连接到智能手机的低成本便携式探头(MicrUs Pro-C60S,Telemed,立陶宛)获取的。用户在采集过程中对超声图像不知情,并根据提供的说明进行徒手扫描。这些说明显示在智能手机屏幕上,并引导他们完成 Stigter 等人于 2011 年提出的产科扫描协议(OSP,图 1)。OSP 是一种盲扫采集协议,包括对妊娠腹部的六次扫描:三次 尾颅方向的横向扫描 (1-3),以及从左到右的三个矢状扫描 (4-6)。
训练、验证和测试用例由一对 2D B 型超声扫描数据和腹围注释组成。扫描和注释都对应于一系列 840 个形状为 744x562 像素且固定间距为 0.28 毫米/像素的帧。这些注释对应于各个帧上腹部的像素掩模,并且属于两个类别中的任意一个:腹围测量的最佳平面和次优平面。每帧,注释像素采用三个值之一:像素值0表示没有注释(背景),像素值1表示在最佳平面上绘制的掩模,像素值2表示在次优平面上绘制的掩模。病例还附有每次扫描的相应腹围参考值(以毫米为单位),其中有注释。
通过在适当的框架上手动绘制椭圆来提供注释。绘制的每个椭圆都被确定为最佳(测量腹围的理想框架)或次优(可用于测量腹围的框架,尽管它对于任务而言并不十分完美)。
所有三组中的椭圆注释都是通过人类读者对每个初始和最终帧进行的手动注释获得的,其中观察到了相应的结构(腹部的横向平面)和类型(最佳/次优)。中间帧上的注释是使用线性插值自动生成的。在结构尺寸或位置发生较大变化的情况下,提供额外的手动注释以确保插值过程的准确性。所有椭圆注释都已填充,以便为参与者提供像素掩模注释而不是椭圆轮廓。每帧,注释像素采用三个值之一:像素值0表示没有注释(背景),像素值1表示在最佳平面上绘制的掩模,像素值2表示在次优平面上绘制的掩模。超出超声波束视场的像素注释被设置为零。
训练集中的所有 300 个病例,由两名接受过 20 小时采集和分析盲扫超声数据培训的读者进行注释。他们的经验长达两年多,其中一名读者总共花费了 120 小时,其他人则花费了 300 小时来分析此类数据。每个读者独立注释案例,每个案例大约分布 50%。
对于隐藏验证和调优集中的案例(10 个案例)和隐藏测试集中的案例(290 个案例),注释过程由两名具有更高专业知识的读者执行。一位在产前超声方面拥有丰富经验的接受过培训的放射科医生对所有病例进行了注释。随后,这些注释由一位拥有 37 年经验的超声技师进行审查和纠正。
评价指标:骰子相似系数(DSC),加权帧选择分数 (WFSS),豪斯多夫距离 (HD)和归一化绝对误差 (NAE)。
骰子相似系数(DSC):该指标量化了算法分割相对于真实掩模的空间重叠精度。DSC 越高,表明与真实情况越接近,从而具有更好的分割性能。值得注意的是,真实实况掩码(如果可用)对应于胎儿腹部堆栈的指定帧中的注释(即,该度量是在与胎儿帧编号相对应的 2D 真实实况和预测掩码上计算的)。为了进行比较,将真实掩模转换为二进制格式(1 代表胎儿腹部,0代表背景)。
加权帧选择分数 (WFSS):WFSS评估算法的帧选择准确性,为准确识别和选择的临床相关帧分配更高的分数。1分表示正确识别最佳平面,0.6 表示最佳平面可用时选择次优平面,0表示存在最佳/次优帧时选择不相关帧。
豪斯多夫距离 (HD):该指标测量算法的预测边界与实际真实边界之间的最大距离,提供分割边界预测中最大潜在误差的感觉。与DICE系数的计算类似,所选帧中的2D真值掩模被转换为二进制格式,以便针对 2D 预测掩模进行评估。此外,在此过程中仅考虑超声波束视场内的像素。
归一化绝对误差 (NAE):腹围测量的归一化绝对误差提供了腹围估计精度的与尺度无关的测量。它是通过取真实值和预测周长之间的绝对差来计算的,并通过任一值的最大值进行归一化以考虑比例,NAE 较低表明从分割Mask预测 AC 测量值的准确性较高,这对于临床适用性至关重要。
数据下载:
https://acouslic-ai.grand-challenge.org/overview-and-goals/
四、技术路线
在前面的文章中已经介绍过详细的实现方法,可以参考这篇文档ACOUSLIC-AI2024——腹围超声自动测量。在验证集上排行结果如下所示。