一、FairSeg10k2024介绍
随着人工智能在医学图像诊断中的使用不断增长,确保这些深度学习模型的公平性并深入研究复杂的现实场景中可能出现的隐藏偏差至关重要。遗憾的是,机器学习模型可能会无意中纳入与医学图像相关的敏感属性(如种族和性别),这可能会影响模型区分异常的能力。这一挑战促使人们付出巨大努力来调查偏见、维护公平性并在机器学习和计算机视觉领域推出新的数据集。
为了应对这挑战,提出了第一个用于医学分割的大规模公平数据集,名为Harvard-FairSeg,该数据集旨在从SLO眼底图像中进行公平性视盘和视杯分割,以诊断青光眼。青光眼是导致不可逆转的全球性失明的一个主要原因,在40-80岁年龄段的患病率为 3.54%,影响了大约8000万人。尽管具有重要意义,但早期青光眼通常没有症状,因此需要及时进行专业检查。视盘和视杯的准确分割对于医疗保健专业人员的早期青光眼诊断至关重要。值得注意的是,与其他群体相比,黑人患青光眼的风险加倍,但该人群的分割准确性通常最低。这促使在现实世界中实际使用任何分割模型之前,整理一个数据集来研究分割公平性问题。特别是,提出的Harvard-FairSeg数据集的亮点如下:(1)第一个用于医学分割的公平学习数据集。该数据集提供了带有SLO眼底成像数据的视盘和视杯分割;(2)数据集配备了从真实临床场景收集的六个敏感属性,用于研究公平学习问题;(3) 提出的新数据集上评估了多种 SOTA 公平学习算法,并使用各种分割性能指标,包括 Dice 系数和交并集 (IoU)。
除了有价值的数据集之外,还开发了一种公平的误差界限缩放(FEBS)方法作为附加贡献,以证明医疗分割中的公平性挑战确实可以得到解决。FEBS方法的核心思想是用每个身份组的训练误差上限重新调整损失函数。其基本原理是每个身份组中的困难情况可能是潜在性能差异的驱动因素,而困难情况可能是潜在性能差异的驱动因素。每个身份组中的病例可能是由于身份组之间的病理生理学和解剖学差异造成的。例如,与白人相比,亚洲人患有更多的闭角型青光眼,与其他种族相比,黑人的杯盘比更大。通过在每个身份组中使用错误上限来明确解决困难情况可能有助于减少模型性能不平等。随后,将提出的FEBS(公平误差界限缩放)方法与最近的分割基础模型(Segment Anything Model (SAM))相结合,以探索FEBS是否增强了各种敏感属性的分割公平性。
为了便于比较不同公平学习模型,提出了公平衡量的绩效指标。更具体地,例如,ES-Dice被计算为总体Dice系数除以总体Dice系数与组Dice系数之间的相对差异之和。与现有的公平性指标(例如人口统计奇偶差异 (DPD) 和均衡赔率差异 (DEOdds))相比,这种按权益衡量的细分性能指标提供了更直接的评估,并且更容易被临床医生解释。
二、FairSeg10k2024任务
SLO眼底图像视杯和视盘分割。
三、FairSeg10k2024数据集
数据收集和质量控制。2010年至2021年间测试的受试者来自一家大型学术眼科医院。共发布三类数据:(1)SLO眼底成像扫描;(2) 患者人口统计资料;(3) OCT 机器自动标注并由专业医生手动评分的视杯视盘蒙板。具体来说,首先从 OCT 机器获取视杯视盘区域的像素注释,其中3D OCT 中的视盘边界被OCT制造商软件分割为Bruch膜开口,而视杯边界被检测为内部之间的交点。限制膜(ILM)和从平面 Mitsch 等人的交点和椎间盘边界产生最小表面积的平面。大约来说,视杯缘可以被认为是ILM上距离椎间盘边界最近的位置,视杯边界被定义为布鲁赫膜开口。由于布鲁赫的膜开口和内界膜与背景之间的高对比度,因此可以轻松分割它们。由于 OCT制造商软件利用3D信息,因此视杯视盘分割通常是可靠的。相比之下,由于成像信号衰减和血管阻塞等多种因素,眼底照片上的2D视盘和视杯分割可能具有挑战性。然而,OCT 机器相当昂贵,并且在初级保健中不太普遍,因此,建议将这些注释从3D OCT迁移到2D SLO 眼底,以便对初级保健领域的早期青光眼筛查产生更广泛的影响。具体来说,先利用NiftyReg配准工具将SLO眼底图像与OCT衍生眼底 (OCT 眼底) 图像对齐。随后,将NiftyReg的仿射度量应用于OCT眼底图像的视杯视盘掩模,将它们与SLO眼底图像对齐。该过程有效地产生了大量高质量的SLO眼底掩模注释,避开了劳动密集型的手动像素注释过程。值得注意的是,这种配准操作在现实场景中表现出相当高的精度,从经验观察中可以明显看出,配准的成功率约为80%。在这个自动化过程之后,生成的掩模经过严格的检查,并由专业人士手工评分。由五名医疗专业人员组成的小组确定盘杯区域的精确注释,并排除盘或杯位置不正确以及注册失败的掩模。
Harvard-FairSeg 数据集包含来自10,000名受试者的10,000个样本。将数据分为包含 8,000个样本的训练集和包含2,000个样本的测试集。该数据集的集体平均年龄为60.3 ± 16.5 岁。该数据集中包含年龄、性别、种族、民族、语言和婚姻状况等六个敏感属性,用于深入的公平学习研究。特别是,在种族人口统计方面,该数据集包括来自三个主要群体的样本:亚洲人,有919个样本;黑人,有 1,473 个样本;和白人,有7,608个样本。从性别来看,女性占受试者的58.5%,其余为男性。种族分布:90.6% 为非西班牙裔,3.7% 为西班牙裔,5.7% 为不明。在语言方面:92.4%的受试者为英语,1.5%的受试者为西班牙语,1%的受试者为其他语言,5.1%的受试者仍不清楚。从婚姻状况来看,57.7%的人已婚或有伴侣,27.1%的人单身,6.8%的人离婚,0.8%的人合法分居,5.2%的人丧偶,2.4%的人未指定。
数据下载:
https://drive.google.com/drive/u/0/folders/1tyhEhYHR88gFkVzLkJI4gE1BoOHoHdWZ
四、技术路线
1、图像预处理,缩放到固定大小512x512,然后采用均值为0,方差为1的方式进行归一化处理。然后将数据分成训练集和验证集。
2、搭建VNet2d网络,使用AdamW优化器,学习率是0.001,batchsize是64,epoch是300,损失函数采用多类的dice和交叉熵。
3、训练结果和验证结果
4、测试集分割结果