最近的评论将深度学习(DL)与用于大脑成像数据分析的标准机器学习(SML)方法进行了不利的比较。然而,他们的结论往往基于预先设计的特征,剥夺了DL的主要优势——表征学习。我们在多个分类和回归任务上对结构MRI图像进行了一项大规模系统性比较,并显示了表征学习对DL的重要性。结果表明,如果按照流行的DL实践进行训练,DL方法具有特别好的扩展潜力,与SML方法相比有很大的改进,同时也在相对计算时间内呈现出较低的渐近复杂度,尽管它更复杂。我们还证明,DL嵌入跨越了可理解的任务特异性投射谱,并且DL始终定位任务-识别的脑生物标记物。我们的发现强调了神经成像数据中非线性的存在,DL可以利用这些数据生成更好的任务区分生物表示来表征人类大脑。
1.简介
机器学习在神经系统和精神疾病的研究中的应用在过去的二十年中有了很大的发展。标准机器学习(SML)方法通过使用推理规则操纵特定的线性或非线性预测函数来预测健康相关结果。SML方法不学习表示,而是确定本身、核转换的或特性工程输入空间中的决策边界。事实上,这是SML方法在建模大脑数据时最显著的局限性之一。提高SML方法性能的一个必不可少的先决条件是降低输入空间的维数,通常通过手工或专家设计的特征选择(即,识别捕获数据中大部分信息的变量子集)和/或特征提取(即,通过一些线性或非线性数据转换将特征投影到较低维空间)技术实现。这一初步步骤带来的持续挑战为引入深度学习(DL)方法铺平了道路。相反,DL方法可以利用从最少预处理的输入图像中获得的丰富信息来描述输入数据中固有的微妙模式,将其作为训练过程的一个组成部分。DL方法的训练阶段通常涉及到在端到端(输入到输出)学习过程中,在多层层次上自动和自适应地发现判别数据表示。这种截然不同的方法在端到端方式上的应用还可以通过有条理的解释提供到输入图像空间的逆向映射,因此可能允许我们对大脑机制进行推断,例如,描述输入空间中对预测尝试任务最有影响的特征。相反,相关的空间关系可能在降维阶段丢失,可以说,这是SML方法工作所必需的。与人工设计的方法和计算机视觉领域的几种自动降维技术相比,DL方法在学习更具辨别性的数据编码(即表示)方面取得了成功。
在这项工作中,我们在结构化脑成像数据的原则性比较分析中纠正了之前基准的上述缺陷,并展示了DL的表示学习部分对其性能的重要性。为此,我们利用结构磁共振成像(sMRI)图像的大数据集,系统地分析了基于10种年龄和性别的分类任务中几种SML和DL方法的分类性能和经验时间复杂性。我们对一系列训练样本量进行了这种比较,以比较和对比两种方法在性能改进和相对时间复杂度方面的渐近行为。此外,我们通过评估基于这些特征训练的SML方法的性能,来探讨DL嵌入任务鉴别能力的一致性。我们还验证了在其他任务上观察到的性能趋势,包括性别分类任务、年龄回归任务和迷你精神状态检查(MMSE)回归任务。此外,为了确认我们结果的可重复性,我们对我们的DL模型和训练管道与最近研究中提出的进行了广泛的比较。最后,我们通过事后分析来评估验证的任务特异性DL模型的一致性和鲁棒性,并通过模型内省来探讨任务特异性大脑区域的合理性。
评估我们的关键目标和这项工作中承担的任务的选择是由学习MRI与年龄和性别相关的高科学效用以及评估患者群体中独立认知任务的表现的需要所驱动的。特别是,年龄预测是一个流行的代理基准,用于确定其他科学上令人兴奋的问题,如认知功能、精神障碍等。同样,性别也可能显著影响认知功能,包括记忆、情感、感知等,并在这方面得到了广泛研究。此外,基于这些鉴别变量的模型的方法比较更有意义,当使用具有高鉴别性能的模型时,而不是使用训练为随机性能的模型时,会带来更多的价值。最后,尽管我们的研究结果显示了为尝试的样本任务和脑成像模态拟合判别分类器或回归量的最佳表现方法,但类似的分析可以扩展到其他推理任务和模态。接下来,我们将介绍我们探索性工作的发现。
2.结果
2.1 DL有更具辨别性的特征
我们系统地评估了SML和DL模型的性能(通过准确性和运行时间衡量)如何作为训练样本量的函数,在一个10类年龄和性别分类任务(即,每个性别的5个年龄组)中,在一个标准重复(n = 20),分层交叉验证(CV)程序中进行评估,如图1所示。我们使用了从12,314名未受影响(即没有诊断或自我报告精神疾病的受试者)的sMRI数据中提取的灰质体积图进行评估。为了建立SML方法的性能基线,我们纳入三种线性SML模型——线性判别分析(LDA),逻辑回归(LR)和线性核支持向量机(SVML)和三种非线性SML模型——支持向量机(SVMP),径向基函数(SVMR)和s型曲线(SVMS)核。此外,我们测试了两个非线性DL模型,它们都是AlexNet架构的3D CNN变体,主要不同于网络深度(depthDL2 vs depthDL1)和卷积层中的通道数。考虑到特征提取是提高线性和基于核的SML方法性能的必不可少的措施,我们使用三个维度的约简方法来减少灰质图:高斯随机投影(GRP)、递归特征消除(RFE)和单变量特征选择(UFS),如方法部分所述。我们直接在三维灰质图的未约简输入空间上训练DL体系结构,以充分利用其表征能力。
图1 系统比较SML和DL方法的分类和回归性能。
我们发现,在每个减少的特征空间上,两个DL模型的表现明显优于SML模型(图2a)。对于最高样本量(n = 10,000), DL模型报告的10类分类准确率分别为58.19% (DL1)和58.22% (DL2)(注意,该任务的机会概率为10%)。相比之下,SVMS和LDA模型对GRP (SVMS: 51.15%)、RFE (LDA: 45.77%)和UFS (LDA: 44.07%)特征的准确率最高。事实上,GRP方法对所有SML模型产生了最具鉴别性的特征,其次是RFE方法。尽管随着训练样本量的增加,两个DL模型一致报告了显著的改善,但这一观察结果对SML模型并不一定是正确的。例如,LDA在GRP特征上的性能最初下降,可能是由于训练样本量小于验证和测试数据量。此外,与稀疏模型的预期一样,当训练样本量从n = 5000增加到n = 10,000时,对于RFE特征,SVMP和UFS特征的SVML和SVMS的性能没有观察到明显的改善。有趣的是,在相同的训练样本量下,我们的SML基线也大大高于Schulz等人的SML基线。这一观察结果可能是由于(1)SML求解器用于收敛的最大迭代次数的参数的差异(我们允许10000次迭代进行收敛,相比之下,比较工作中的100或1000次,从而增加了我们运行中的收敛概率),(2)预处理的差异(例如,平滑核大小、灰质掩模和输入数据,即原始和调制灰质概率图像),(3)验证/测试数据大小(例如,我们的研究为1157,而比较工作为650,从而使我们的SML模型具有更好的泛化优势),但这些差异仍有待确认。尽管SML基线有了改进,但我们的结果显示DL在这项任务上明显优于SML。
有趣的是,DL模型的性能改进表现出类似于SML方法的渐近行为,尽管性能显著提高。也就是说,对于DL方法来说,性能的提高正在放缓,尽管模型确实在继续改进。减速是否有影响以及收益递减点在哪里发生取决于应用程序。我们的观察需要进一步的确认,因为有许多方法可以通过测试更深入的模型、调整现有的DL模型和探索其他DL方法来获得进一步的性能提升。此外,如果DL模型确实一致地提取了更好的(即更有鉴别力)特征,那么,与三种测试的降维方法相比,由它们生成的低维编码作为SML模型的输入特征应该会显著提高性能。为了确定这一点,我们进行了事后分析,评估了SML模型对来自DL1模型的训练编码的性能(即DL1中第一个全连接层的输出)。正如预期的那样,我们观察到应用于测试数据的SML方法的性能有了显著的提高,这证明了如果使用DL编码的特征空间,SML方法也可以同样出色地执行(图2a)。
我们对一些分类和回归任务进行了额外的比较分析,以进一步验证SML和DL方法在从脑成像数据学习方面的比较性能。对于性别分类任务(图2b),在最大的训练样本量(n = 10,000)下,DL1分类模型的平均分类准确率为98.34%,显著提高优于性能最佳的SML分类方法(即GRP特征的LDA方法,报告的准确性为97.45%)。对于这两个回归任务,我们开发并测试了一个基于DL1分类模型的深度香草回归框架(DL3)来预测年龄和MMSE得分。在这些回归任务中,我们比较了我们的DL回归模型与SML回归方法的性能,包括弹性网(EN),核岭回归(KRR)和随机森林(RF)集成学习。为了量化这两个回归任务中的性能,我们依赖两个性能指标:(1)感兴趣的真实值和预测值之间的平均绝对误差(MAE)和(2)这些值之间的皮尔逊相关系数(PCC)。我们对年龄回归任务的结果(图2b)报告了一个显著较低的MAE,DL模型的预测年龄与真实年龄之间的PCC显著较高与性能最佳的SML回归方法相比。同样,我们在MMSE回归任务上的结果(图2c)报告了一个显著较低的MAE,DL模型的预测MMSE值与真实MMSE值之间的PCC显著升高与性能最佳的SML回归方法相比。值得注意的是,我们在回归任务上的结果表明,除了做出卓越的分类预测(即分类任务)外,DL模型中的表征学习可能有助于学习神经影像学临床数据中更精确的连续尺度(即回归任务)。
图2 DL在多个分类和回归任务中具有更强的鉴别能力。
2.2 DL在相对计算时间上表现出较低的经验渐近复杂度
机器学习算法的理论和经验计算时间复杂性不是当前临床应用的关键考虑因素,因为推理通常应用于患者级别。相反,我们比较了SML和DL方法的标准实现的计算时间复杂性,以解决DL方法的标准实现具有很高的计算时间复杂性和运行时间长这一反应不一致的问题。相比之下,标准的、基于cpu的SML在大型训练数据集上的高计算复杂度增长常常被忽视。事实上,这一论证在神经成像界的现阶段是至关重要的,因为研究人员可能会被阻止使用基于这种反动但不准确的反应的DL方法。
因此,我们寻求经验证据,以确定在基于年龄和性别的分类任务中,两类方法的计算时间增长与训练样本量的函数关系。图3a给出了所有测试模型的平均计算时间。这一对比说明了大多数SML模型的计算时间的更高增长率,因为两类模型的记录差异随着除LDA以外的所有SML模型的训练样本量的增加而减小。此外,为了确认这一观察结果是否确实意味着DL模型的经验渐近复杂度较低,我们通过用最小训练样本量的计算时间归一化计算时间来估计一个相对计算增长率度量。该分析的结果(图3b)是一个经验证据,表明与除LDA以外的所有SML模型相比,DL模型的计算复杂度增长率较低。
图3 计算时间复杂度的系统比较。
2.3 DL学习了跨越可理解投影谱的有意义的大脑表征
如果DL方法确实是表示低维空间中的大脑的学习嵌入,那么更深层次(离输入更远)中的编码必须对尝试的任务具有鉴别性。因此,对于本工作中承担的基于年龄和性别的分类任务,我们可以期望推断的DL编码从高维输入数据中捕获有意义的年龄和性别信息。此外,随着训练样本量的增加,我们可以在捕获的模式中预测这些信息并不断提取。为了验证这一说法,我们进行了一项后置分析,通过使用t分布随机邻居嵌入(t-SNE)将学习到的DL1嵌入(即DL1体系结构中第一个完全连接层的输出)投影到二维空间,用于整个训练样本大小范围,并通过类标签对二维投影谱进行颜色编码。t-SNE算法致力于放置二维表示,最大限度地保持它们在原始空间中的距离;因此,如果嵌入包含明显的年龄和性别信息,则预期相同性别和年龄相似的受试者最终会出现在附近。图4a中学习到的DL表示的t-SNE布局显示,随着训练样本量的增加,随着显式双模态结构(即形成两个不同的性别聚类)的逐步演化,学习到的模式得到了有意义的细化,这两种模式都表现出可理解的、逐渐的年龄谱。更具体地说,我们可以看到,随着年龄的增长,从谱的一端到另一端有不同的性别集群,尽管确实存在一些异常值的观察。
图4 从验证的DL模型的嵌入投影。
推理嵌入在其他三个学习任务中的非线性投影也呈现出全面的趋势,进一步验证了DL方法中学习推理过程的合理性。性别分类任务显示出不同的集群,很少有异常值(图4b)。此外,在进行的年龄和MMSE回归任务中,分别观察到随着年龄增加的连续渐进谱(图4c)和从谱一端到另一端的MMSE(图4d)值。因此,我们可以得出结论,所实现的方法确实能够从脑成像数据中学习到感兴趣的任务特定表征模式。
2.4 DL可以对人脑区域进行稳健的相关性估计
验证算法鲁棒性的一个关键维度是在独立重复中预测的相似性。因此,我们试图确定经过验证的DL模型是否在其独立运行中以一致的模式估计分类决策中的大脑区域的预测相关性。
图5a显示了基于这些方法在自动解剖标记(AAL)大脑图谱上计算的最高样本量的任务识别相关性百分比。尽管合并的大脑网络的排序顺序有一些差异,但两种显著性方法对大多数大脑网络估计的预测水平相似。图5b显示了两种方法的AAL脑图谱的平均相关性估计,以及比较两种方法的这些指标的散点图(r = 0.921)。总的来说,这些初步结果清楚地表明相关性估计的稳稳性,因此采用DL方法记录脑成像数据的一致表示具有很高的潜力。鉴于这些积极的证据,未来DL应用于脑成像数据应该研究将显著性映射更全面地纳入学习公式。
图5 网络遮挡敏感性分析(NOSA)和梯度反向传播(GBP)方法的AAL图谱的任务判别相关性估计,用于年龄和性别分类任务。
2.5 DL揭示了辨别性生物标志物的合理任务特异性相关性分布
在这里,我们执行DL模型内省,定性地评估每个承担的学习任务中最具辨别能力的大脑区域,并讨论这些发现与文献中先前发现之间的关系。如图6a所示,年龄和性别联合分类任务的聚集显著图的特征区域分布在(1)岛叶皮层和壳核、扣带回中和前回的中心结构,(2)颞叶包括海马、海马旁回、杏仁核、梭状回、Heschl回和颞下回/中/上回,(3)枕叶包括距状裂、楔叶、舌回,枕下回/中/上回和角回,(4)额叶,包括罗兰盖、额上回和中回、额下回眶部和额下回和中央前回,(5)顶叶,包括楔前叶回、缘上回、中央后回和顶叶下回,(6)小脑(4/5/6/8/Crus1)。正如我们接下来将看到的,这些激活显示出与先前报道的性别相关(图6b)和年龄相关(图6c)灰质差异模式高度一致。
图6 辨别性生物标记物的任务特异性分布的可视化。
2.6 比较分析证实了脑成像数据的可重复性DL
图7显示了我们的结果(使用我们的模型和管道)可以通过使用Peng等人最初提出的模型和管道,使用我们的代码以及Schulz等人的代码来再现。具体来说,与我们的DL1 Abrol@/DL3 Abrol@管道(分类/回归)相比,SFCN Abrol@、SFCN Schulz@和SFCN Schulz_C*管道的所有度量指标都观察到了高度相似的性能,这是对SML方法性能的显著改进。从这些结果中很容易注意到,年龄回归任务中唯一显著的变化是SFCN Schulz*的R2度量,对于相应的校正管道(即SFCN Schulz_C*),该度量被校正为更高的值。在DL1 Abrol@/DL3 Abrol@、SFCN Abrol@、SFCN Schulz@和SFCN Schulz_C*管道之间仍然存在一些性能差异,这可能是由于DL方法训练的随机性质和训练管道中的参数差异造成的。总的来说,这种比较分析使我们能够深入了解可重复性研究,证实了考虑的DL模型和神经成像数据管道在性能上的相似性。
图7 比较分析证实了脑成像数据的重复性DL研究。
3.讨论
我们的结果表明,DL方法,如果按照常见的实践实现和训练,有潜力大大优于SML方法,并在相对计算时间内表现出较低的渐近复杂度,尽管其体系结构和参数化更复杂。在性能图中观察到大量的边缘,这与研究的任务关联嵌入在复杂成像数据中复杂的抽象层次的概念是一致的,因此可以受益于DL方法的表征能力。我们进一步证实了这一概念,证明了优越的特征提取有助于DL方法的出色性能,如果我们在DL表示上训练SML方法,它们也可以同样出色地执行。因此,我们强烈建议未来使用DL方法来评估最小预处理输入空间中可用的时空信息的财富,而不是使用减少的特征空间。注意,我们在这里并没有发现什么新东西,DL领域不仅意识到模型的这一属性,而且可以说它们是以此作为主要目标开发的。我们的分析还表明,作为训练样本量的函数,DL方法的性能改进最终与SML方法相似,虽然在一个显著更高的性能标记上饱和。尽管在本工作中测试的深度DL方法的更深变体训练速度更快,但它并没有带来显著的性能改善,因此需要进一步的探测来确认额外的深度是否可以进一步提高DL模型的性能。我们在这里注意到,尽管如此,除了试验被测试的DL模型类的更深层变体之外,还有许多可能获得进一步性能提升的途径,例如,探索微调过程中的变体和测试其他现有或更新的DL框架。事实上,在脑成像数据上对大量不同的有监督和无监督DL框架的性能和可伸缩性边界进行基准测试将是非常有趣的。
从本质上说,我们的发现强调了大脑成像数据中非线性的存在,DL框架可以利用这些非线性来生成更有区别的编码来描述人类大脑。结果支持DL应用于脑成像数据的潜力,即使在目前可用的数据大小下;然而,关于DL方法的无限可扩展性的现有主张/推测需要进一步证实。我们的发现激励了未来的脑成像DL工作,专注于提高编码的辨别能力,并通过有方法的模型解释促进更精确的辨别特征定位。值得注意的是,DL模型的鉴别能力更容易评估,但这并不是唯一的,可以说是可以从它们中受益的主要用途。许多其他应用,如分割和多模态数据集成,直接受益于DL方法的表示能力和模型构建的方便性。与其专注于显示DL在某些情况下不能很好地预测,我们还不如利用这些模型的灵活性,在当前主力SML方法无法进一步推动的脑成像问题上取得巨大进展。
参考文献:Deep learning encodes robust discriminative neuroimaging representations to outperform standard machine learning.
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有