前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Nature Communications:测量噪声如何限制大脑-行为预测的准确性

Nature Communications:测量噪声如何限制大脑-行为预测的准确性

原创
作者头像
悦影科技
发布于 2025-05-28 02:56:12
发布于 2025-05-28 02:56:12
830
举报

摘要:人类神经影像学领域致力于通过从大脑成像数据预测行为表型,来理解个体差异并寻找用于临床应用的生物标志物。为了识别具有普遍性和可重复性的大脑 - 行为预测模型,足够的测量信度至关重要。然而,预测目标的选择主要受科学兴趣或数据可用性的引导,而非心理测量学方面的考量。在此,我们展示了行为表型信度较低对样本外预测性能的影响。通过使用来自四个大规模数据集的模拟数据和实证数据,我们发现许多表型中常见的信度水平会显著限制大脑与行为之间建立联系的能力。接下来,利用英国生物银行(UK Biobank)的 5000 名参与者的数据,我们表明只有信度极高的数据才能从将样本量从数百人增加到数千人的过程中充分受益。我们的研究结果强调了测量信度对于从个体差异中识别有意义的大脑-行为关联的重要性,并突出了在未来研究中需要更加重视心理测量学的必要性。

1. 引言

人类神经影像学研究的主要目标是理解个体差异,并识别用于临床应用的生物标志物。在这方面,一种极具前景的方法是通过大脑的功能和结构测量来预测个体的临床相关表型(例如症状、治疗反应、智力能力)。静息态功能连接模式,即大脑活动区域时间进程之间的统计关系(通常是皮尔逊相关性),已被广泛用作预测行为表型的大脑特征。此前的许多研究都集中在开发和改进这类预测建模方法上。然而,到目前为止,预测准确率仍然过低,无法为理解行为个体差异的神经基础提供重要见解,也难以达到临床应用的相关性。

识别可重复的大脑 - 行为关联的一个基本前提是测量具有足够的信度。在心理测量学中,信度广泛反映了测试程序重复实施时得分的一致性。在个体差异研究的背景下,重测信度受到了最多关注,因为它反映了一种测量在多个场合下对个体进行一致排序的程度(即表现较差的人在重复测试中仍然表现较差)。需要注意的是,这一假设是所讨论的测量评估的是个体的稳定特征,或者不同场合之间的变化量在个体之间没有差异(例如,由于重复测试的练习效应)。重测信度通常通过组内相关系数(ICC)来评估,它是组间方差与总方差的比值,总方差由组间方差、组内方差和误差方差组成(详细讨论见 McGraw 和 Wong)。测量噪声,即导致观测值与真实值(或重复观测值)之间出现差异的随机变异性,因此与信度密切相关,因为它在 ICC 的计算中会导致误差方差。也就是说,如果组间方差保持不变,高水平的噪声会导致低信度。

虽然大量的研究都集中在评估基于大脑的测量的信度,以及提高这些信度的方法,但作为预测目标的行为评估的信度在很大程度上被忽视了。选择具有科学或临床相关性的预测目标往往受到实用主义和后勤限制(例如数据集的可用性)的影响,而不是对信度或效标效度的考虑。此外,许多研究中收集的经典实验范式可能不太适合研究个体差异,因为这些范式中的组间方差通常在设计上就较低,从而导致信度较低。最后,目前文献中对常用行为测量的重测信度评估表明,大多数测量的信度都低于临床应用所需的 “优秀” 信度水平。Enkavi 及其同事最近的一项荟萃分析显示,评估自我调节的 36 项任务的中位信度处于良好和中等之间的边界(ICC = 0.61),而对相同任务新收集的数据显示信度甚至更差(ICC = 0.31)。同样,在大规模数据集和纵向样本中的信度评估报告的估计值低于测试手册中报告的值,测试手册中报告的信度通常是在相对较短的重测间隔内评估的。

低测量信度存在问题,因为它会削弱变量之间的现有关系。在统计分析(例如相关性分析)中,这表现为降低了最大可识别效应量的上限。在机器学习的背景下,低信度会通过降低信噪比,对模型性能产生深远影响。标签或目标噪声(类似于测量噪声)会降低分类算法的准确性,增加参数估计的不确定性、训练时间,以及给定问题的复杂性。因此,如果信度过低,模型在训练过程中可能会拟合无关的方差(例如测量噪声)。这反过来又会导致泛化性能较差,甚至完全无法学习。因此,样本外预测准确率低可能是目标不可靠的结果,而不是潜在关联较弱。这反过来又会阻碍对大脑 - 行为关系的研究,并严重破坏寻找生物标志物的努力。

由于效应量的衰减,低信度还会增加识别效应所需的样本量。同样,测量噪声较高的目标需要更大的训练集,才能达到与噪声较小的目标相当的分类准确率。因此,大脑与行为表型之间关联强度的估计值会被削弱,并且需要非常大的样本才能使其稳定。这些考虑使得用于发现生物标志物的大规模数据集成为必要条件,而非优势,这反过来又带来了不理想的后勤、财务和伦理挑战。

在这里,我们研究行为表型的重测信度如何影响在典型的大脑-行为关系研究中它们的可预测性。我们使用模拟方法和来自四个大规模数据集的实证数据,表明当从功能连接进行预测时,低信度会系统地降低样本外准确率。此外,我们使用 5000 名成年人的样本,说明了信度和样本量之间的权衡关系。

2. 结果

2.1 低表型信度降低大脑-行为预测的准确性

系统测试目标信度对样本外预测准确率的影响,我们以人类连接组计划衰老数据集(HCP-A)的实证数据为基础,模拟了重测信度降低的行为评估。通过逐步增加目标变量内随机噪声的比例来操纵信度。

作为原理验证,我们先展示预测参与者年龄的结果。不出所料,随着测量噪声增加,系统降低年龄信度导致准确率急剧下降(图 1a)。关键是,信度每降低 0.2,决定系数(R²)平均降低 25%。预测得分与观测得分的平均绝对误差(MAE)和相关性也呈现类似模式。在英国生物银行数据集(UKB)中也重现了观测到的准确率变化率,且该变化率对脑区划分变化和算法选择具有稳健性。通过缩短扫描时长降低静息态功能连接的信度,会降低整体预测准确率,但不影响 R²的变化模式。

接着,我们通过系统地向 HCP-A 数据集中最可靠的测量(组内相关系数 ICC ≈ 0.9)添加噪声,研究典型大脑 - 行为关联研究中预测准确率的衰减情况(n = 550,补充表 4)。借此模拟出在神经心理学评估中常见且具有合理真实效应量的新表型。总认知能力的预测准确率为 R² = 0.23(MAE = 10.37),晶体认知能力为 R² = 0.22(MAE = 10.24),握力为 R² = 0.19(MAE = 9.79 )。与年龄预测相似,降低这些表型的信度会使预测准确率下降(图 1b)。对这三项评估而言,当模拟数据信度达到约 0.6 时,R²减半。重要的是,诸如混杂回归、特征空间或特征信度等分析选择,会使实证数据和模拟数据的预测准确率产生小幅度变化,但不影响性能下降的速率。

对于相同水平的噪声,表现最佳和最差的模拟数据集的预测准确率相差可能达到 0.1R²或更多。当信度达到 0.5 或更低(这在行为评估中并不罕见)时,这种变异性可能导致准确率大幅波动,进而对预测的成功与否得出不同结论(图 1c)。例如,在握力预测中,信度 r = 0.46时,所有一百个模型的准确率范围从 R² = -0.01 到 R²= 0.12。所有结果均依据先前研究中估计的表型信度进行了校正。由于这些信度值在不同研究中可能有所不同,我们在补充结果中还提供了假设表型具有完美信度的未校正结果,以展示更普遍的趋势。

图片
图片

图 1 HCP - A 数据集中信度对预测准确性的影响。

2.2 目标信度与预测准确率相关

接下来,在可估计信度的实证数据中,我们直接研究信度与大脑 - 行为预测准确率之间的关系。我们利用人类连接组计划年轻成人数据集(n = 46,HCP-YA)的重测数据和英国生物银行数据集(n = 1890)的随访数据,估计了 HCP-YA 中 36 项行为评估的信度和 UKB 中 17 项评估的信度。随后将得到的信度与它们在各自完整样本中的预测准确率进行相关性分析(图 2)。

基于模拟结果,我们预期随着评估信度降低,预测准确率的衰减会增加。事实也证实了这一点,R² 在 HCP-YA 数据集和 UKB数据集中与重测信度呈现显著相关性,尽管 UKB 中的重测间隔更长(平均重测间隔为 2 年 6 个月,而 HCP-YA 中为 5 个月)。尽管信度和预测准确性可能受发育影响,但在 ABCD 数据集中也得到了类似结果。鉴于 HCP-YA 中的重测参与者数量较少(n = 46),我们还将 R² 与 ICC 的下限和上限进行相关性分析,观察到了相同的关系。由于R²值为负的模型在准确性上可能不具可比性,我们还仅将 R² 值为正的模型与 HCP-YA 中的信度进行相关性分析,发现相关性更强。与主要分析类似,所有信度低于0.6 的变量显示出非常低的准确率(R² < 0.02)。相反,只有具有优秀信度的变量(图片词汇任务、总认知能力、握力、英语阅读和晶体认知能力)才能达到 R² > 0.05 。

图片
图片

图 2 信度与预测准确性之间的关联

图片
图片

图 3 UKB 中的预测和子采样

图片
图片

图 4 模拟数据中预测准确性的提升与样本量的关系

2.3 表型信度对预测准确率的影响随样本量变化

最后,我们试图探究信度和样本量之间的相互作用如何影响大脑 - 行为预测。我们利用英国生物银行数据集中的 5000 名参与者,以从 n = 250 到 4450 的几何间隔训练集大小,重复相同的模拟方法。由于没有一项认知评估的信度高到足以通过添加噪声来降低其信度,我们只能在两个示例表型(年龄和握力)中系统地增加随机噪声(我们在补充结果图 15 中展示了一个这样的示例)。

系统增加噪声会导致所有训练集大小的准确率降低,并且遵循与之前分析中观察到的相同模式,即信度每下降 0.4,R² 减半(图 3)。重要的是,信度变化 0.2 对预测性能的影响比训练集大小的变化(例如,从 n = 1054 到 n = 1704)更大。对于年龄预测,即使是具有优秀信度(r = 0.81)的 652 名参与者的样本,其准确率也与具有中等信度(r = 0.49,这在行为评估中很常见)的完整样本相当。对于与功能连接关联较弱的表型,这种影响不太明显,在这些表型中,更可靠的训练集至少需要不可靠样本大小的一半,才能达到相当的准确率。

增加样本量总是会提高预测准确率,无论信度如何。然而,信度极高的数据在准确率上的提升最大,而信度中等的数据则只有微小的提升(图 4)。这在样本量低于 1000 名参与者时尤为明显。接下来,我们研究了不同信度水平的实证数据的预测准确率如何随着训练集大小的增加而提高(图 5)。与图 4 中降低信度的模拟数据结果一致,具有优秀信度的表型在样本量增加时,准确率提升更陡峭、幅度更大。具有良好信度的表型在准确率上只有微小变化,且提升幅度相对较小。当最大训练集大小再增加 2500 名参与者时,这些结果保持不变。

图片
图片

图 5 实证数据中预测准确性的提升与样本量的关系

3. 讨论

本文展示了行为测试重测信度低对脑-行为关联样本外预测性能的不利影响。研究结果表明,尤其是当脑特征与行为评估之间的关联为弱到中等时,行为表型常见的信度水平会大幅削弱很大一部分共享方差。重要的是,这种削弱与特征定义、预测算法或数据集无关,说明分析选择的影响很小。此外,研究显示虽然较大的样本量能提高脑 - 行为预测的准确性,但小样本中的高信度数据能产生与大量中信度数据相当的结果,并且根据真实关系的强度,高信度小样本数据甚至可能更优。基于这些发现,只有高信度数据才能从将样本量从数百增加到数千参与者的过程中充分受益。

3.1 表型信度对稳健结果很重要

本文旨在证明,广泛用于识别脑-行为关联的机器学习方法也会受到低表型信度的影响,并展示其对样本外预测准确性的影响。总体而言,研究发现信度对样本外预测准确性的削弱,与之前文献中描述的对样本内相关性以及分类的影响类似。基于强调信度在生物标志物研究中重要性的观点,研究说明了大多数大规模神经影像数据集中常规收集的神经心理学评估信度,可能导致的预期削弱程度。结果表明,中等信度(ICC = 0.6 - 0.4)会严重降低预测准确性,且与数据集、静息态功能磁共振成像(rs-fMRI)信度和分析选择无关。具体来说,当 ICC = 0.6 时,预测准确性平均为同一变量 ICC ≈ 0.9 时的一半。此外,即使是良好的信度水平(ICC = 0.6 - 0.8)也会显著削弱脑 - 行为关联。强关系(如年龄)同样容易受到强烈削弱,但与弱关系不同的是,即使信度较差仍能进行预测。然而,目前的估计表明,如此大效应量的脑 - 行为关联并不常见。总体而言,这些结果表明,行为表型的高重测信度对于公正评估神经影像在预测行为个体差异方面的潜力至关重要。

与之前的文献一致,本研究中使用的数据集(HCP-YA、UKB 和 ABCD)中的大多数行为评估信度,处于良好到中等范围,容易受到大幅削弱,达不到临床应用的理想水平。由于许多大型神经影像数据集使用类似的测量工具(如 NIH Toolbox),近期许多报告中观察到的低预测准确性,可能部分是由预测目标的信度不佳导致的。这反过来限制了对脑功能个体差异的进一步了解,以及对基于神经影像的生物标志物的探索。重要的是,研究结果还表明,该领域可通过改进测量方法和优化行为信度,提高预测建模的信噪比和关联效应量,从而显著受益。

脑-行为关系的最终削弱程度,将由神经影像特征和行为目标的联合信度决定。功能连接的信度取决于网络、预处理步骤和扫描持续时间,较长的采集时间会带来更高的信度。因此,本研究中观察到的 HCP 和 UKB 数据集在年龄预测准确性上的显著差异,可能与 rs-fMRI 采集的差异(UKB 中为 6 分钟,HCP-A 中为 26 分钟),以及 UKB 中报告年龄的精度较低(以年为单位测量,而 HCP 中以月为单位)有关。换句话说,在 HCP-A 数据集中导致严重削弱的低表型信度,在 fMRI 测量信度较低的数据集中可能会导致更大的削弱。因此,本文所示结果可能代表了该领域的乐观情况,因为在临床环境中,连续两天采集 26 分钟的静息态图像并不常见。然而,研究也强调,低表型信度的影响在不同数据集之间具有普遍性,并且在直接操纵特征信度时同样存在。因此,即使 fMRI 测量具有极高的信度,不可靠的表型仍可能大幅降低样本外预测准确性,因为个体之间的一致排序受到了损害。

除了信度不佳的数据总体预测性能较低外,在模拟数据中还观察到预测准确性的大幅差异。具体来说,中等和低信度的数据集显示出的准确性,可能会导致相反的结论。例如,在 ICC = 0.45 时,最高的准确性(R²≈0.1)与许多行为评估报告的结果相当,而观察到的最差准确性则意味着预测失败(即 R² < 0)。在模拟中,测量噪声是随机分布的,这些结果表明,即使是中等信度的表型也可能包含足够的噪声,导致结果无法重复。相反,信度越高,随机噪声导致结果出现 R² = 0 的风险越低。因此,研究结果强调了作者遵循最佳实践指南的必要性,在真正独立的样本或数据集中重复预测并验证模型。

3.2 大样本有必要但不充分

在最近的一项研究中,马雷克(Marek)及其同事提出,研究脑-表型关联需要样本量 n > 2000,因为小效应中的抽样变异性会导致效应量估计不准确。虽然作者用作示例表型的认知能力和总精神病理学据报道具有优秀的信度,但所评估的其余表型信度则较为一般(ICC = 0.31 - 0.82)。鉴于信度存在如此大的差异,所报告的样本量要求可能并非适用于所有情况的通用建议,因为提高许多收集到的行为测量的信度,将导致更大的效应量,从而有效降低样本量要求。

本研究表明,根据真实关联强度,高信度表型使用数百个样本,而非数千个样本,就能达到相当的预测准确性,因为它们受低信度的显著削弱影响较小。这些结果表明,对于难以获取数千名参与者的研究问题(假设横断面设计合适),收集更可靠的数据可能尤为重要,如某些特定疾病的研究。但更重要的是,只有可靠的表型,才能在训练集大小从数百增加到数千参与者时,充分受益于预测准确性的提升。相反,信度差的测量可能不是大数据研究的理想选择,因为收集数千名参与者的数据,在达到饱和之前,只会使准确性有微小的提高。因此,提高与神经影像特征相关的适当选择表型的测量信度,可能会提高大型数据集中的预测(和统计)能力。最后需要注意的是,研究结果不应被用来为以高测量质量为幌子使用小样本研究进行辩护。只要行为表型与神经影像之间的真实关联效应量较小,就需要非常大的样本量来进行估计。因此,除了考虑测量信度外,研究人员还应继续遵循可推广和可重复预测建模的指南。

在广泛测试的变量中,从数据集中估计的实证信度很少达到优秀水平,这与之前的观察结果一致。此外,实证信度通常低于测试开发后报告的信度。不同数据集之间信度的类似差异并不罕见,这可能是由于重测间隔的不同。然而,大型数据集中的行为评估,可能会受到其他测量噪声来源的影响,如大数据收集的特殊性,包括站点差异、工作人员培训、为减轻参与者负担而设计的试验次数相对较少、经过验证的评估的缩短版本,以及冗长采集协议导致的参与者疲劳。同时,在测试开发过程中评估重测信度的最佳实践,并不总是得到遵循,这可能会进一步导致研究之间的差异。需要进一步注意的是,目前许多大型数据集中许多测量的重测信度难以评估,因为除了 HCP-YA 之外,本文评估的其他数据集(HCP-A、UKB 和 ABCD),以及许多其他大型公开可用数据集,都没有专门的重测样本。在这些数据集中无法评估表型信度,就无法确定特定研究中模型性能不佳,是由于测量误差还是真正反映了低效应量。如果大型数据集中的表型信度,确实比测试开发时报告的信度低很多,那么许多现有数据集,可能对个体差异研究的用途有限;此外,在不考虑心理测量学的情况下,进一步增加样本量(如达到生物银行的规模)也几乎没有益处。因此,强烈敦促在未来,任何识别生物标志物的尝试,都必须在大规模收集数据并评估其预测能力之前,仔细考虑并全面评估行为和神经影像测量的信度(如在重测样本中)。

3.3 提高表型信度

此前大量文献探讨了提升测量信度的方法。在数据采集前,可通过更深入的表型设计来实现,比如在实验室采用更严谨的测试策略,为每位参与者收集更多试验数据;运用生态瞬时评估法增加个体间方差;或者获取多个评估数据进行聚合分析 。对于已采集的数据,研究人员应挑选具有最佳心理测量属性的相关测量指标。对于行为表型而言,假设所有项目的误差方差以及在潜在维度上的载荷相等,那么主成分分析或汇总分数等数据降维技术,能够提高信度,并且相较于单个项目,会产生更大的效应量。HCP 数据集中 NIH 工具包任务的综合分数比单个评估更可靠,且预测准确率更高,这一现象也证实了上述观点。同样,在 UKB 数据集中,将左右手的握力进行平均,与单独使用每只手的握力数据相比,能够提升信度和预测准确率。在不同测试场合下对握力进行平均,也能实现类似的提升效果。如果无法假设项目在潜在维度上的载荷相等,那么可以运用考虑了系统和非系统误差的潜在建模框架来提高信度。不过,要确定在不牺牲测量效度的前提下,优化大脑和行为测量信度的最具成本效益的策略,仍需开展更多研究。为此,未来的研究应着重关注提高已采集数据的信度,并评估在大规模获取新数据时维持信度的最佳实践方法。

尽管高信度是有意义地研究预测准确性的必要条件,但并非充分条件。例如,高信度的表型若无法有效反映大脑内的真实情况,就不太可能提高效应量。此外,许多行为测量指标是依据其他已有的心理量表进行验证的,或者是针对特定人群设计的,并非基于其生物学相关性开发。因此,这些指标可能不太适用于研究脑 - 行为关联,即便提高它们的信度,对效应量的提升可能也收效甚微。同样,结构 MRI 指标的信度虽优于功能连接,但在预测许多心理构念方面表现欠佳,而这些心理构念可能更依赖于神经活动的内在波动。所以,虽然优化测量信度为改进个体差异研究提供了一种可行途径,但并不能确保获得更大的效应量或更高的预测准确率,尤其是在忽视选择合适表型的情况下。

总之,近期大规模神经影像数据集的出现,结合机器学习的进步,使得研究群体层面的脑-行为关联成为可能。在本研究中,许多行为表型常见的信度水平,会严重削弱甚至掩盖实际存在的关联。这反过来可能会使人们对神经影像预测潜力的科学结论产生质疑,并阻碍临床转化应用。因此,除了在神经影像方面做出类似的改进努力外,还需更加重视在大型数据集中优化行为表型。可靠的神经生物学测量指标和行为标记,对于充分利用神经科学大数据研究的优势、推动潜在生物标志物的识别,以及促进可重复性科学的发展,都是必不可少的。

4. 方法

4.1 伦理批准

本研究使用的每个数据集均已获得各自伦理委员会的伦理批准。所有数据集中的参与者均已提供知情书面同意,并由各自的研究和收集站点给予补偿。

4.2 数据集

本研究使用了来自四个大规模数据集的数据。由于人类连接组计划衰老数据集(HCP - A)在成像数据质量与高信度表型数据方差之间具有良好的平衡,因此选用该数据集进行噪声模拟。人类连接组计划年轻成人数据集(HCP - YA)、英国生物银行(UKB)和青少年大脑认知发展(ABCD)数据集,则用于研究信度与预测准确性之间的关联,因为这些数据集中均有重测或随访行为数据(HCP - A 中没有)。最后,鉴于 UKB 样本中有大量参与者,故用其研究信度与样本量之间的相互作用。

4.2.1 人类连接组计划衰老数据集

在主要模拟分析中,使用了来自人类连接组计划衰老数据集的数据,这些数据来自无关的健康成年人。仅对具有所有四次完整静息态 fMRI(rs - fMRI)扫描且头部运动不过度的参与者进行分析,得到了用于年龄预测的 647 名参与者样本(351 名女性,年龄 36 - 89 岁),以及 550 名拥有所有感兴趣表型数据的参与者(每个表型的确切样本量见补充表 3)。

HCP 扫描协议包括在 3T 西门子 Prisma 扫描仪上,使用 32 通道头部线圈,通过 3D 多回波 MPRAGE 序列采集高分辨率 T1w MRI 图像(CTR = 2500ms,0.8mm 各向同性体素)。rs - fMRI 图像通过 2D 多频带梯度回波平面回波成像采集(TR = 800ms,2mm 各向同性体素)。在连续两天内采集四次 rs - fMRI 扫描,每次扫描 488 个体积(6 分 41 秒),每天分别采集一个从前向后和一个从后向前的编码方向。

4.2.2 人类连接组年轻成人数据集

为研究信度与预测准确性之间的关系,使用了人类连接组计划年轻成人数据集的数据,该数据集部分包含相关的健康参与者。仅纳入具有所有四次完整 rs - fMRI 扫描、头部运动不过度(帧间位移 < 0.3mm,对应于均值以上 3 个标准差位移)且拥有所有感兴趣表型的参与者。总共选择了 36 种所有参与者均有的、且未显示出强烈天花板效应的行为表型进行预测。在有标准化分数的情况下使用标准化分数。此外,使用了对 36 项评估均有数据的参与者的重测数据集来估计表型信度。

HCP 扫描协议包括在 3T 西门子 “Connectome Skyra” 扫描仪上,使用 32 通道头部线圈,通过 3D 单回波 MPRAGE 序列采集高分辨率 T1w MRI 图像(TR = 2400ms,0.7mm 各向同性体素)。静息态 fMRI 图像通过全脑多频带梯度回波平面回波成像采集(TR = 720ms),2mm 各向同性体素)。在连续两天内采集四次 rs - fMRI 扫描,每次扫描 1200 个体积(14 分 24 秒),每天分别采集一个从左到右和一个从右到左的相位编码方向。

4.2.3 英国生物银行

为研究预测准确性与信度之间的关联,以及信度如何与样本量相互作用,从英国生物银行的所有健康参与者中随机抽取了 5000 名参与者。健康参与者定义为根据医院住院记录和自我报告,基于 ICD - 10诊断,无脑血管疾病、影响神经系统的传染病、神经精神疾病或神经系统疾病终生患病率的参与者。所有参与者均完成了rs - fMRI 扫描,且头部运动不过度(帧间位移 < 0.28mm,对应于均值以上 3 个标准差位移)。在该样本中,选择了 17 种所有参与者均有的、且未显示出强烈天花板效应的表型。其中,年龄和握力用于创建模拟数据。此外,使用了 1890 名参与者(1012 名女性,年龄 48 - 79 岁)的样本,这些参与者在随访成像扫描中拥有所有 17 种表型的随访数据,用于估计表型信度。初始成像扫描与随访扫描之间的平均间隔为 2 年 6 个月。

UKB 扫描协议包括在四个成像中心(布里斯托尔、奇德尔、曼彻斯特、纽卡斯尔和雷丁),使用统一的西门子 3T Skyra MRI 扫描仪和 32 通道头部线圈,采集结构和静息态 fMRI 图像。T1w MRI 图像通过 3D MPRAGE 序列采集(TR = 2000ms,1.0mm 各向同性)。使用多频带回波平面成像采集一次 rs - fMRI 扫描,每次扫描 490 个体积(6 分 10 秒)(TR = 735ms,2.4mm 各向同性体素)。

4.2.4 青少年大脑认知发展数据集

为探究表型信度与预测准确性之间的关联是否适用于另一个具有不同预处理流程的数据集,我们使用了青少年大脑认知发展研究基线样本的数据。仅选用了无严重感官、智力、医学或神经问题且所有行为表型数据可用的英语母语参与者。此外,所有参与者必须拥有完整的 rs - fMRI 数据,并通过 ABCD 对 T1 和静息态 fMRI 的质量控制。最终得到 4133 名参与者(2123 名女性,年龄 9 - 11 岁 )。另外,使用了 2102 名参与者(1026 名女性,年龄 9 - 11 岁 )的样本,这些参与者在第一次随访中拥有所有表型的随访数据,用于估计表型信度。初始成像扫描与随访扫描之间的平均间隔为 1 年 11 个月。

ABCD 采集协议在 21 个站点统一,使用西门子 Prisma、飞利浦和 GE 750 3T 扫描仪。该协议包括使用 32 通道头部线圈,通过 3D 多回波MPRAGE 序列采集高分辨率 T1w MRI 图像(CR = 2500ms,1.0mm 各向同性体素)。rs - fMRI 图像通过梯度回波平面回波成像采集(TR = 800ms,2.4mm 各向同性体素),共包含两次扫描,总计 20 分钟。

4.3 选定表型不同信度水平的模拟

由于为分析目的增加噪声,仅在高信度表型中才有意义,因此我们依据已发表的信度估计值,在 HCP - A 数据集中选择预测目标:年龄(ICC ≈ 1.0)、握力、总认知综合得分和晶体认知综合得分。在 UKB 数据集中,我们仅对年龄进行噪声操纵,因为其中认知评估的信度值均未高到需要通过添加噪声来降低(我们发现的最高信度是划消测验 B 任务,r = 0.78)。对于每个选定的预测目标,我们创建了包含不同噪声量的模拟数据集。根据经典测量理论,任何测量都反映了被测量实体与随机(以及系统)测量噪声的混合。因此,在保持组间方差不变的同时,增加误差或噪声方差的比例,就可以降低变量的信度,从而降低信噪比。在本研究中,我们仅操纵了非系统测量噪声,即导致观测值与真实值(或重复观测值)之间出现差异的随机变异性。增加随机噪声是研究重测信度的理想方式,因为它仅影响测量值围绕均值的变异性,进而改变个体间的排名。

为在目标变量中引入不同程度的噪声,我们创建了与最初观测到的(实证)目标具有预先指定皮尔逊相关性的数据集。选择这种方法是为了通过控制噪声量,提高所得脑 - 行为关联衰减的可解释性。数据生成过程如下:首先,从标准正态分布中抽取一个随机向量,使其均值和标准差与原始实证获取的数据相同。接下来,我们计算抽样向量(x)对实证数据(Y)的最小二乘回归残差。然后,将代表 x 中与 Y 独立部分的正交向量,再次与原始实证数据 Y 通过预先指定的相关性进行缩放组合。这个调整过程控制了 Y 和 x 的残差在最终模拟向量中的相对贡献。用于此过程的公式为:,其中是与实证数据 Y 具有预定义相关性 ρ 的新 “模拟” 向量。代表随机抽样向量 x 对 Y 的最小二乘回归残差。

基于 HCP - A 数据集的模拟数据,其预先指定的相关性设置为与原始数据的相关系数 r 分别为 0.99、0.95、0.9、0.85、0.8、0.75、0.7、0.65、0.6、0.55 和 0.5。鉴于大样本的计算量较大,UKB 模拟数据与原始数据的相关系数 r 设置为 0.9、0.8、0.7、0.6 和 0.5。对于每个相关系数水平,模拟重复 100 次,因此 HCP - A 共生成 4400 个模拟数据集(4 个评估表型 ×11 个噪声水平 ×100 次重复),UKB生成 1500 个模拟数据集(3 个评估表型 ×5 个噪声水平 ×100 次重复)。模拟数据集经过缩放和偏移处理,使其均值和标准差与原始测量值大致相同,以促进原始数据与模拟重测数据之间的绝对一致性(即重复测量的稳定性),从而协调重测相关性和 ICC。由于年龄数据不服从正态分布,我们首先从原始数据中估计其概率密度,然后从该分布中抽样生成模拟数据。

4.4 表型预处理

由于我们使用线性岭回归进行预测,对所有呈现右偏态分布的表型进行自然对数转换。由于此过程仅在参与者内部对数据进行处理,因此不会出现参与者之间的数据泄露问题。

4.5 fMRI 预处理

两个 HCP 数据集均提供了最低限度预处理的数据。预处理流程在其他地方有详细描述。简要来说,这包括梯度失真校正、图像失真校正、配准到参与者的 T1w 图像和 MNI 标准空间,随后对采集的 rs - fMRI 图像进行强度归一化,以及独立成分分析(ICA),接着使用基于 ICA 的 X - noiseifier(ICA - FIX)进行去噪。另外,通过回归白质、脑脊液的平均时间进程和全局信号进行额外的去噪步骤,这已被证明可以减少与运动相关的伪影。接下来,对数据进行线性去趋势处理,并在 0.01 - 0.1Hz 进行带通滤波。

UKB 数据通过代表英国生物银行开发和运行的流程进行预处理,包括以下步骤:使用 MCFLIRT 进行运动校正;通过单个乘法因子对整个 4D fMRI 数据集进行总体平均强度归一化;使用高斯加权最小二乘直线拟合(sigma = 50s)进行高通时间滤波;回波平面成像展开;梯度失真校正展开;通过ICA - FIX 去除结构化伪影。未应用低通时间或空间平滑处理。预处理后的数据集使用 FSL 的 applywarp 命令归一化到 MNI 空间。

ABCD 数据集通过 ABCD - BIDS 流程进行预处理,该流程是 ABCD - BIDS 社区集合的一部分,在其他地方有详细描述。该流程包括使用高级归一化工具(ANTS)进行失真校正和对齐、FreeSurfer 分割,以及使用 FSL FLIRT 刚体变换进行表面和体积配准。处理过程遵循 DCAN BOLD 处理(DBP)流程,包括对 rs - fMRI 数据进行去趋势和去均值处理、使用包含组织类别和运动回归变量的一般线性模型进行去噪。然后,使用二阶巴特沃斯滤波器在 0.008 - 0.09Hz 进行带通滤波。接着应用 DBP 呼吸运动滤波(每分钟 18.582 - 25.726 次呼吸)和剔除操作(超过 FD 阈值 0.2mm 或未能通过 ±3 个标准差异常值检测的帧将被丢弃)。

4.6 功能连接

所有数据集去噪后的时间序列,均使用 Schaefer 图谱划分为400个感兴趣的脑区,用于所有主要分析。计算每个脑区所有体素的平均信号时间序列。基于这些时间序列,使用皮尔逊相关性计算所有脑区间的功能连接。对于 HCP 数据集,将每个参与者 4 个会话的相关系数转换为 Fisher-Z 分数,并计算每个连接在不同会话间的平均值。为探究结果对粒度和脑区划分选择的稳健性,我们还计算了 Schaefer 图谱中 200 个、300个脑区,以及 Seitzman 等人定义的 300 个皮质、皮质下和小脑感兴趣区域去噪时间序列之间的功能连接。这些区域被建模为 6 毫米的球体,并从 HCP 衰老数据集的静息态数据中计算得到。最后,为研究结果在具有不同预处理步骤的其他数据集上的普适性,使用 HCP 的 360 个 ROI 图谱模板对 ABCD 数据集进行脑区划分。

4.7 预测

我们使用 scikit-learn 库,通过在线提供的自定义代码,从功能连接预测所有目标变量。使用决定系数、平均绝对误差(MAE)以及预测和观测目标值之间的皮尔逊相关性来衡量预测准确性。表示模型中自变量解释的(目标变量)方差比例,计算公式为:

其中是第个样本的预测值,是个样本中对应的真实值,是所有的平均值。在这个公式中,与相关系数的平方不可互换。所有预测均使用线性岭回归,因为在先前研究和初步测试中,它在计算时间和准确性之间具有良好的平衡。使用 10 折外层交叉验证和 5 次重复,评估样本外预测准确性。通过高效的留一法交叉验证,对岭回归的正则化参数进行超参数优化。选择具有最佳参数的模型,在训练折上进行拟合,并在外层测试折上进行测试。在每个训练折中,在训练模型之前,对神经影像特征进行标准化处理(z-score),以确保方差较大的单个特征不会主导目标函数。在预测(原始数据和模拟数据)之前,将目标值与样本均值相差 3 个标准差的参与者从完整样本中剔除,以最小化模拟数据中随机抽样产生的极端值的影响。作为训练前的预处理步骤,对参与者内的神经影像特征进行 z-score 标准化。

4.8 HCP-A 模拟结果的控制分析

为验证我们的分析对分析自由度的稳健性,我们使用支持向量回归、功能连接特征的替代节点定义(使用参考文献 101 中的 ROI)以及特征层面的混杂因素去除,重复对 HCP-A 数据集的分析。在算法比较中,我们对神经影像特征训练了一个具有线性核的支持向量回归模型。使用 10 折外层交叉验证和 5 次重复,评估样本外预测准确性。使用启发式方法高效计算超参数:

为探究混杂效应是否影响我们的结果,使用线性回归从连接特征中去除标准混杂变量(预测所有表型时为年龄和性别)。在每个训练折中进行混杂因素去除,并随后将混杂模型应用于测试数据,以防止数据泄露。

最后,我们研究了特征信度(此处为功能连接)对结果的影响。由于静息态时间进程的长度已被证明会影响功能连接的信度,我们减少用于计算功能连接的静息态数据量,并重复所有预测。在 HCP-A 的主要分析中,使用了两天的所有 4 个静息态会话(22 分 44 秒)。为降低特征信度,分别使用每天的两个会话(13 分 22 秒)计算功能连接,最后,为模拟 UKB 采集协议,仅使用第一天从前向后采集的第一个会话(6 分 41 秒)计算功能连接。所有控制分析结果见补充材料。

4.9 信度与预测准确性的关联

使用 HCP-YA 数据集研究目标信度与预测准确性(以衡量)之间的关系。首先,使用 46 名参与者的重测数据,通过计算第一次和第二次访视得分之间的 ICC,估计 36 种不同行为表型的测量信度。ICC 使用双向随机效应模型计算绝对一致性,通常称为 ICC 。接下来,使用线性岭回归,在 HCP-YA 数据集中的 713 名参与者样本中预测所有选定的测量指标。由于 HCP-YA 数据集包含相关参与者,因此使用 5 次重复的留 30% 家庭样本的交叉验证方法,而非其他分析中使用的 10 折随机划分。在交叉验证过程中,家庭成员始终被分配到同一折中,以保持各折之间的独立性。使用在训练集上训练的线性回归去除年龄和性别对特征的混杂效应,并将其应用于测试数据。最后,将 36 种不同表型的预测准确性()与其相应的信度(从重测数据计算得出)进行相关性分析,并检验其显著性(使用双尾检验)。为验证我们的发现,除交叉验证外,使用 UKB 数据集重复上述方法。使用 ICC2 估计 1893 名参与者在第一次和随访成像访视期间收集的 17 种不同行为评估的信度。在 5000 名 UKB 参与者中,使用我们主要分析中采用的 10 折外层交叉验证和 5 次重复的岭回归,预测所有表型。信度与预测准确性之间的相关性未进行多重比较校正。

4.10 UKB 数据集中的子采样程序和预测

为研究信度对预测性能的影响如何随样本量增加而变化,我们从英国生物银行的 5000 名参与者中,随机抽取几何间隔的样本(相邻元素间比例恒定的序列),起始样本量为(250、403、652、1054、1704、2753、4450)。这样做旨在涵盖从较大规模神经影像研究到国际联盟级别的样本量范围。为比较不同样本量的预测准确性,我们使用了 Sklearn 中的学习曲线函数。在该方法中,我们首先划分出完整样本 10% 的测试集(即)。从剩余数据中,无放回地抽取几何间隔的样本(250、403、652、1054、1704、2753、4450)。每个子样本用于训练一个岭回归模型,并使用与先前分析相同的 10 折外层交叉验证和 5 次重复进行超参数优化。由于测试集对所有训练样本保持不变,因此该方法使得不同样本量之间的准确性比较成为可能。对所有模拟数据和实证数据,整个过程重复 100 次。

参考文献: How measurement noise limits the accuracy of brain-behaviour predictions.

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
ansible调优
解决方法: 修改ansible.cfg host_key_checking = False
buiu
2021/11/26
3470
002. Ansible部署及配置介绍
提示:建议将PIP升级到最新:pip install --upgrade pip。
木二
2019/07/01
7750
《Ansible自动化运维:技术与最佳实践》第二章读书笔记
当更新 Ansible 版本时,要更新 git 源码树以及 git 中指向 Ansible 自身的模块(称为 submodules)
武培轩
2019/09/12
1.2K0
ansible.cfg配置详解
一.简单配置 [defaults] inventory = /etc/ansible/hosts sudo_user=root remote_port=22 host_key_checking=False remote_user=root log_path=/var/log/ansible.log module_name=command private_key_file=/root/.ssh/id_rsa no_log:True 二.详细配置 # config file for ansible -
陈不成i
2021/08/02
1.9K0
如何优化 Ansible Playbook 执行速度
运行最新版本的 Ansible 可帮助提高使用 Ansible 核心模块的 Playbook 的性能。同时尽可能让控制节点靠近受管节点。Ansible严重依赖网络通信和数据传输。
山河已无恙
2023/01/30
2K0
Ansible配置文件
​ 在Ansible中,它的配置文件是一个名为ansible.cfg的配置文件,ansible.cfg配置文件是以ini格式存储配置数据的。但是ansible.cfg配置文件可以存放在不同的目录,但只有一个可用,在运行Ansible命令时,Ansible将会按照预先设定的顺序查找配置文件,检查到哪个就用哪个。
Alone-林
2023/03/17
1.4K0
Ansible
172.10.0.18主机不可达,ansible是基于ssh的,ansible不知道172.10.0.18这台主机的用户名和密码,所以ansible无法连接到它。 我们可以在清单文件中加入对应主机的用户名和密码,也可以基于密钥的方式
陳斯托洛夫斯記
2022/10/27
9010
Ansible
ansible超详细使用指南
来源:ansible一词源于科幻小说,是一种超光速通信设备。 Ansible is the simplest way to automate apps and IT infrastructure。 750+模块,19000+ github stars。
sunsky
2020/08/20
2.8K0
ansible超详细使用指南
Ansible 以及 Ansible-playbook介绍
Anasible 是基于Python2-Paramiko 模块开发的自动化维护工具,实现了批量系统配置、部署、运行等功能。Ansible是基于模块工作的,本身不具备批量部署的功能,如果想要实现批量自动化部署,是Ansible自身的各种模块的集合。
jwangkun
2021/12/23
6.3K0
Ansible 以及 Ansible-playbook介绍
Ansible自动化部署服务
1、安装部署 yum inatsll ansible -y 2、配置文件 Ansible常用参数详解 [defaults] #通用默认配置 inventory = /etc/ansible/hosts #被控制端IP或者DNS列表 library = /usr/share/my_modules/ ##默认搜寻模块的位置 remote_tmp = ~/.ansible/tmp #远程执行临时文件 local_tmp
@凌晨
2021/01/22
9870
Ansible3:ansible.cfg
    Ansible默认安装好后有一个配置文件/etc/ansible/ansible.cfg,该配置文件中定义了ansible的主机的默认配置部分,如默认是否需要输入密码、是否开启sudo认证、action_plugins插件的位置、hosts主机组的位置、是否开启log功能、默认端口、key文件位置等等。
py3study
2020/01/08
1K0
Ansible服务端安装与配置
1、ansible是自动化运维工具,基于Python开发,实现批量部署、配置、运行等。
用户5760343
2022/05/24
1.1K0
Ansible服务端安装与配置
自动化运维—Ansible(上)
  ansible甚至都不用启动服务,仅仅只是一个工具,可以很轻松的实现分布式扩展
yaohong
2019/09/11
2.7K0
自动化运维—Ansible(上)
云原生之 Ansible 篇(二)
ansible playbook 默认第一个 task 是 Gathering Facts 收集各主机的 facts 信息,以方便我们在 paybook 中直接引用 facts 里的信息。
看、未来
2022/05/06
1.7K0
云原生之 Ansible 篇(二)
05-Ansible变量
上面定义主机变量的方式是直接在hosts文件中,写主机变量,此种方法是把它独立到一个特定文件夹里的文件里面去写(推荐)
小朋友呢
2020/01/14
1.3K0
Ansible 清单与命令解析
在大规模的配置管理工作中我们需要管理不同业务的不同机器,这些机器的信息都存放在 Ansible 的 Inventory 组件里面,在我们工作中配置部署针对的主机必须先存放在 Invento 组里面,这样才能使用 Ansible 对它进行操作,默认 Ansible 的 Inventory 是一个静态的 INI 格式的文件/etc/ansible/hosts 当然,还可以通过 ANSIBLE_HOSTS 环境变量指定或者运行 ansible 和 ansible-playbook 的时候用 -i 参数临时设置.
王 瑞
2022/12/28
8310
02 . Ansible高级用法(运维开发篇)
ansible是python中的一套模块,系统中的一套自动化工具,可以用作系统管理,自动化命令等任务
iginkgo18
2020/09/27
3.9K0
02 . Ansible高级用法(运维开发篇)
Ansible PlayBook的中变量优先级分析及清单变量解耦总结
「 傍晚时分,你坐在屋檐下,看着天慢慢地黑下去,心里寂寞而凄凉,感到自己的生命被剥夺了。当时我是个年轻人,但我害怕这样生活下去,衰老下去。在我看来,这是比死亡更可怕的事。--------王小波」
山河已无恙
2023/01/30
5.5K0
Ansible PlayBook的中变量优先级分析及清单变量解耦总结
Ansible安装配置
ansible基于python开发,集合了众多优秀运维工具的优点,实现了批量运行命令、部署程序、配置系统等功能。默认通过SSH协议进行远程命令执行或下发配置,无需部署任何客户端代理软件,从而使得自动化环境部署变得更加简单。可同时支持多台主机并进行管理,使得管理主机更加便捷。主版本大概每2个月发布一次。
胡齐
2019/11/12
5610
现代 IT 人一定要知道的 Ansible系列教程:playbook
title = '现代 IT 人一定要知道的 Ansible系列教程:playbook' date = 2023-12-23 draft = false summary = 'Ansible Playbook 提供了一个可重复、可重用、简单的配置管理和多机部署系统,非常适合部署复杂的应用程序。如果您需要多次使用 Ansible 执行任务,请编写一个 playbook 并将其置于源代码控制之下。然后,您可以使用 playbook 推出新配置或确认远程系统的配置。' tags = ["devops"]
用户1418987
2024/01/16
6250
现代 IT 人一定要知道的 Ansible系列教程:playbook
相关推荐
ansible调优
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档