Basic Information 英文标题:A comprehensive benchmark study of methods for identifying significantly perturbed subnetworks in cancer 中文标题:癌症中显著扰动亚网络识别方法的综合基准研究 发表日期:30 December 2024 文章类型:Review 所属期刊:Briefings in Bioinformatics 文章作者:Le Yang | Yijun Sun 文章链接:https://academic.oup.com/bib/article/26/1/bbae692/7934575 Abstract 网络方法利用蛋白质-蛋白质相互作用信息来识别癌症中显著扰动的亚网络,并提出关键分子通路。 已经开发了许多方法,但迄今为止,缺乏严格的基准分析来比较现有方法的表现。 在本文中,我们提出了一种新的基于合成数据的基准框架,并进行了全面分析,以研究现有方法检测目标基因和亚网络的能力,以及如何控制假阳性,并探讨它们在基因和亚网络层面存在拓扑偏差时的表现。 我们的分析揭示了以前无法获得的算法性能见解。 根据基准研究的结果,我们为用户提供了关于如何选择适当的检测方法和蛋白质-蛋白质相互作用网络以识别癌症通路的实际指南,并就未来算法的发展提出了建议。 Introduction Para_01 癌症在一个个体中的发展是一个由基因突变积累驱动的进化过程,这些突变赋予恶性细胞选择性生长优势,通常通过干扰正常的细胞过程实现[1]。 因此,识别癌症驱动基因和受影响的分子通路是阐明癌症发展的机制的关键。 大规模肿瘤组织研究的基因组数据的广泛努力,特别是由癌症基因组图谱(TCGA)和国际癌症基因组联盟(ICGC)进行的研究[2, 3],极大地促进了这一目标。 这些举措使我们能够识别出突变频率显著高于随机机会预期的基因[4],提供了对肿瘤生物学的见解,支持了众多研究项目[5]。 Para_02 网络方法通过整合频率数据与蛋白质-蛋白质相互作用(PPI)网络扩展了基于频率的方法[6, 7]。 由于相互作用的蛋白质通常功能相关或协同工作,网络方法能够识别可能仍在癌症中发挥重要作用的低频基因。 此外,它们有助于检测揭示导致癌症进展的分子通路的聚类模式。 因此,这种分析策略已成为大规模癌症研究中的标准组成部分[6, 8]。 Para_03 先前已经开发了十几种基于网络的方法[6, 7, 9-14]。然而,据我们所知,尚未进行过基准研究来比较评估这些方法的性能。 Lazareva等人[15]针对一个相关问题进行了基准研究,即活性模块识别,在基因表达分析中使用基于网络的方法来识别在疾病条件下表现出表达水平变化的基因模块。 该研究旨在评估使用PPI网络识别的模块是否比使用随机生成的网络识别的模块更具生物学意义。 这项研究提供了几个见解,表明虽然DOMINO[9]能够利用真实的PPI网络得出具有统计显著性的结果,但其他方法主要根据节点度数而不是节点交互的拓扑结构来识别与疾病相关的模块。 然而,由于基因表达和突变数据之间的根本差异,这项研究的发现不适用于癌症亚网络识别问题。 对于基因表达数据而言,由于级联效应,基因表达水平的变化不一定直接与疾病相关。 因此,设计用于活性模块识别的算法倾向于排除那些高度差异表达但错误地与疾病关联的基因。 相比之下,对于突变数据而言,只有少数高度突变的驱动基因,而不太常见的潜在驱动基因无法通过基于频率的方法检测到。 因此,癌症亚网络识别算法优先识别那些不是高度突变但与高度突变驱动基因在PPI网络中接近的癌症驱动基因。 基准研究的另一个局限性在于它仅评估了节点度数对算法性能的影响,而忽略了PPI网络的其他关键拓扑属性,这可能是由于使用置换和抽样方法难以生成具有特定拓扑特征的合成网络。 此外,该研究集中在活性模块识别上,某些方法,特别是那些专门针对癌症研究的方法,没有得到充分的调查。 Para_04 在这项研究中,我们进行了深入的基准分析,以评估和比较最近开发的一组用于识别癌症通路的算法。 具体而言,我们通过从已建立的蛋白质复合体或通路数据库中选择基因列表来生成合成的目标亚网络,作为地面实况。 随后,我们模拟了合成的P值,并将各种计算方法应用于这些值,评估它们在准确恢复合成目标方面的有效性。 在我们的研究中使用合成目标使我们能够全面比较不同的算法,揭示对基因和亚网络某些拓扑特征的潜在偏差。 我们的分析提供了以前无法获得的关于算法性能的见解,并提出了挑战现有观点的研究发现。 首先,与先前的一项比较研究[15]的发现相反,DOMINO 在我们的分析中表现不佳。 其次,我们发现一些方法虽然旨在通过惩罚高阶节点来对抗度数偏差,但往往过度惩罚。 这种过度惩罚可能导致拒绝那些与癌症无关的基因。 第三,我们对特征向量中心性的分析揭示了当前方法的一个不足之处,即它们未能考虑具有低度和高特征向量中心性的基因,从而间接受到度数偏差的影响。 最后,我们观察到所有研究中的方法都倾向于社区类型的亚网络。 有趣的是,尽管这些亚网络显示出明显的拓扑模块性,但它们并不总是与先前研究中描述的疾病模块一致[16]。 我们在补充表1中展示了本研究的主要发现以及与Lazareva等人[15]进行的研究的比较。 我们的发现对从业人员和开发者都有影响,并突出了未来开发和改进这些算法的关键考虑因素。 Literature survey Para_05 我们对12种基于网络的方法进行了全面的基准研究,这些方法分别是BioNet[17, 18]、ROBUST[12]、MuST[19]、RegMOD[20]、HotNet2[6]、层次化HotNet[10]、DOMINO[9]、DIAMOnD[21]、FDRnet[7]、NetMix2[13]、NetCore[11]和ClustEx[22](补充表2)。 这些方法的选择基于三个主要标准。 首先,更近期开发的方法被优先考虑。 其次,我们专注于那些将蛋白质相互作用网络(PPI网络)和从基因水平突变分析获得的P值作为输入,并产生一个潜在癌症通路的亚网络列表的方法。 第三,由于我们的实验具有广泛的计算需求,我们优先选择了与高性能计算平台兼容且配置要求最低的方法。 考虑到开发基于网络的方法的主要挑战是设计策略来有效整合基于基因的评分与PPI网络拓扑结构,我们将所选方法根据其整合策略分为五类:邻域基(DIAMOnD)、最大得分基(BioNet、ROBUST、MuST)、扩散基(RegMOD、HotNet2、层次化HotNet)、社区基(DOMINO)和混合方法(FDRnet、NetMix2、NetCore、ClustEx)。 接下来,我们简要讨论每个类别中的方法。 Para_06 基于邻域的方法:邻域结构是基于网络分析的一个基本方面。DIAMOnD 方法通过整合蛋白质相互作用网络中的邻域相互作用与基因得分来工作。 它从一组高分基因开始,并迭代地扩展这组基因。 在每次迭代中,如果新加入的基因与模块中已有的基因之间的连接数显著高于随机情况下的预期,则将新的基因添加到前一次迭代中识别出的疾病模块中。 该方法的一个显著局限性在于,在迭代扩展过程中不考虑基因得分。 因此,有可能将与癌症无关但具有连接性的基因纳入检测到的模块中。 Para_07 最大得分方法:在网络分析中,连通结构比邻域结构提供了更全面的视角,因为它考虑了一组基因之间的相互连接,而不仅仅是关注单个基因。 为了利用连通结构,最大得分方法识别蛋白质互作网络中的一个连通子网络,该子网络最大化总基因得分。 代表性方法包括BioNet、MuST和ROBUST。 通常,基因得分源自P值,子网络识别任务被形式化为组合优化问题,通常称为Steiner树问题[18, 23, 24]。 因此,此类方法可以采用各种技术来高效地发现解决方案。 然而,一个关键的限制是它们无法充分解决蛋白质互作网络的无标度特性。 由于许多基因通过大量的高阶节点相互连接,这些方法通常最终将大量与癌症相关的基因链接到一个大网络中,从而无法发现子网络结构。 Para_08 扩散方法:扩散过程提供了一种更有效的方法来利用网络的复杂拓扑结构,超越了简单的连通性分析。因此,开发了几种基于扩散的方法来解决无标度结构的问题。 基因评分被整合到扩散过程中,通过基因(例如RegMOD)或通过基因相互作用(例如HotNet2和分层HotNet)。 在完成扩散过程后,选择一个阈值以提取高分模块。 然而,选择适当的阈值是一个重大挑战。 HotNet2和分层HotNet使用耗时的、基于置换的技术来解决这个问题,而RegMOD则采用依赖于数据的、基于异常值的方法。 Para_09 社区化方法:社区检测是利用网络复杂拓扑结构的一种替代方式。在这个方法中,如DOMINO所示,整个PPI网络首先通过社区检测算法被划分为不同的社区。 随后,识别出富含高分基因的子社区。虽然社区检测问题已经得到了很好的研究,并且可以高效解决,但这种方法存在两个显著的缺点。 首先,社区检测的结果是静态的,无法通过后期分析进行更改。这种僵化意味着跨越多个社区的子网络可能不会被识别。 其次,由于基因评分在社区检测阶段没有使用,所识别的子网络通常包含许多低分基因,这可能导致包含许多与癌症无关的基因。 Para_10 混合方法:这一类方法包括FDRnet、NetMix2、NetCore和ClustEx,它们采用基于扩散的技术与其他方法的结合来整合网络结构与基因评分。 对于这些方法,初始步骤涉及一个扩散过程以利用网络结构,然后利用这些结果来指导亚网络的识别。 具体来说,FDRnet首先通过扩散生成局部图,然后在局部图内搜索一个最小化电导率得分的亚网络,该指标常用于社区检测。 类似地,NetMix2通过扩散构建图,然后识别一个最大化总基因得分的亚网络。 NetCore通过将基于扩散的显著性评分纳入到向亚网络添加基因的过程,增强了基于邻域的方法。 最后,ClustEx应用传统的聚类算法来处理基于扩散的相似性度量,从而识别集群。 Experimental protocol Para_11 为了评估基于网络的方法在检测癌症中显著扰动亚网络的表现,我们设计了一个实验协议,该协议使用了广泛的合成数据集。 图1概述了基准研究。 通常,基于网络的方法将一个蛋白质相互作用网络和一组合成的P值作为输入,并输出一系列亚网络作为潜在的癌症通路。 对于蛋白质相互作用网络,我们依赖于四个维护良好且常用的蛋白质相互作用网络,即BioGRID[25]、iRefIndex[26]、ReactomeFI[27]和STRING[28]。 对于STRING数据库,我们仅保留置信度得分≥0.9的高置信度相互作用,遵循STRING数据库提供的指南[28]。 这一策略也在先前的癌症研究中被采用[7, 8]。 图片说明
◉ 图1 指标研究概览。
Para_12 为了生成合成的P值,我们采用了两步过程。首先,我们在一个蛋白质相互作用网络中选择了目标亚网络,然后根据基因是否包含在目标亚网络中对所有基因采样P值。 为了选择具有生物学意义的目标亚网络,我们利用了两个手动整理的基因集数据库,它们具有不同的拓扑特征:Reactome [27],一个生物路径数据库,和CORUM [29],一个蛋白复合物数据库,其中的基因集通常更加密集连接。 我们首先从这两个数据库中提取已知的与癌症相关的亚网络。 然后,我们通过排除那些太小(少于10个基因)的基因集以及与其他基因集重叠过多(超过80%)的基因集来预处理这些亚网络。 我们只获得了有限数量的亚网络(来自CORUM的12个亚网络,来自Reactome的10个亚网络),这限制了我们分析的统计功效。 为了解决这个问题,我们将选择范围扩大到包括来自完整数据库的目标亚网络,包括与癌症相关的和一般的生物路径及蛋白复合物。 使用相同的预处理程序,我们分别从Reactome和CORUM数据库中获得了678个和97个基因集。 然后,我们随机抽取了10个基因集作为目标亚网络。 每次抽取过程对于每个数据库重复了五次,总共产生了10组目标亚网络,每组包含10个亚网络。 在"性能比较"部分,我们实证表明,无论使用与癌症相关的还是普通的生物路径作为目标亚网络,基于网络的方法表现相似。 因此,在后续评估方法对基因和亚网络某些拓扑特征潜在偏倚的分析中,我们仅关注使用普通生物路径得到的结果。 由于我们使用了ReactomeFI蛋白质相互作用网络,一个担忧是使用来自Reactome数据库的基因集作为目标亚网络可能会引入偏差。 在"性能比较"部分,我们实证表明,事实并非如此。 Para_13 给定一组目标亚网络,我们采用了一种信噪分解模型来为蛋白质相互作用网络中的所有基因生成P值。 具体而言,我们假设P值分布是由两种分布混合而成:信号分布(其中P值来自备择假设,即一个基因与癌症相关)和噪声分布(其中P值来自原假设,即一个基因与癌症无关)。 众所周知,来自原假设的P值遵循均匀分布U(0,1)。 在备择假设下,P值的分布特征是在接近零的值处密度较高,随着P值的增加而降低。 这种分布符合贝塔分布beta(a,1)的一种特定形式。 因此,对于每个基因,如果它位于目标亚网络中,我们从beta(a,1)采样它的P值;否则,我们使用U(0,1)。 在贝塔分布中,参数a决定了信号强度,较小的a对应较大的信号强度。 为了评估应用于具有不同信号强度的数据的方法的表现,我们从0.01到0.11以0.01为步长改变a的值。 为了最小化随机变化,对于每个a的值,我们重复采样过程10次。 这导致了用于测试的1100组P值。 使用不同的1100组P值组合和四个蛋白质相互作用网络,每种方法总共进行了4400次实验。 Para_14 除了模拟研究外,我们还使用来自TCGA研究的九种癌症的突变和拷贝数数据进行了实验,包括膀胱癌(BLCA)、乳腺癌(BRCA)、结直肠腺癌(COADREAD)、头颈鳞状细胞癌(HNSC)、肾癌综合队列(KIPAN)、肺腺癌(LUAD)、肺鳞状细胞癌(LUSC)、前列腺腺癌(PRAD)以及子宫内膜癌(UCEC)。 我们遵循[7]中描述的流程整合了突变和拷贝数数据,并计算了每个基因的P值。 我们在癌症实验中使用了四个蛋白质相互作用网络。 Para_15 我们根据原始论文中的建议为每种方法设置了参数。 对于需要预先定义的疑似癌症基因列表的方法(DOMINO、DIAMOnD、NetCore和ClustEx),我们对P值进行了经验贝叶斯分析[31],以估计单个基因作为假发现(即与癌症无关)的概率,并选择了概率低于指定阈值的基因。 在这项研究中,我们将阈值设定为0.1,这与FDRnet使用的默认阈值一致。 当特定方法没有提供默认参数时,我们手动为每个参数选择了一个范围,并进行了多次测试以探索不同参数设置的影响。 然后,我们使用了在比较中表现最好的参数设置。 Performance comparison Para_16 我们比较了这12种方法识别目标基因和亚网络的能力。 理想情况下,一个好的识别方法不仅应该能够识别正确的目标基因,还应该将它们置于正确的亚网络中。 此外,控制每个识别出的亚网络中非目标基因(即假阳性)的存在至关重要,以确保它们与亚网络识别任务的相关性。 为此,我们采用了三种度量标准。 首先,我们使用通过比较识别出的基因和目标基因计算得到的F分数来评估一种方法识别目标基因(即包括在目标亚网络中的基因)的能力。 其次,我们使用Fsub分数评估一种方法识别目标亚网络的能力,Fsub分数是F分数的一个自然扩展,在文献[7]中提出,并特别设计用于评价相对于目标亚网络而言的识别出的亚网络。 最后,为了衡量一种方法控制假阳性的能力,我们计算了识别出的亚网络的错误发现率(FDR),定义为识别出的亚网络中非目标基因的比例。 Para_17 首先,我们评估了每种方法在4400个测试数据集上的整体表现。 图2(a-c)展示了12种方法的F分数、Fsub分数和FDR随着信号强度参数a的变化情况。 正如预期的那样,对于F分数和Fsub分数而言,所有方法的表现随着信号强度减弱(即a值增加)而下降。 然而,这些方法的相对排名基本保持不变。 值得注意的是,在F分数方面,一组方法(FDRnet、MuST、BioNet、ROBUST、NetMix2、DIAMOnD、NetCore)显著优于其他所有方法。 然而,在Fsub分数方面,除了FDRnet之外,这些方法表现较差。 尽管在识别单个基因方面有效,但这些方法在准确确定亚网络结构方面存在困难。 事实上,它们倾向于将识别出的基因连接成少数几个亚网络,通常导致一个比例过大的亚网络(参见补充表3)。 进一步检查发现,虽然一些方法在某个水平上持续控制FDR(FDRnet、BioNet、NetMix2、层次HotNet、HotNet2),但四种方法(DIAMOnD、DOMINO、RegMOD和ClustEx)在控制FDR方面似乎效果较差。 值得注意的是,在我们的评估中,DOMINO在所有三个指标上表现不佳。 这可能是因为该方法首先将PPI网络划分为社区,然后在每个检测到的社区内识别亚网络。 虽然这种方法可以产生功能上紧密相关的群体,但在目标亚网络与预定义社区不一致的情况下,它可能无法很好地工作,可能导致包含许多非目标基因并形成次优亚网络。 基于上述结果,我们得出结论:虽然许多方法能够有效地识别单个基因,但如果同时考虑基因和亚网络识别,应首先考虑使用FDRnet。 图片说明
◉ 图2 比较了使用不同信号强度参数(范围从0.01到0.11)生成的测试数据集上的12种方法。(a)F分数。(b)Fsub。(c)FDR。在某些情况下,得到的FDR非常接近零(hHotNet:a = 0.01到0.08,HotNet2:a = 0.01到0.07,FDRnet:a = 0.06到0.11)或全为1(ClustEx和RegMOD:a = 0.01到0.11)。hHotNet:分层HotNet。◉ hHotNet:分层HotNet。
Para_18 我们进行了一项实验,在该实验中,我们将基于网络的方法应用于从Reactome和CORUM数据库中提取的与癌症相关的亚网络,并报告了F分数、Fsub分数和FDR(补充图1)。 我们发现,无论使用的是与癌症相关的还是通用的生物通路作为目标亚网络,所有方法的表现都大致相同。 具体来说,同一组方法在F分数方面显著优于所有其他方法;而FDRnet在Fsub分数方面表现最佳。 这一结果表明,通用的生物通路可以作为评估方法性能的合适替代物,用于与癌症相关的通路。 因此,我们将在后续分析中使用来自通用生物通路的结果,因为大量的实验允许更可靠地检测方法性能的真实差异,从而得出稳健且可推广的结论。 Para_19 我们进一步验证了我们在九种癌症中获得的突变和拷贝数数据中的观察。 对于BioNet,它无法拟合P值的分布,因此无法生成任何结果。 对于其他方法,由于没有确切的真值信息来计算精确的FDRs,我们使用[7]中描述的基于局部FDR的程序来估计识别的亚网络的FDRs(补充图2)。 根据估计的FDRs,我们将三个方法排除在性能评估之外——DIAMOnD(0.78)、RegMOD(0.91)和ClustEx(0.94),因为它们的平均FDRs超过了0.5,表明它们的结果中包含了太多无关基因。 对于其余的方法,我们使用CORUM和Reactome数据库中的癌症相关亚网络作为代理标准,间接评估这些方法在F分数和Fsub方面的表现(补充图3)。 我们发现,尽管不同癌症之间的结果有所变化,但基于合成数据得出的结论仍然基本有效。 例如,FDRnet、MuST、ROBUST和NetCore在大多数情况下获得了最高的F分数。 除了FDRnet外,所有方法在Fsub评分方面表现都很差。 这些发现进一步证实了FDRnet在合成数据和真实数据集中的有效性,突显了它在准确识别与癌症相关的亚网络方面的优越性。 Para_20 接下来,我们检查了当目标亚网络从两个不同的数据库中提取时,12种方法的表现。 图3(a和b)展示了12种方法应用于测试数据集时获得的F分数和Fsub分数,其中目标亚网络来自CORUM或Reactome数据库(a=0.01)。 首先,我们可以看到使用两种数据库获得的F分数和Fsub分数对于每种方法都有所不同。 然而,方法的相对排名保持不变。 这表明没有一种方法因为使用特定类型的目标亚网络而获得不成比例的优势。 此外,对于大多数方法,使用CORUM或Reactome数据库获得的F分数没有显著差异,这表明目标基因的识别不受源数据集的显著影响。 然而,对于表现最好的FDRnet(在Fsub分数方面),我们注意到它在CORUM上的性能明显优于在Reactome上的性能(平均Fsub分数:0.7对0.55;P值<0.0001,双尾t检验)。 鉴于来自Reactome数据库的目标亚网络通常比来自CORUM数据库的亚网络连接更稀疏,这一观察结果突显了现有算法在检测类似路径的亚网络时需要改进。 有关可能的算法发展方向的详细讨论,请参见"讨论与结论"部分。 图片说明
◉ 图3 比较应用于检测来自两个不同数据库的靶标亚网络的12种方法在四个不同的蛋白质相互作用网络中。(a和b)当靶标亚网络源自CORUM或Reactome数据库时获得的F分数和Fsub分数。(c和d)当使用四个不同的蛋白质相互作用网络时获得的F分数和Fsub分数。hHotNet:分层HotNet。◉ hHotNet:分层HotNet。
Para_21 我们还调查了当使用不同的蛋白质相互作用网络时,这12种方法的表现。 图3(c和d)报告了应用于四种蛋白质相互作用网络(a = 0.01)的各种方法的F分数和Fsub分数。 对于大多数方法而言,就F分数而言,使用不同蛋白质相互作用网络获得的性能差异不大,其中BioGRID和iRefIndex显示出稍微更好且更稳定的结果(例如,对于FDRnet,在BioGRID上为0.87(0.019),在iRefIndex上为0.86(0.025),在ReactomeFI上为0.85(0.043),在STRING上为0.83(0.051))。 然而,对于某些基于扩散的方法(例如NetMix2和HotNet2),观察到了相反的趋势。 一个可能的解释是,这些方法依赖于基因识别的密集连接结构,而这种结构在ReactomeFI和STRING网络中比在其他两个网络中更为普遍。 这一结果也得到了Fsub分数的支持,在这里我们观察到所有使用ReactomeFI和STRING并且能够识别多个子网络的方法(例如FDRnet和HotNet2)表现更好。 上述观察表明,这四个蛋白质相互作用网络具有不同的拓扑结构,可能会对检测方法的性能产生影响。 这促使我们对拓扑偏差进行深入分析,详见"子网络的拓扑特征对检测率的影响"部分。 Para_22 最后,我们检查了是否从Reactome数据库构建的目标子网络在ReactomeFI蛋白质互作网络中引入了任何偏差。补充图4显示情况并非如此。 只有对于FDRnet,使用ReactomeFI获得的结果在Fsub得分方面优于使用其他蛋白质互作网络获得的结果,但这差异并不具有统计学意义(ReactomeFI上为0.62(0.08),STRING上为0.60(0.06);双尾t检验P值=0.16)。 Impact of topological features of genes on detection rates Para_23 我们的基准框架使我们能够研究基因的拓扑特征如何影响其被检测到的机会。 为此,对于目标亚网络中的每个基因,我们在一个蛋白质相互作用网络中计算了该基因的拓扑特征(例如度数),并计算了其在实验中的检测率,并进行了回归分析以揭示检测率与拓扑特征之间的关系。 在这项研究中,我们使用了四种广泛认可的拓扑特征,即度数(与其他节点的相互作用数量)、介数中心性(衡量在网络中每对节点之间的最短路径上某个节点出现的频率的一种度量)、特征向量中心性(衡量网络中一个节点影响力的度量)和聚类系数(衡量网络中节点倾向于聚集在一起的程度)[33]。 我们应该指出的是,除了度数之外,由于过去的研究依赖于基于置换的程序,在这种程序下很难生成具有特定拓扑特征的节点的网络,因此对其他特征的分析在过去是不可行的。 为了计算一个基因的检测率,我们统计了该基因被检测到的次数,并将其归一化为该基因被包含在一个目标网络中的实验次数。 对于回归分析,我们采用了Lowess算法[34],因为它具有高效性和鲁棒性。 Para_24 我们从分析度数开始,这是网络分析中的一个基本拓扑特征。已有文献充分证明现有的蛋白质相互作用网络受到技术偏差的影响(饵蛋白通常表现出更多的相互作用)[35]和文献偏差的影响(功能特征良好的蛋白质更常被研究)[36]。因此,一些蛋白质可能被不恰当地表示为具有较高的度数[37],并且更有可能被检测到。因此,有人建议显式或隐式地惩罚高程度基因,从而降低它们被检测到的概率。 图4展示了在一个包含BioNet、HotNet2、DIAMOnD、DOMINO、NetCore、NetMix2和FDRnet七种方法的四个蛋白质相互作用网络之一中,基因的检测概率与其度数之间的关系。由于方法上的相似性,BioNet被选为代表三种基于最大分数的方法。同样地,HotNet2被选来代表自身和层次化的HotNet。由于ClustEx和RegMOD的平均F分数低于0.1,我们排除了这两种方法的分析。 从视觉上看,观察到的模式可以分为两类:DOMINO和HotNet2呈现出陡峭的下降趋势(第1类),而FDRnet、BioNet、NetMix2、NetCore和DIAMOnD则呈现出几乎平坦或轻微下降的趋势(第2类)。对于第1类中的方法,我们可以看到随着度数的增加,检测概率接近于零。这表明这些方法可能无法识别具有高程度的重要癌症基因。 尽管第2类中方法的观察模式类似,但仔细检查检测到的亚网络后发现,除了FDRnet之外,所有其他方法倾向于通过高程度枢纽基因将所有检测到的基因分组到仅一个或少数几个亚网络中(见补充表3),导致较低的Fsub分数(图2b)。相比之下,通过最小化电导率得分,FDRnet隐式惩罚高程度基因,但如果这些基因发生显著突变,则仍保持较高的检测概率。 这也解释了为什么当使用ReactomeFI和STRING网络时,FDRnet的检测概率没有随着度数的增加而显著下降。正如在"亚网络的拓扑特征对检测率的影响"一节中稍后展示的那样,与BioGRID和iRefIndex相比,相同的亚网络在ReactomeFI和STRING中可能表现出更为社区化的结构。因此,在ReactomeFI和STRING中惩罚力度不如在BioGRID和iRefIndex中严格,允许高程度基因有更高的检测概率。 图片说明
◉ 图4 在四个蛋白质相互作用网络之一中,七种方法对每个基因的检测概率作为其度的函数。每个点代表一个基因,黑线由回归分析确定。◉ Each dot represents a gene, and the black line was determined by the regression analysis.
Para_25 关于其他拓扑特征,我们预计会有类似的行为,因为这些度量与度数高度相关[38]。 这确实是中间中心性的案例(补充图5)。 对于聚类系数,我们注意到,在第一类方法(即DOMINO和HotNet2)中,对高程度节点施加惩罚的方法,其检测概率随着程度的增加而增加(补充图6)。 根据定义,给定基因的聚类系数量化了其邻居形成高度连接集群的程度[39]。 观察到的模式表明,这些方法更倾向于选择密度较高的网络区域中的基因,这是对具有高程度的节点施加惩罚的预期结果。 因此,该模式也与观察到的度数模式一致。 然而,对于特征向量中心性,当使用BioGRID和iRefIndex作为输入蛋白质相互作用网络时,虽然大多数方法的结果总体上与度数结果一致,但当使用ReactomeFI或STRING时,出现了显著差异(图5)。 具体而言,对于具有高特征向量中心性的基因,HotNet2的检测概率并未随中心性的增加而下降,而对于DOMINO和DIAMOnD,检测概率甚至有所增加。 为了理解这一现象,我们检查了四个蛋白质相互作用网络中程度和特征向量中心性之间的相关性(补充图7)。 尽管BioGRID和iRefIndex在这两种度量之间显示了明显的线性相关性,但在ReactomeFI和STRING中,有些基因的度数较低但特征向量中心性较高。 根据特征向量中心性的定义,这些低度基因通常与一些高程度基因相连[40]。 这种联系表明,尽管是间接的,它们在蛋白质相互作用网络中的位置受到了程度偏差的显著影响。 因此,研究人员在设计算法来抵消程度偏差时,应考虑到这种间接影响。 图片说明
◉ 图5 在四个蛋白质相互作用网络之一中,每种基因通过七种方法检测的概率与其特征向量中心性的函数关系。◉ ,
Impact of topological features of subnetworks on detection rates Para_26 最后,我们检查了蛋白质相互作用网络中亚网络的拓扑特征如何影响其被每种方法检测到的机会。 类似于对单个基因的分析,我们计算了目标亚网络的检测率和拓扑特征,并进行了回归分析以确定它们之间的统计关系。 遵循一项开创性研究[41],我们选择了四个亚网络拓扑特征:可分离性(测量为亚网络的内部与外部边的比例[42]),密度(亚网络中实际边与可能边的比例[43]),凝聚力(使用电导分数;计算为亚网络中外向边与内向边的比例[44]),以及聚类(通过亚网络中节点的平均聚类系数测量[39])。 为了确定目标亚网络的检测概率,我们利用F分数来考虑识别出的亚网络中的部分覆盖和假阳性。 具体来说,我们计算了目标亚网络与每个识别出的亚网络之间的F分数,并将最高分作为检测比例。 然后,通过归一化所有包含该亚网络作为目标的数据集上这些检测比例之和,计算给定亚网络的整体检测概率。 再次,我们采用了Lowess算法进行回归分析。 Para_27 图6展示了通过四种方法(FDRnet、HotNet2、DOMINO、层次化HotNet)应用于四个PPI网络获得的检测概率与四种拓扑特征之间的回归结果。我们排除了那些平均Fsub分数较低的方法(ClustEx和RegMOD,参见图2(b)),以及那些无法识别亚网络结构的方法(MuST、BioNet、ROBUST、NetMix2、DIAMOnD、NetCore,参见补充表3)。 回归结果显示,这四种方法更倾向于检测具有高可分离性、高密度、高凝聚力(低电导率)和高聚类系数的亚网络。这表明这四种方法显著偏向于识别社区型结构,也称为拓扑模块。 然而,先前的研究警告称,尽管疾病模块通常与拓扑模块重叠,但它们并不相同[16];疾病模块是疾病相关基因的局部簇,而拓扑模块则是不考虑疾病关联的基因的局部簇[16]。 因此,在未来的算法开发中,考虑这一区别对于提高识别疾病模块的准确性至关重要。 图片说明
◉ 图6 子网络的检测概率随着其拓扑特征(包括可分性、密度、电导率和聚类指标)变化的函数。每个点代表一个子网络,黑色线条由Lowess回归分析确定。HotNet:分层HotNet。◉ hHotNet:分层HotNet。
Para_28 我们的分析解释了为什么FDRnet的表现当亚网络来自不同的数据库时有所不同,如图3(b)所示。 为此,我们检查了从Reactome和CORUM数据库衍生出的亚网络的四个拓扑度量的分布(补充图8)。 值得注意的是,CORUM数据库中的亚网络密度分布集中在0.5左右,而Reactome数据库中的亚网络密度分布明显偏向低端。 因此,由于FDRnet更偏好高密度的亚网络(图6),对CORUM数据库的更好表现是可以预期的。 Para_29 我们的分析还解释了为什么使用不同的输入PPI网络时,现有方法的表现不同,如图3(c和d)所示。 补充图8中的一个关键观察是,在大多数情况下,相同目标亚网络的拓扑特征在ReactomeFI和STRING中表现出更平坦的分布,与在BioGRID和iRefIndex中的相比。 这表明ReactomeFI和STRING中的亚网络更倾向于形成类似社区的结构,而BioGRID和iRefIndex中的则不然。 由于我们已经证明类似社区的结构更容易被检测到,因此可以合理地得出结论,使用ReactomeFI或STRING作为输入PPI网络更有可能提高Fsub得分。 Discussion and conclusion Para_30 我们的研究表明识别癌症基因和亚网络的复杂性,这一任务受到多种因素的影响。 这些因素不仅包括检测算法的选择,还包括输入的蛋白质-蛋白质相互作用(PPI)网络以及目标基因和亚网络的结构特征。 对于旨在识别癌症基因和亚网络的研究人员,我们的发现支持几项建议。 首先,选择检测算法至关重要。 我们的数据显示,不同方法之间的性能可能有显著差异。 对于那些仅关注基因识别的人来说,基于最大评分的方法已被证明特别有效,因为它们在区分单个基因方面具有很高的准确性。 然而,由于它们不对高阶基因进行惩罚,因此存在结果受PPI网络构建偏差影响的风险。 对于旨在同时识别基因和亚网络的任务,FDRnet在各种设置中始终表现最佳。 其次,选择输入的PPI网络不应被忽视。 不同的PPI网络,根据不同的数据源和原则构建,具有独特的拓扑结构。 这对于亚网络识别尤为重要,因为我们测试的所有方法倾向于偏好社区型亚网络。 在这种情况下,我们推荐使用ReactomeFI和STRING网络,因为映射到这些网络的亚网络更有可能表现出社区型结构。 最后,对目标基因或亚网络有一些先验知识或假设是有利的。 例如,如果要检测的目标亚网络更像信号通路而不是蛋白质复合物,则性能往往会下降。 鉴于FDRnet——在这两种类型的数据上表现最好的方法,在蛋白质复合物上的Fsub得分高于通路,这一点尤为相关。 此外,如果预计一些高阶基因在疾病中发挥重要作用,那么HotNet2和DOMINO等方法可能不合适,因为即使在基于基因的分析中显示出与疾病显著关联,它们也倾向于排除这些基因。 相比之下,FDRnet对高阶基因施加软惩罚,从而缓解了上述问题。 展望未来,该领域算法的发展有几个令人兴奋的方向。 首先,我们的结果显示现有方法在非社区型亚网络上的表现不佳,如在Reactome通路数据库中找到的。 我们对拓扑偏差的分析表明,这种限制是因为所有现有方法都倾向于偏好社区型结构。 鉴于疾病模块和拓扑模块并不相同,迫切需要开发能够更好地识别非社区型亚网络的算法。 探索除社区型以外的其他拓扑特征可能会对目标亚网络的表征产生更深刻的见解。 例如,通路结构可能在减轻基因突变的破坏效应、保持生物系统稳健性方面发挥重要作用。 其次,我们的研究结果强调克服度数偏差仍然是一个持续的挑战。 这凸显了需要制定策略,能够有效地惩罚高阶基因,而不仅仅是不公平地排除它们。 除了度数之外,特征向量中心性也值得关注,因为它提供了关于一个基因对其连接模式影响的更为复杂的视图。 未来的算法开发应纳入这一指标,以确保度数偏差得到适当处理。 Para_31 总的来说,我们提出了一项全面的子网络识别方法基准研究,采用了基于真实情况的方法。 我们预计这些结果将指导适当方法的选择用于癌症通路识别,并激发新算法的发展。 虽然我们的基于真实情况的策略提供了一个实用的基准框架,但重要的是要认识到它引入了固有的偏差,这种偏差源于从通用数据库中选择目标子网络以及对与癌症相关的子网络了解不完全。 尽管如此,我们的方法提供了一个有效的参考点,我们精心挑选的数据库很可能代表了可能在癌症进展中起作用的子网络。 在未来的工作中,我们将扩展这项基准研究,包括更多的方法和各种类型的网络。 Acknowledgments Para_32 作者感谢匿名审稿人提出的宝贵建议。 Author contributions Para_33 杨乐(概念化, 调查, 正式分析, 写作审查与编辑), 陈闰普(正式分析, 写作审查与编辑), 史蒂夫·古迪森(正式分析, 写作审查与编辑), 和孙一骏(概念化, 正式分析, 写作审查与编辑) Para_34 利益冲突:无声明。