去卷积是根据各种组学数据估计细胞类型丰度的有效方法。尽管近年来去卷积分析方法取得了重大进展,但挑战仍然突出。2024年2月,《Nature Methods》发表Perspective,探讨基因组学数据去卷积分析的挑战,同时从计算角度提出解决这些问题的建议。
破译每种组织的实验方法既昂贵又耗时,而且仅限于某些类型的细胞,而且即使在检测到的细胞类型中也会受到杂质的影响。为了克服这些问题,被称为“细胞型去卷积”的替代计算过程已经成为基因组学领域的一个重要研究方向。去卷积旨在估计异质混合样本中不同细胞类型比例的计算技术。在数学上,计算去卷积的问题可以表述为E = S × C。E 是大量组织级特征表示矩阵,可通过将表示细胞类型特异性特征的参考矩阵 S 乘以细胞类型比例矩阵 C 来建模。这种广义矩阵分解过程可以通过确定性线性模型、概率模型或深度学习方法来求解。许多基因组学数据类型受益于这样的计算进步,如基因表达、表观遗传学和空间组学。
各种基因组学数据类型中的去卷积分析概述和相关挑战
* 尽管不同组学的基本计算原理相似,本文根据矩阵E中的数据类型重点关注计算去卷积方法的三个主要组学应用:大量组织基因表达、DNA 甲基化、空间转录组学(ST)数据。对于对其他组学的去卷积方法感兴趣的读者,请参阅其他研究。
与去卷积相关的四个重要挑战
挑战1:参考数据质量
去卷积在很大程度上依赖于以参考矩阵S为形式的单个细胞类型特征图谱的可用性和准确性。理想的参考应包含感兴趣样品中存在的所有细胞类型,包括在相对较高且平衡的数量的细胞类型之间具有大倍数变化的标记特征。由于细胞类型固有的复杂性、标记的非特异性以及分离它们的技术难度,通过实验或计算生成此类参考矩阵具有挑战性。同一组织的reference之间的不一致是另一个常见问题,尤其是基因表达数据。
挑战2:ground truth数据生成
Ground truth是评估去卷积方法性能的基础。细胞类型比例的bulk转录组学和DNA甲基化基本事实可以通过实验或计算生成。在这两种方法中,实验方法无疑更接近于基本真相;然而,从实体组织标本中生成此类数据的程序却极具挑战性。
挑战3:计算方法的局限性
转录组学:与不基于参考的方法相比,基于参考的方法占现有转录组学的去卷积方法的大多数。CIBERSORT 和 CIBERSORTx 通常得到更积极的推荐,其次是 MuSiC 和 EPIC。但值得注意的是基准研究中也缺乏共识,这使得在特定条件下应使用哪些工具或方法的问题仍然悬而未决。
不同基准研究之间缺乏一致性
DNA 甲基化:早期的计算去卷积方法通常是针对芯片平台生成的数据而设计的,基于参考的方法MethylResolver、CIBERSORT等,还有refreeewas、BayesCCE和TOAST等无参考的方法,以及refreecellmix等半无参考的方法。针对基于测序的DNA甲基化数据,已经发表了多种去卷积方法,包括MethylPurify、Bayesian epiallele detection、PRISM、csmFinder + coMethy、ClubCpG和DXM。
空间转录组:在常用的调查方法中,基于reference的方法往往比无reference的方法做得更好。迄今为止的共识是cell2location、RCTD和stereoscope是普遍较好的方法,其次是spatialDWLS。然而,其他推荐的方法各不相同,许多现有的去卷积方法仍未在基准研究中进行测试。基准结果不一致的原因是多方面的,包括不同的参考数据集、测试数据集、金标准和评估指标。
不同空间转录组学基准研究之间的比较
挑战4:基准设计与实施
已经进行了多项基准研究,以指导用户选择工具;然而,尽管评估了相同的工具,其中一些研究给出了不一致的建议。缺乏共识可能是由于多种原因造成的,包括计算算法、参考数据和评估指标。此外,输入数据的预处理步骤,如数据转换和归一化过程,也可能影响去卷积性能。
从计算角度解决上述挑战的建议
关于高质量参考数据生成的建议
在去卷积方法学发展的早期阶段,不同的计算方法使用不同的参考数据集,因此这些方法之间的性能差异可能主要是由所使用的参考数据集的质量而不是去卷积算法本身造成的。随着 scRNA-seq 技术的发展,组织级和器官级图谱正在成为新的参考数据集来源。虽然可测量的细胞类型很全面,但不同研究的 scRNA-seq 图谱往往存在差异,而且原始研究对细胞类型的注释也不尽相同。在最近发表的《人类肺细胞图谱》 中,作者整合了来自 49 个数据集的 486 个捐赠者的 240 万个细胞数据,这需要广泛收集元数据、开发数据整合基准方法,以及结合计算和人工方法来优化细胞注释。未来的研究也需要类似的大量工作,以确保参考数据的质量和真实性。
此外,撇开研究的其他实际考虑因素(如样本条件)不谈,哪种基因组学数据类型的来源可作为最佳参考尚不清楚。是scRNA-seq 数据、bulk RNA-seq 数据、bulk DNA 甲基化数据,还是它们的组合?要回答这个问题,需要整个研究领域的努力。Tumor Deconvolution DREAM Challenge就是一个代表,首次尝试创建表达去卷积的标准化数据集和基准标准。更重要的是,在数据生成过程中使用标准实验方案从相同的组织和样本中生成各种类型的基因组学参考数据集时,通过联盟组织将起到关键作用。已经建立了一些社区和联盟来完成部分任务,如Human Cell Atlas, Human BioMolecular Atlas Program和BRAIN Initiative Cell Census Network。
与细胞类型去卷积相比,本文的重点是解读细胞状态(或表型)或“生态型”的最新概念,这更为复杂和富有挑战性。需要特定的细胞状态库来成功地解决这个问题。
关于计算方法新方向的建议
随着单细胞基因组学的不断进步,使用单细胞参考的计算方法可能会在提高去卷积的准确性和稳健性方面显示出优势。大多数基于转录组学和DNA甲基化的去卷积方法使用传统的统计方法来解决去卷积的线性混合模型。鉴于有大量可用的大规模 omics 数据(如 scRNA-seq 生成的数据),可以考虑采用更稳健的方法,如基于神经网络的模型。此外,鉴于每种 omics 数据类型的所有数据集似乎都不存在通用的最佳表现方法,因此可以探索用于一般目的的集合方法,如最近报道的EnsDeconv。需要针对罕见细胞类型和/或连续亚型的去卷积方法,对其检测灵敏度和稳健性进行全面评估,不管是RNA-seq、DNA 甲基化还是空间组数据。
由于缺乏高质量数据,对大量组织 DNA 甲基化数据进行细胞类型去卷积是一个需要更多关注的领域。相对于DNA甲基化和基因表达等大量基因组学数据,空间转录组学数据的去卷积方法由于几个原因而更加复杂。与基因表达或DNA甲基化不同,在去卷积斑点时需要考虑空间邻域效应。此外,与大量基因表达或甲基化数据中的数千至数百万个细胞相比,每个位点测量的细胞更少,由于dropout事件,可能无法检测到低表达基因,预计空间转录组学数据中会有更多噪声。与批量数据样本中的全转录组或全基因组覆盖率相比,这种缺失使准确估计每个位点的细胞类型比例变得更具挑战性。当通过不同的技术平台测量时,不同细胞类型之间的技术差异还没有被量化。大多数考虑到平台效应的去卷积方法都假定每个平台对不同细胞类型的影响大小相同。虽然单一的去卷积方法不可能在所有平台上都表现最佳,但未来选择去卷积方法时需要考虑在特定平台上的通用性与专用性。
关于促进严格制定基准的建议
基准测试方法应该包含足够的灵活性,以便进行公平的比较,同时限制干扰性能比较的预处理步骤的变化。此外,评估指标应反映主要关注点和所研究的参数,以及基准数据集的选择。其他次要指标,如计算要求、文档质量和安装说明等,也应从用户角度进行评估。为了做到全面,基准测试应包括来自不同技术平台(如芯片和测序平台)的目标数据集。细胞类型鉴定还可受益于单细胞多组学和空间多组学的最新进展,整合互补数据可提高检测灵敏度,实现细胞类型的交叉验证。在得出一致结论时,还应考虑真实的生物数据集和模拟数据,因为每种数据集都有其独特的优缺点。应该开发更现实的模拟方法来捕捉数据类型的关键特征。例如,空间转录组学模拟应捕捉空间背景,如不同空间邻域的不同细胞类型组成以及整个组织中基因表达和细胞密度的空间变化。模拟方法可以受益于先进的生成算法和使用高质量的基准数据集。
除了向软件开发人员和用户提供建议外,基准研究还需要前瞻性。为了实现更好的可访问性,并允许研究界在开发新方法时建立在现有评估的基础上,以可重复的方式(如R包或Conda环境)介绍数据预处理、去卷积方法实施和指标评估将非常有帮助。为了将新方法纳入现有的基准研究,DECONBench、pipeComp和CellBench等软件是理想的。对于数据传播,Snakemake或Docker等平台应该考虑打包基准流程,以便社区可以重用数据集和方法。