Basic Information 英文标题:A cell atlas foundation model for scalable search of similar human cells 中文标题:一种用于可扩展搜索相似人类细胞的细胞图谱基础模型 发表日期:20 November 2024 文章类型:Article 所属期刊:Nature 文章作者:Graham Heimberg | Aviv Regev 文章链接:https://www.nature.com/articles/s41586-024-08411-y Abstract Para_01 迄今为止,单细胞RNA测序已经对多个器官、疾病、发育和扰动中的数亿个人类细胞进行了分析。 挖掘这些不断增长的图谱可以揭示细胞与疾病之间的关联,识别出在意外组织背景下的细胞状态,并将体内的生物学与体外模型联系起来。 这需要一种跨身体的通用细胞相似性度量标准,以及一种高效的搜索方法。 在这里,我们开发了 SCimilarity,这是一种度量学习框架,用于学习一个统一且可解释的表示形式,使得能够从各种研究中的数千万个细胞谱系中快速查询与输入细胞谱系或状态转录上相似的细胞。 我们使用SCimilarity查询了一个包含412个单细胞RNA测序研究的2340万个细胞图谱,寻找特发性肺纤维化中的巨噬细胞和成纤维细胞谱系,并揭示了其他纤维化疾病和组织中的相似细胞谱系。 对于巨噬细胞查询,评分最高的体外命中是一个3D水凝胶系统,我们通过实验验证了该系统能够再现这种细胞状态。 SCimilarity作为单细胞谱系的基础模型,使研究人员能够在整个人体范围内查询类似的细胞状态,为从人类细胞图谱中生成生物洞见提供了强大的工具。 Main Para_01 超过一亿个单细胞已经通过单细胞(scRNA-seq)或单核(snRNA-seq)RNA测序分析在稳态、疾病和实验干扰条件下进行了分析。 通过比较数百项研究中的细胞特征,研究人员可以在不同的发育阶段、组织或疾病之间,或者在人体和体外实验室模型之间连接细胞状态。 尽管有这些前景和快速的数据增长,当前的模型并不适用于在大规模数据库中搜索相似的细胞特征。 跨数据集、全身分析受到数据集整理和标准化挑战、难以定义不同数据集之间的共同低维表示、缺乏原则性的方法来比较细胞特征以及没有搜索完整细胞特征的方法的限制。 因此,大多数汇总工作范围有限,尽管最近有一些例外情况。 这些例外包括4、5、6、7引用的研究。 Para_02 为了利用和查询单细胞图谱的巨大规模和丰富性,我们需要(1)一个基础模型来表示细胞状态,该模型能够有效表示单细胞谱,适用于各种应用而无需重新训练;以及(2)一种对技术噪声具有鲁棒性的细胞相似性度量,能够扩展到数亿个细胞,并能推广到训练期间未观察到的数据集和细胞状态。 无监督方法,例如主成分分析或自动编码器,忠实保留了输入的信息,但没有学习到可以编码细胞及其之间相似性的通用特征,这些特征对于查询新数据集是必要的。 相反,其他机器学习方法,特别是在图像处理领域,成功地学习了不同实体及其相似性的表征。 特别是,用于面部识别的度量学习模型被训练将图像嵌入到一个低维空间,在该空间中相同人的图像比不同人的图像更接近。 用户使用不在训练集中的图像查询经过训练的模型,以找到嵌入空间中相邻且描绘同一个人的其他图像。 类似地,度量学习可以通过使用注释的sc/snRNA-seq数据训练模型,学习一个低维表示,使相似的细胞谱接近而不同的细胞谱远离,从而为细胞之间的相似性提供有意义的度量。 如果从足够多样化的细胞谱中学习,这种表示应该提供一个基础模型,使得可以高效搜索具有相似表达状态的细胞(图1a)。 Fig. 1: SCimilarity metric learning enables cell search in large human scale atlases.
- 图片说明
◉ 左图,查询细胞谱系与来自412项研究的2340万份参考基础模型进行比较。◉ 中间图,识别出具有相似细胞的样本,并返回有关原始样本条件的信息,包括组织、体外或疾病背景。◉ 右图,在组织样本中的每个细胞与查询细胞之间计算SCimilarity得分。◉ b, 三元组损失训练。◉ 左图,使用来自全身的56个训练集和15个测试集以及Cell Ontology注释作为输入。◉ 中间图,根据Cell Ontology注释抽取细胞三元组,每个三元组包含一个锚定细胞(A),一个正细胞(P,与锚定细胞相似)和一个负细胞(N,与锚定细胞不同)。◉ 仅允许无歧义的关系。◉ 右图,三元组用于训练神经网络,该网络将相似细胞嵌入到比不相似细胞更近的位置,形成基础模型。◉ Treg,调节性T细胞。◉ 损失函数通过细胞三元组、重构的锚定细胞谱系(Â)和加权参数(β)来计算,以平衡三元组损失(Ltriplet)和均方误差损失(LMSE)。
Para_03 这里我们介绍了SCimilarity——一种深度度量学习基础模型,它可以量化单细胞谱之间的相似性,并提供一个单细胞参照来查询跨组织和疾病的可比较细胞状态。 我们通过搜索一个包含2340万个细胞的学习参考集来展示SCimilarity的强大功能,该参考集来自间质性肺病(ILD)1中巨噬细胞和成纤维细胞亚群的查询谱。 这展示了SCimilarity如何提供一个强大的框架,用于跨器官、系统和条件进行可扩展的细胞搜索,从而从人类细胞图谱中生成生物学见解和可实验验证的假设。 A similarity metric for scRNA-seq Para_01 SCimilarity通过同时优化两个目标将无监督表示学习和有监督度量学习融合在一起:(1)一个用于嵌入匹配细胞类型的表达谱,使来自不同研究的相同类型细胞聚集在一起的有监督三元组损失函数13,14,15;以及(2)一个无监督均方误差(MSE)重构损失函数,该函数鼓励模型保留输入表达谱的变化,捕捉同一类型细胞内表达模式的细微差异(图1b和方法)。增加重构损失的相对权重可以提高查询性能,而增加三元组损失的相对权重则可以改善数据集整合指标的表现16。我们专注于单一模型(β = 0.001),该模型最佳地结合了查询敏感性和整合性能(下文)。 Para_02 我们使用从带有作者提供的标准化细胞类型注释的数据中抽取的数千万个细胞三元组训练了SCimilarity(图1b和方法部分)。 每个三元组由一个锚点、一个正样本细胞和一个负样本细胞组成:锚点细胞和正样本细胞是来自不同研究的相同细胞类型(即,同一种细胞类型)的相似细胞,而锚点细胞和负样本细胞则是不相似的(即,不同的细胞类型;来自同一项研究或不同研究)。 即使使用标准化的细胞本体术语,由于注释粒度的差异,某些细胞类型的比较仍然是模糊的(例如,在一项研究中标注为‘T细胞’而在另一项研究中标注为‘CD4+ T细胞’的细胞是否相似或不相似并不明确)。 因此,SCimilarity排除了那些具有垂直的、祖先-后代关系的正负标签的三元组,并且仅从那些明确相似或明确不相似的细胞中学习(图1b和方法部分)。 这消除了手动展平或协调每种细胞类型注释的需要,并且能够无缝地扩展训练集跨研究进行。 Training on a large, diverse atlas Para_01 为了测试SCimilarity框架,我们汇集了跨越人类生物学的sc/snRNA-seq数据集。 我们重点关注使用一种实验平台(10x Genomics Chromium滴定板sc/snRNA-seq)生成的研究,主要来源于基因表达概览(GEO)18或CELLxGENE19。 这些数据采用相似的文库制备协议和计算预处理流程20。 截至2021年3月23日,共有753个数据集符合我们的标准。 从2018年12月至2021年3月,符合我们标准的样本和细胞数量每六个月至少翻一番(扩展数据图1a、b)。 我们程序化地下载了来自333项研究的13,401,599个细胞谱系及其相应的GEO元数据和未经标准化的基因计数矩阵(方法和补充表1), 手动整合了另外66项研究,这些研究来自CELLxGENE19或其他大型研究和财团(方法), 形成了一个包含412项研究的语料库,其中包括来自5,142个组织样本的23,381,150个细胞,涉及184个独特的组织学术语21和132个疾病学术语22(图2、扩展数据图1c和补充表1)。 Fig. 2: SCimilarity learns a universal representation that generalizes to new datasets.
- 图片说明
◉ 这是一个大规模的公共基因表达数据集跨组织和疾病的参考数据库。展示了不同研究(最内层圆圈)中的细胞数量(圆圈大小)分布在组织(外层浅蓝色圆圈)和疾病状态(中间绿色圆圈)中,在训练集(金色)、测试集(粉红色)或未标注集(紫色)中的分布情况。◉ SLE代表系统性红斑狼疮;RA代表类风湿关节炎;NAFLD代表非酒精性脂肪肝病;MS代表多发性硬化症;LCH代表朗格汉斯细胞组织细胞增生症;LAM代表淋巴管平滑肌瘤病;IBD代表炎症性肠病。◉ b,将SCimilarity与已建立的数据整合模型进行基准测试。不同整合方法和SCimilarity(彩色条形)对两个肾数据集、两个肺数据集、两个PBMC数据集以及所有15个保留的(测试)数据集(x轴)进行整合后的类别感知ARI(研究ARI,y轴左上角)、NMI(研究NMI,y轴中上部)、批次ASW(y轴右上角)、细胞类型ASW(y轴左下角)和图连通性(y轴右下角)。◉ c,SCimilarity可以泛化到新的数据集,并标记不同组织和条件下的异常细胞。每个研究(点)中与训练数据相似度较低(SCimilarity分数小于50)的细胞比例(x轴)按不同的疾病(y轴顶部)或健康组织(y轴底部注释)显示。
Para_02 我们使用来自56项研究(包括46项scRNA-seq和10项snRNA-seq)的7,886,247个单细胞谱数据集训练了SCimilarity模型,其中包含203个Cell Ontology作者注释的术语(每个术语至少出现在两个数据集中)(扩展数据图1d和补充表1)。 我们从数据集中采样了50,000,000个信息量最大的细胞三元组(方法),这些三元组根据研究和细胞类型进行加权(以减轻数据集大小不平衡的影响),要求每个三元组中的锚定细胞和正样本细胞来自两个不同的研究,并使用硬三元组挖掘技术,以便仅使用最具信息量的三元组来更新模型梯度(方法)。 Cell Ontology注释仅在训练过程中需要,但在新数据集上使用训练好的SCimilarity模型时,既不需要作者标签也不需要微调。 为了评估,我们将15个验证研究(包括13项scRNA-seq和2项snRNA-seq)从训练集中排除,这些验证研究包含1,415,962个具有Cell Ontology注释的细胞(图2)。 由于肿瘤样本、细胞系或诱导多能干细胞衍生细胞的细胞身份可能不明确,我们从训练集和测试集中排除了这些样本。 Loss functions for sensitive cell search Para_01 测试了 SCimilarity 的目标函数的 18 种不同的参数组合,变化了边界(α)和重构损失函数与三元组损失函数之间的相对权重(β),结果显示这两种损失函数组件导致了不同的模型行为(扩展数据图 2a-c)。 使用 15 个验证研究,我们评估了模型搜索与输入特征(查询)相似的细胞的能力以及在低维空间中混合来自不同研究的相似细胞的能力(集成)(扩展数据图 2b,c)。 我们认为一个好的相似性度量应该既能允许搜索相似的细胞,又能将来自不同研究的相似细胞分组在一起。 Para_02 为了评估查询,我们将使用SCimilarity进行搜索与基因特征评分(方法)进行比较,旨在使这两者之间的相关性更高(然而,细胞查询不依赖于预定义的特征或注释)。 为了评估跨数据集的整合,在不需要统一细胞类型注释的情况下,我们应用了几个基准:一种具有本体意识的平均轮廓宽度变异(16)(ASW)和已建立的归一化互信息(NMI)、调整后的兰德指数(ARI)以及图连通性基准,这些基准衡量了每个聚类内的研究混合程度(方法)。 Para_03 具有较高重构损失加权(较低的 β)的模型在查询任务中表现更好,而那些具有较高三元组损失加权(较高的 β)的模型在集成基准测试中得分更高(扩展数据图 2c)。 纯三元组损失(β = 1.0)并不能可靠地保留细微的细胞状态差异,但确实将相同类型的细胞紧密聚类在一起。 MSE 损失通过保留细微的基因表达模式来补充这一点。 我们选择了一个优化组合查询和集成任务分数的 SCimilarity 模型(β = 0.001 和 margin = 0.05;方法和扩展数据图 2b、c)。 Para_04 SCimilarity的度量学习架构比现有的基础模型更忠实地编码了潜在空间中的细胞相似性。 SCimilarity对与查询细胞状态相似性的预测比之前的基准模型(scFoundation的相关系数为0.54,scGPT的相关系数为0.59;扩展数据图2d)具有更高的相关系数(斯皮尔曼相关系数为0.77),并且错误地高评分的细胞数量远少于之前的基准模型(扩展数据图2e)。 Para_05 为了整合,我们将SCimilarity的预训练表示与Harmony23、scVI10、scanorama24和scArches11在两个肾脏数据集25,26、两个外周血单核细胞(PBMC)数据集27,28、两个肺数据集1,29以及所有15个保留数据集上进行了比较。 在所有四种情况下,SCimilarity具有更一致的细胞类型簇,通过更高的细胞类型ASW来衡量,图的连通性相当,但在低维度下研究之间的混合较少(更高的NMI、ARI和批次ASW;所有这些是批次性的度量标准)(图2b)。 尽管如此,SCimilarity与其他许多专用整合方法相当(根据定义,这些方法在其训练过程中看到了测试数据)。 作为阴性对照,SCimilarity、Harmony和scArches没有将来自两个不同数据集的独立B细胞和调节性T细胞群体人为地混合在一起(扩展数据图3g)。 Scanorama和scVI经历了这种跨群体的混合。 值得注意的是,SCimilarity的整合只是简单地将细胞嵌入到共同的空间中,而无需从数据中学习整合或微调。 Para_06 因此,SCimilarity的损失函数将忠实的细胞表示(查询)与样本混合(整合)分离,并学习能够捕捉有意义的生物学特征、减少技术噪声并且泛化到训练集之外的数据的特征。 Generalization across platforms Para_01 SCimilarity 在 scRNA-seq 和 scRNA-seq 研究上进行了训练(补充表 1),并且很好地嵌入了这两种数据类型,正如通过多种 sc/snRNA-seq 协议为同一人类样本生成的谱系所展示的那样30。在 SCimilarity 注释的细胞类型内,核对核、细胞对细胞以及核对细胞的配对嵌入距离之间的差异仅略高(扩展数据图 3a)。 Within SCimilarity-annotated cell types, the pairwise embedding distances were only slightly higher for nucleus-to-cell profile comparisons than for nucleus–nucleus or cell–cell distances (Extended Data Fig. 3a). Para_02 SCimilarity的学习表征也很好地推广到使用多种其他分析平台测试的数据,基于嵌入距离和一个人类PBMC样本的注释精度,该样本使用七种平台和化学方法进行了分析(10x Chromium v2、10x Chromium v3、CEL-Seq2、Drop-Seq、Seq-well、SMART-Seq2和InDrops)(扩展数据图3b-f)。 所有平台的数据都被有效地嵌入,尽管非10x平台的平均平台内最近邻嵌入距离略高,Seq-well和非UMI全长SMART-Seq2数据的距离最高(扩展数据图3c-d)。 对于大多数细胞类型(除了罕见的传统(cDCs)和浆样树突状细胞),跨平台注释精度是一致的(扩展数据图3e-f)。 因此,虽然SCimilarity仅在10x Genomics Chromium数据上进行训练,但它有效地推广到了其他单细胞分析平台。 Integration without batch correction Para_01 SCimilarity量化了每个细胞表示的信心水平,提供了异常检测和对表示与新数据相关性的评估。 使用SCimilarity的评分来量化查询单元与训练数据分布之间的距离,可以提供关于表示质量的一种启发式方法——与训练过程中看到的细胞高度相似的细胞可以更自信地表示。 总体而言,79.5%的体内保留细胞具有较高的表示信心。 组织样本如胃(n=0个训练研究)、胎儿肠道(n=1)和膀胱(n=0)由于在训练中缺失或表现不佳,因此表示不足或较差(图2c和方法部分)。 同样,43.8%的体外细胞谱系由于与训练集匹配不佳而表现出较低的信心(排除了体外样本)。 利用这一能力,我们构建了一个包含30个人体组织的图谱(补充表2),并将它们的嵌入作为SCimilarity分布的一部分共享。 Cell type matching through similarity Para_01 通过找到与它们的谱型最相似的细胞来注释查询细胞类型(图3a和方法部分)。 这种方法不同于已建立的注释方法,因为它(1)依赖于一个大型的、全身注释的细胞库;(2)使用表达相似性的度量;(3)在单细胞水平上进行注释,而不是在子集水平上。 因此,用户可以看到哪些单个细胞、研究和组织正在驱动注释。 由于每个细胞都是独立注释的,所以不需要聚类。 用户可以通过将其与所需子集(例如,针对特定组织的查询)或整个注释的细胞参考进行比较来注释细胞的谱型。 找到最相似的细胞等同于检索查询细胞的最近邻。 使用hnswlib32,这非常高效,在预计算的近似最近邻索引中搜索SCimilarity的全部注释参考只需20毫秒(方法部分)。 这种方法不同于已建立的注释方法,因为它(1)依赖于一个大型的、全身注释的细胞库;(2)使用表达相似性的度量;(3)在单细胞水平上进行注释,而不是在子集水平上。 Fig. 3: SCimilarity accurately annotates cell types across the human body.
- 图片说明
◉ a, SCimilarity细胞注释。一个未注释的新细胞(灰色,左下)被嵌入到SCimilarity的公共低维空间中,并与预先计算的参考进行比较以进行细胞类型注释(每细胞0.02秒)。◉ b–d, SCimilarity对肾脏scRNA-seq数据集的注释。b,c, 从SCimilarity的隐藏表示中提取的一个保留肾脏数据集(25)的细胞谱系(点)的均匀流形近似和投影(UMAP)嵌入图,按作者提供的(b)或SCimilarity预测的(c)细胞类型注释上色。◉ LoH TAL, 髓袢升支粗段;LoH tDL, 髓袢降支细段。◉ d, 每种SCimilarity注释(行)的作者注释细胞(列)所占的百分比(颜色条和数字)。◉ e, 细胞类型注释性能。左侧,在SCimilarity训练中未使用的15个测试数据集中(x轴),SCimilarity和三种注释方法(颜色条)匹配作者注释的准确性(百分位F1分数,越高越好;y轴)。◉ 右侧,每种方法(颜色)在所有15个数据集中的百分位F1分数分布。箱线图显示了上/下四分位数(框的边界)、最小/最大值(须)和中位数(中心线)。每个研究随机选取n=10,000个细胞进行计算。◉ 数据来自参考文献1、25、26、27、28、29、56、57、58、59、60、61、62、63、64。◉ Epi., 上皮;prox., 近端;pDC, 浆细胞样树突状细胞。
Para_02 一个单一的、预训练的SCimilarity模型与来自既定方法的组织特异性模型竞争性地注释细胞类型。 例如,当限制潜在的细胞类型为作者选择的标签时,SCimilarity从健康肾脏样本中预测出的标签中有86.5%与作者提供的标签相匹配(图3b-d和方法部分)。 这与直接在该数据集上训练的scANVI(85.2%)、CellTypist(90.4%)和TOSICA(87.2%)模型的准确性相当(扩展数据图4c-h)。 在密切相关的细胞类型中(单核细胞相对于巨噬细胞和树突状细胞,成纤维细胞相对于肌成纤维细胞,自然杀伤(NK)细胞相对于NK T细胞和CD8+ T细胞),所有方法与作者提供的标签显示出相当大的不一致,表明那些注释可能不够精确。 确实,作者注释的cDCs表达了混合的巨噬细胞(CD68、CD163、C1QA、MS4A7)和树突状细胞(CD1C、CLEC9A、CLEC10A、FCER1A)标记物,每种方法对这种模糊性的解决方式不同(扩展数据图4i,j)。 SCimilarity还在一个被排除在训练之外的CITE-seq数据集中,竞争性地恢复了由表面蛋白标记支持的细粒度作者注释,在22种免疫细胞亚群中表现与或优于其他方法(方法部分)。 其注释准确性(75.3%)超过了scANVI(52.2%)、CellTypist(59.1%)和TOSICA(44.4%)(扩展数据图5a-i)。 一些密切相关的状态(记忆与幼稚T细胞;CD56bright与CD56dim NK细胞)被所有方法预测得不够精确,并且可能无法完全通过表面标记来解决(扩展数据图5j)。 同样,作者提供的注释和SCimilarity的注释在所有15个测试数据集上匹配良好,涵盖了73个细胞本体术语,与或优于其他注释方法(图3e)。 Para_03 我们使用SCimilarity的细胞类型分配来快速注释所有2340万细胞谱系,使用一个模型标记了14,078,941个未注释的谱系,并重新注释了9,302,209个作者已注释的谱系(方法)到一个共同集合,该集合跨越来自30个简化组织类别的21个粗粒度谱系中的74个细胞类型标签(扩展数据图6a)。 Interpretable features drive SCimilarity Para_01 为了探究SCimilarity的模型和注释,我们使用了整合梯度法(Integrated Gradients)量化了每种细胞类型中每个基因的重要性——这是一种通过输入表达谱的小扰动来识别对模型预测影响的可解释性方法(方法部分)。 例如,区分肺泡II型(AT2)细胞的最重要的基因是表面活性物质基因SFTPA2、SFTPA1、SFTPB和SFTPC,这与已知的AT2细胞功能一致35。 SCimilarity在没有先前关于细胞类型特异性基因、标记或高变基因知识的情况下学到了这些。 总体而言,SCimilarity的最重要基因与17种不同匹配类型的差异表达标记基因高度一致,除了罕见的神经内分泌细胞(训练集中有90个细胞)(曲线下平均面积AUC = 0.84;扩展数据图6b和补充表3)。 Cell search across tissues and diseases Para_01 我们使用SCimilarity的嵌入来查询整个2340万细胞的参考(图4a),利用了这样一个事实:通过度量学习,最相似的细胞是查询细胞的最近邻。 作为查询,用户可以选择单个细胞谱或多个细胞谱的中心点。 SCimilarity软件提供了计算查询谱、执行搜索、根据元数据和绝对距离过滤结果以及评估查询和结果的工具,包括用于评估查询群体是否足够同质以产生可靠结果的指标,以及查询谱的新颖程度。 (方法)。 Fig. 4: SCimilarity cell search reveals FMs across ILD and other diseases.
- 图片说明
◉ SCimilarity细胞搜索。查询细胞剖面图(左下)被嵌入到具有2340万个参考细胞的SCimilarity表示中。按研究、组织和疾病对其最近邻距离进行了分类。◉ b-e,跨组织识别FMs。b,所有单核细胞和巨噬细胞(点)的FM查询剖面图的SCimilarity得分(y轴,对数10刻度和色标)与来自143项研究的1041个体内组织样本(x轴),根据平均SCimilarity得分排序。◉ c,不同组织(最外层浅蓝色圆圈)、疾病状态(中间绿色圆圈)和个别研究(最内层圆圈,按单核细胞和巨噬细胞的SCimilarity得分超过所有FM SCimilarity得分第99百分位的比例着色)中的细胞数量(圆圈大小)。疾病和个别研究的圆圈大小相对于同一组织中的其他疾病或同一疾病的其他研究进行缩放。◉ d,e,在SCimilarity表示中,ILD40(d)和PDAC47(e)研究的所有单细胞剖面图(包括巨噬细胞和其他类型)的UMAP,按FM查询SCimilarity得分着色(色标)。◉ f,SCimilarity的可解释性框架通过重要性对与FM相关的基因进行评分。对于前50个得分的基因(x轴,上部;列,下部),巨噬细胞和它们在已发表的巨噬细胞特征中的成员资格(红色表示存在;灰色表示不存在)分布(y轴,上部;水平条形显示平均值)。左侧色标代表属性评分匹配已发表特征的AUC。右侧显示了签名出版物来源和P值(双侧Mann-Whitney U检验;特征>非特征),跨越前3000个基因,按平均属性得分排序。使用与FMs最相似的n=500个细胞(对n=500个随机采样的细胞从完整的n=2,578,221个细胞的单核细胞和巨噬细胞查询集)计算了属性评分、AUC值和P值。
Para_02 作为案例研究,我们关注了肺间质疾病中的巨噬细胞和成纤维细胞,鉴于它们在组织修复、再生和纤维化中的作用。 特别是,最近许多纤维化疾病的单细胞RNA测序研究表明,包括肺纤维化、癌症、肥胖症和COVID-19,都报道了似乎相似的SPP1+纤维化相关巨噬细胞(FM)群体。 然而,由于每项研究用不同的命名法和基因特征定义它们,目前尚不清楚它们之间有多相似,以及相同类型的细胞是否广泛存在于各种组织中,特别是在纤维化条件下。 Para_03 为了研究这一点,我们使用SCimilarity注释了2,507,171个体内单核细胞或巨噬细胞的细胞谱(图4a、b)搜索我们的模型。 作为查询,我们输入了一个巨噬细胞亚群中心(查询一致性:94.7%),该亚群是通过细胞外基质重塑和纤维化相关基因(SPP1、TREM2、GPNMB、MMP9、CHIT1和CHI3L1;方法)的基因特征选择的。 SCimilarity在2秒内计算了我们的查询谱与这250万个谱之间的成对相似性(图4b)。 另外,从2340万细胞的参考中识别出得分最高的10,000个细胞只需0.05秒(方法)。 相比之下,用文献定义的FM基因特征对语料库中的每个细胞进行评分需要2小时46分钟(未显示)。 基因特征和SCimilarity评分大致呈正相关(r = 0.50,P < 10−300;扩展数据图8a-c),表明这种精细的细胞状态,而不仅仅是细胞类型,在SCimilarity的查询评分和嵌入中得到了很好的表示。 Para_04 SCimilarity搜索显示,FMs在ILD肺样本中很常见,并且存在于一些癌症中,包括葡萄膜黑色素瘤、胰腺导管腺癌(PDAC)和结肠癌(图4c-e和补充表4)。 在与我们的查询最相似的前1%的单核细胞和巨噬细胞中,93.7%来自肺组织,81.2%来自ILD和COVID-19肺样本。 FM样细胞在肺中的患病率因疾病而异:在两项系统性硬化症(SSc)研究中,FM样细胞占单核细胞和巨噬细胞的20%和4%, 在12项ILD研究(不包括SSc)中,平均为6.6%(标准差=4.8%), 在六项COVID-19肺研究中,平均为0.97%(标准差=0.25%,非肺部COVID-19数据中为0%), 在22项标记为健康、正常或没有疾病标注的肺研究中为0.40%(标准差=0.15%)。 虽然在SSc肺中数量众多,但在SSc皮肤中,FM样细胞非常罕见(占髓系细胞的0.14%)。 值得注意的是,在其他纤维化疾病和组织中也存在一些FM样细胞,例如在一个主要的PDAC肿瘤中(占1,171个髓系细胞的0.85%), 以及一个PDAC的肝脏转移中(占1,199个细胞的0.5%)。 因此,尽管我们的查询是基于IPF样本得出的,但它识别出了许多不同背景下的FM样细胞,证实了先前关于肺损伤中FMs的观察结果,并提示FM样细胞可能在其他器官和疾病中发挥作用。 Para_05 通过查询与纤维化相关的肌成纤维细胞查询谱,我们发现它们在不同组织中的关联,该查询谱定义为表达相应基因特征(ACTA2、CDH11、ELN、LOXL1、TNC、ASPN、COMP、CTHRC1、POSTN、COL1A1、COL3A1 和 COL8A1)的细胞1的质心(查询一致性:77.0%)。 SCimilarity 距离与肌成纤维细胞基因特征评分的相关性明显高于 scGPT(ρ = −0.19)和 scFoundation(ρ = −0.17)(扩展数据图 7c),并且更具体地捕获了相关细胞类型(扩展数据图 7d)。 肌成纤维细胞的存在与 ILD 数据集、COVID-19 和 PDAC 中纤维母细胞的存在呈正相关(r2 = 0.48;扩展数据图 7a、b)。 Important FM features match known signatures Para_01 我们假设SCimilarity在ILD研究中检测到的FM样细胞反映了共享的生物状态,尽管标记和命名法各不相同。为了探索这一点,我们使用了集成梯度来量化区分FMs的基因重要性(方法),得到了在纤维化过程(如MMP7、FN1)、脂质代谢(如APOE、LPL)和损伤识别(如MARCO、MSR1)中富集的基因(图4f、扩展数据图8d和补充表5)。这些包括已知标志物(TREM2)和新基因(HLA-DQA1和RGS1),它们在FM样细胞中的检出率更高(扩展数据图8e-g)。 Para_02 最重要的基因与描述相似巨噬细胞群体的已发表基因特征显著重叠,或与差异表达定义每个研究感兴趣巨噬细胞群体的基因重叠(补充表6)。 来自七项研究的已发表特征具有较高的特征匹配度(AUC > 0.8),而M2和M1巨噬细胞的阴性控制特征排名在最后三位(AUC = 0.64 (P = 0.0062) 和 0.53 (P = 0.36),分别;图4f)。 Search for ex vivo human cell model Para_01 研究新型细胞状态如FM在疾病中的作用需要在体外建模、扰动和研究它们,但确定培养条件仍然具有挑战性。 为了解决这个问题,我们使用SCimilarity在体外样本中寻找类似于FM的细胞。 在将SCimilarity得分阈值放宽以考虑体外和体内细胞之间的差异后,我们从17项研究中的40个样本中识别出41,926个单核细胞和巨噬细胞,这些样本包括肺类器官到体外处理的白血病细胞,再到刺激的PBMC。 这些样本来自17项研究中的40个样本,范围从肺类器官到体外处理的白血病细胞,再到刺激的PBMC。 Para_02 最类似于我们的查询的细胞来自在一种设计用于扩展造血干细胞(HSCs)的3D水凝胶系统中培养了5天的PBMCs(图5a和补充表7)。这是一个令人惊讶的结果,因为这项研究与肺生物学无关,这些细胞在外周血中很少见,并且没有关于骨髓细胞的研究报告。 虽然在第0天的骨髓细胞中没有FM样细胞存在,但在培养五天或更长时间后,有15%的细胞与FMs相似(SC相似性评分大于25),并且表达了TREM2、GPNMB、CCL18和MMP9(图5b-e)。 Fig. 5: SCimilarity cell search identifies in vitro cells matching an in vivo FM state and a novel in vitro disease model.
- 图片说明
◉ 识别体外样本中的类似FM的细胞,使用SCimilarity细胞搜索。SCimilarity得分(y轴,对数10刻度,颜色条)针对每个注释的髓样细胞(点)与FM查询谱图进行比较,来自n=40个体外样本(x轴)和n=17项研究,按平均SCimilarity得分排序。灰色框显示了3D水凝胶培养系统2天0和天5的样本。◉ 3D条件在验证实验中产生类似FM的细胞。◉ SCimilarity得分(y轴,对数10刻度,颜色条)针对每个注释的髓样细胞(点)与FM查询谱图进行比较,在原始3D水凝胶培养系统数据集2中来自n=2个独立供体的天0和天5以及n=3个独立供体的天8验证实验(x轴)。◉ 髓样细胞中表达基因(行)的平均表达(点的颜色)和表达细胞的百分比(点的大小),这些基因具有高SCimilarity属性评分,用于区分体内FMs(如f所示),在原始3D水凝胶培养系统2中和验证实验中(列)。◉ UMAP嵌入来自SCimilarity查询模型潜在空间的细胞谱图(点),分别来自原始3D水凝胶培养系统2的天0(d)或天5(e),或者来自复制实验的天8(f),根据FM SCimilarity得分(颜色条)着色。◉ 复制原始发现:HSC扩展。来自参考文献2的n=2个供体在天0和天5以及来自天8验证实验的n=3个供体中HSC的比例。
Para_03 我们通过实验复制了3D水凝胶系统2,并通过scRNA-seq对培养的PBMC进行了谱系分析(图5b、c、f)。 虽然原始的第5天数据2与我们的第8天复制数据在相对细胞丰度上有所不同(方法),但在第8天的实验中,SCimilarity预测10.1%的细胞为HSCs(图5g)。 41.5%的髓系细胞被预测为FM样巨噬细胞(图5b、f;n=3名供体;37.1%、42.5%和44.9%;SCimilarity评分>25)。 并且FM特征基因如CCL18、GPNMB、SPP1和TREM2出现了富集(图5c)。 这证明了SCimilarity能够大规模地查询公开可用的数据,查询体内和体外数据的参考以找到生物学上相似的条件,并帮助识别实验室中重现这些结果的实验条件。 Discussion Para_01 SCimilarity 提供了一种基于度量学习的独特方法,用于跨数百项研究、数千个样本和数千万(甚至更多)个细胞的细胞搜索。 查询细胞状态可以根据单个细胞谱系(尽管这些可能缺乏稳健性)、元细胞、集群或由基因特征定义的一组高度相似的细胞来定义。 为了确保可靠的结果,SCimilarity 评估查询的一致性和模型对细胞表示的信心。 使用细胞的完整表达谱可以捕捉其全部复杂性,从而避免了对经过筛选(且可能存在偏见)的基因特征的需求。 SCimilarity 可以使用一种可解释性技术为细胞状态生成一个稳健的特征。 由于公共数据是多样化的,并且不同的生物学问题可能有不同的假设,SCimilarity 允许用户根据具体情况决定适当的研究、样本或细胞过滤以及 SCimilarity 分数截断。 为了确保高质量,我们在训练集和测试集中删除了任何样本重复;然而,由于包含所有已发表的数据集,我们的完整参考数据集中存在重复的样本。 我们使 SCimilarity 作为一个开源的 Python API 提供,并附有查询、嵌入、注释和排名细胞谱系的教学教程。 该 API 通过 k 最近邻(k-NN)、穷尽搜索、元数据过滤、基于分数的过滤和可视化工具促进了定制查询,每个查询结果都可以追溯到原始数据集进行进一步分析。 Para_02 SCimilarity的细胞查询为系统探索人类细胞图谱中转录上相似的群体打开了大门,展示了识别出的群体在其他研究中可重现地存在;连接独立研究(如观察性和功能性研究)的结果;并识别相同群体可能活跃的背景。 我们通过在整个图谱中搜索类似FM的细胞来说明这一点,这导致了解释性标记基因的发现,一个在体外诱发相似状态的细胞培养系统,以及在其他纤维化肺病、COVID-19和多种肿瘤类型(特别是PDAC55)中识别出相似细胞,这表明这些细胞在损伤反应和组织重塑过程中可能具有更广泛的作用。 值得注意的是,先前的基础模型在识别类似于FM或肌成纤维细胞的细胞方面表现不佳,它们扩展到了不太相似的细胞,并且遗漏了更相似的细胞。 Para_03 SCimilarity 可以推广到训练中未见过的细胞和数据集,因此可以在不重新计算现有嵌入的情况下过滤或添加细胞特征。 下游任务,如细胞类型注释、细胞查询和基因特征推导都可以通过 SCimilarity 的通用表示法简化,并且可以应用于训练过程中未见过的细胞,而无需告知模型特定基因的重要性或变异性。 我们使用 10x Genomics Chromium 平台收集的不同组织覆盖范围的单细胞 RNA 测序(scRNA-seq)和单核 RNA 测序(snRNA-seq)数据训练了 SCimilarity,它能够处理来自其他未包含在训练中的 scRNA-seq 平台的测试数据。 然而,用户在解释跨技术集成时应始终保持谨慎。 SCimilarity 学习表示的强大性能对于整合和查询任务可能表明它在其他任务上也能表现良好,但这些需要在未来的研究中进行评估。 Para_04 通过训练来自许多已发表研究的细胞本体注释,SCimilarity 学习了专家如何定义给定细胞类型的共识。 对于注释任务,SCimilarity 可以预测的标签集必然受限于可用的细胞本体术语和跨研究的细胞状态实验观察。 相反,细胞查询是独立于注释的,并且可以使用任何谱系,无论该细胞状态是否在细胞本体中或在训练过程中被观察到。 请注意,由于缺乏明确的细胞类型身份,我们故意从训练中保留了癌细胞和细胞系,这些可能在当前模型中表现不佳。 根据我们的经验,在胎儿样本、粒细胞、造血干细胞和祖细胞以及中间前体细胞状态上,性能较差,这可能是因为大多数训练数据来源于成人组织,并且由于非分化群体在谱系承诺中的不确定性。 虽然 SCimilarity 的 API 提供了评估查询细胞谱系一致性指导,但查询结果的质量最终取决于输入谱系的假设和质量。 输入的细胞谱系可以从单个细胞、聚类中心或用户定义的基因特征评分和过滤的细胞聚集得出——所有这些都需要一些主观选择,这些选择会影响下游分析。 随着更大的 SCimilarity 表征基于不断增长的人类细胞图谱进行训练,该模型将允许对扩展的人类生物学领域进行查询和搜索。 Methods SCimilarity model design SCimilarity 模型设计
Model architecture 模型架构
Para_01 SCimilarity 模型由一个全连接编码器和一个解码器阶段组成,并且在每次训练三元组时重复使用相同的编码网络三次,从而使每个批次更新后的模型在后续批次的训练三元组中共享相等的更新。 解码器阶段不是传统三元组损失架构的一部分,但被包括进来以计算 MSE 重构损失。 Para_02 表达谱通过一个编码网络被减少,从28,231个基因开始,经过四个隐藏层,每个隐藏层的维度分别为1,024,1,024,1,024和128。 这128维的输出被单位长度归一化,强制所有低维细胞表示都位于超球体的表面上。 在训练过程中,输入层受到40%的丢弃率,随机将许多基因表达值置零,每个隐藏层受到50%的丢弃率,以实现最大程度的正则化。 Para_03 虽然高维球面空间很少用于表示单细胞谱系66,但三元组损失模型通常使用高维球面嵌入来确保模型超参数之间的一致性12。 在三元组损失训练过程中,目标是将不同类型的细胞放置得足够远。 不同类型的细胞之间的最小期望距离称为间隔。 通过将嵌入空间的体积固定为单位长度128维超球体的表面积,间隔在模型运行之间被一致地解释。 如果没有归一化,细胞可以被放置到无限远的距离,从而使间隔变得毫无意义。 Triplet-loss training 三元组损失训练
Para_01 为了学习特征,使被认为相似的数据点彼此靠近,损失函数依赖于嵌入在低维潜在空间中的数据点之间的距离,用公式(1)描述: Para_02 这里 x 和 y 是两个高维向量(此处为细胞特征),通过神经网络编码器 f() 进行处理。 , 错误!!! - 待补充
Para_04 模型参数被迭代更新以减少锚点和负样本数据向量之间的距离相对于锚点和正样本点之间的距离不够大的三元组数量,从而最小化方程(2)中定义的三元损失函数: Para_05 其中 α 是间隔,表示负样本应该比正样本离锚点有多远,i 是三元组的索引。 Reconstruction loss training 重建损失训练
Para_01 重建损失仅在锚点细胞上计算,因为每个锚点细胞在一个批次内仅用作一次锚点。 重建损失定义在公式(3)中: Para_02 N 是批次中锚点单元的数量,在 SCimilarity 中设置为 N = 1,000,g() 是神经网络解码阶段学习到的函数。 Combined loss function 组合损失函数
Para_01 在分类模型中添加重构损失已被证明通过正则化效应改善泛化能力。 SCimilarity 损失函数结合了三元组损失和重构损失函数,如公式(4)所定义: Para_02 其中 β 是 [0, 1] 范围内的权重项。 针对不同 β 值(在 [0, 1] 范围内),构建了三元组损失、重构损失以及硬三元组百分比的训练和验证曲线(扩展数据图 2a)。 当 β = 0 时,对应于传统的自动编码器;当 β = 1 时,对应于纯三元组损失模型。 经验上,β = 0.001 在细胞搜索任务(查询模型)中表现最佳;β = 1 在批次集成中表现最佳(扩展数据图 2c)。 Cell Ontology terms and relationships 细胞 ontology 术语和关系
Para_01 作者可能会在不同的粒度下注释细胞类型,这通过引入具有层次关系的细胞类型注释混淆了三元组采样,这些层次关系不能明确地定义为相似或不相似。 因此,用于训练的细胞类型注释使用标准化的细胞本体术语定义,并且有效的三元组被限制为成员之间没有垂直细胞本体关系的细胞。 垂直关系被定义为细胞本体网络中的任何一条或多条祖先-后代关系的有向路径。 因此,对于注释定义了三种二元关系:(1)具有相同注释的相似对(例如,T 细胞和 T 细胞); (2)具有非垂直本体关系的不相似对(例如,'CD4 阳性、αβ T 细胞' 和 'CD8 阳性、αβ T 细胞'); (3)具有垂直关系的模糊对(例如,'T 细胞' 和 'CD4 阳性、αβ T 细胞')。 正样本是从与锚点相似的细胞中抽取的,负样本是从与锚点不相似的细胞中抽取的,而与锚点模糊的细胞则被排除在采样之外。 GEO data aggregation GEO数据聚合
Para_01 总共获得了334个人类sc/snRNA-seq数据集,这些数据集来自GEO。 使用了多个过滤步骤来限制分析的数据集,使其仅包含通过10x Chromium平台生成的人体组织样本,并且报告了可以自动处理的未标准化基因计数数据。 为了选择合适的数据库,设计了搜索标准,用于Biopython Entrez搜索工具,以找到具有特定属性的GEO研究,例如元数据关键词、文件格式和物种。 然后,使用GEOparse下载了每个样本的GEO文本元数据,并在元数据或下载URL(例如smartseq、trizol和fasta)中搜索黑名单词汇,以进一步筛选出不是通过10x Chromium生成的样本。 通过元数据筛选阶段的数据集和相应的下载链接被自动下载。 没有数据集重新对齐。 总共确定了753项研究供下载。 设计了一套导入函数,用于最常见的文件类型格式(.mtx、.h5ad以及.tsv或.csv中的基因表达矩阵)。 任何无法成功下载或读取的数据集都被丢弃。 一旦读入,每个样本都会自动测试其计数数据和与参考基因列表或基因名称映射器匹配的基因名称,然后将每个文件保存为统一的.h5ad格式以便后续处理。 最终,我们得到了334篇已发表的研究,这些研究并非CELLxGENE中已发现研究的重复,可用于我们的分析。 在整理参考数据的过程中,我们发现个别样本在不同研究中被重新发布,但没有参考文献或数据来源记录。 因此,我们倡导该领域改进数据管理实践。 Data preprocessing 数据预处理
Para_01 所有UMI计数数据使用scanpy.pp.normalize_to_target(adata, 10000)和scanpy.pp.log1p(adata)函数按每个细胞进行了10000的缩放因子的自然对数标准化。 , Data aggregation and filtering 数据聚合和筛选
Para_01 用于训练的数据集包含作者提供的细胞类型注释,这些数据集来自Tabula Sapiens71、10x Genomics20、单核跨组织图谱8和人类肺细胞图谱72,并且经过了与程序下载的数据集相同的预处理步骤。 细胞类型注释被手动转换为包含在细胞本体中的术语。 那些注释未能明确映射到细胞本体的细胞未被纳入训练。 Para_02 之前标记为双细胞,且由Pegasus73的infer_doublets方法评分也为双细胞的细胞谱系,如果它们的总UMI计数中有超过20%对线粒体基因进行了比对,或者检测到的总基因少于500个,则被移除。 Preparation of training and test data 训练数据和测试数据的准备
Para_01 训练集和测试集的选择方式是保留整个研究不在训练集中(而不是从每个数据集中保留一部分细胞)(补充表1);训练集和测试集中分别有56个和15个数据集。 这提出了一个更困难的泛化挑战,并反映了用户使用SCimilarity的方式。 测试数据集的选择反映了训练集中组织多样性。 Cell Ontology term selection 细胞ontology术语选择
Para_01 Cell Ontology术语被选中用于训练,如果它们在训练集中至少出现在两个独立的研究中。 仅在一个研究中出现的术语未被使用,因为SCimilarity是通过比较不同研究中的细胞来训练的。 为了挽救单研究术语,我们检查了跨研究的直接父术语。 如果某个单研究术语的父术语在至少另外两个数据集中被观察到,则原始的细胞类型注释将被替换为更粗略的父术语(补充表1),并用于基于本体的三元组采样。 否则,所有带有此注释的细胞都将从训练中移除。 这一过程导致了203个Cell Ontology术语用于训练(补充表1)。 所有203个术语可供用户使用SCimilarity软件对新数据集进行细胞类型预测,其中默认用于细胞类型预测的术语设置为81个经过手动精炼的具有相似粒度的术语,以便于使用(补充表1)。 随着训练数据规模或注释质量的增长,预期符合纳入标准的Cell Ontology术语数量将会增加。 Semi-hard triplet mining 半硬性三重样本挖掘
Para_01 在训练过程中,从训练数据集中采样1,000个细胞。 这种采样是根据研究和细胞类型进行加权的,以便每批中有相似数量的观察值来自每个研究的每种细胞类型。 Para_02 由于损失函数中的最大操作,不是所有可行的三元组都对梯度有贡献,它们根据对梯度的贡献被分类为简单、半难或困难。 , Para_03 简单否定由公式(5)定义: Para_04 容易的负样本对梯度没有提供任何信息,因为低维嵌入中细胞之间的距离已经满足了目标,使得最大运算返回0到三元组损失和。由于训练少量批次后存在大量容易的三元组,随机采样三元组并不能有效训练模型。为了加速训练,挖掘三元组以搜索特别有助于模型训练的三元组。 参考文献:12 Para_05 硬负样本由公式(6)定义: Para_06 硬负样本对损失函数的贡献最大,因为它们不符合并且远离所需的潜在关系。 实际上,硬三元组在训练中很少有用,因为它们会导致模型在训练过程中崩溃12,74。 硬负样本可能富集了错误注释的细胞。 Para_07 半硬负样本由公式(7)定义: Para_08 半硬负样本对损失函数的贡献很小,因为它们几乎满足低维空间中细胞之间的所需距离。也就是说,负样本细胞轮廓比正样本细胞离锚点细胞更远,但差距小于阈值α。半硬负样本在三元组损失模型中经常被使用1。 三元组损失模型1。 Para_09 总体上,我们选择只使用半硬负三元组来训练 SCimilarity。 Explainability framework 解释性框架
Para_01 一个可解释性框架被用来识别那些变异导致学到的特征产生最显著变化的基因,并且这些变化反过来影响不同细胞之间的相对距离。 错误!!! - 待补充
Para_03 这里a控制了一个插值过程,用于沿路径平均梯度。高值的Importancei(x,y)对应于在x中高度表达的基因,它们的修改(即,梯度)对d(x, y)的影响更大。 直观上,每个基因在y中的表达量逐渐增加以匹配x,沿着从x到y的轨迹进行。通过这条轨迹,计算d(x, y)的变化率,汇总结果。 为了计算跨更广泛背景的相关特征,分数通过(xi − yi)缩放,以实现全局可解释性。 为了识别在感兴趣子集中上调的基因,忽略那些表达量xi < yi的基因i。 Para_04 这种方法在几个关键方面与标准集成梯度方法不同,因为:(1)梯度是相对于一个学习到的距离而不是输出特征来计算的;(2)忽略 xi 小于 yi 的归因;(3)由于特征之间的复杂交互作用,积分的符号被忽略。 , 错误!!! - 待补充
Para_06 随着成对比较是平均相对比较,({b_1,\ldots,b_N})的采样影响了签名评分。 为了获得通用细胞类型标记物,对所有细胞类型进行了背景采样。 为了获得特定细胞状态的签名,对相同类型但处于其他状态的细胞进行了背景采样。 每个基因i的置信区间计算为其平均值的标准误差。 这导致每个基因都有一个归因分数。 Attribution enrichment testing 属性丰富性测试
Para_01 基因属性是通过一组前景细胞和一组背景细胞计算得出的。 前景细胞是在搜索到的细胞中最类似于查询细胞(FM)的前500个细胞(例如,对体内单核细胞和巨噬细胞具有高置信度)。 背景细胞是通过随机采样距离查询细胞(FM)SCimilarity得分最远的500个细胞来选择的,这些细胞不在排名前10,000的细胞内(在体内的单核细胞和巨噬细胞范围内)。 AUC富集统计量是基于贡献度最高的3,000个基因计算得出的。 Para_02 对于每个发表的特征签名,根据公式(10)使用Mann-Whitney U检验计算了AUC和单侧P值: Para_03 U 是 Mann-Whitney U 统计量,n1 是在 3,000 个基因中出现在已发表的特征基因中的基因数量,n2 是在 3,000 个基因中不在已发表的特征基因中的基因数量。 Training and evaluation metrics 训练和评估指标
SCimilarity score 相似性得分
Para_01 SCimilarity得分定义为两个嵌入细胞剖面的余弦距离的倒数,如公式(11)所示: Para_02 ci 和 cj 分别是第 i 个和第 j 个细胞谱系的嵌入向量,且它们的单位长度相等,同时 i ≠ j。相似性的阈值在实际应用中根据问题和细胞类型的不同而变化。 The threshold for similarity varies in practice by question and cell types. Ontology-aware ASW 基于本体的ASW
Para_01 ASW已被用于通过量化每组细胞在整合后的各研究中的聚类一致性来评估多个单细胞RNA测序研究中的数据整合任务表现。 对于批次ASW指标,细胞组是根据研究内部的批次进行分组的,因此它衡量的是每个批次的聚类一致性(这里分数越低越好,因为这意味着更好的混合)。 对于细胞类型ASW,其中集合由细胞类型定义,我们引入了一个具有本体意识的修改版本。 在这里,分数越高越好,因为它意味着同一类型的细胞更加一致地聚类。 细胞类型t的细胞轮廓i的轮廓宽度通常将细胞类型t的细胞之间的平均细胞内距离a(i)和与最近细胞类型细胞之间的平均细胞间距离b(i),分别由公式(12)和(13)定义进行比较: Para_02 通常,CI 是作者注释类型为t的单元格集合,而CJ是所有其他类型单元格的集合。 Para_03 然而,通常提出的ASW没有考虑到不同研究中细胞类型注释的粒度差异。为了应对这些问题,使用了一种修改后的公式,其中CI包含细胞类型标签t及其所有系统发育后代,CJ是除类型t及其任何系统发育后代或祖先之外的所有其他细胞类型的集合。例如,如果计算T细胞的a(i),则所有类型的T细胞术语(如CD4阳性、αβ T细胞,CD8阳性、αβ T细胞和CD4阳性、CD25阳性、αβ调节性T细胞等)之间的距离都是T细胞术语的一部分。T细胞的祖先术语,如"淋巴细胞"一词,并不是T细胞类(也不是T细胞亚群)的一部分,但在计算a(i)和b(i)时从求和指标中排除了。 , Correlation with gene signatures 基因特征的相关性
Para_01 为了测试SCimilarity距离如何表示预定义细胞状态之间的距离,使用基于特征的细胞状态定义与SCimilarity评分进行了关联(上述内容)。 , Para_02 对于测试集中每个细胞,都会计算出特征分数和与细胞查询的SC相似性分数,产生两个向量,然后计算这两个向量之间的皮尔逊相关系数。 , Model selection 模型选择
Para_01 模型运行了三组,共18种组合,包括3种不同的边缘(α ∈ {0, 0.01, 0.05, 0.1})和6种不同的β参数(β ∈ {0, 0.0001, 0.001, 0.01, 0.1, 1.0}),并通过两个标准选择了两种模型:查询模型和集成模型。 首先,通过查询性能测试,细胞与查询FM谱系的相似性与定义该状态的特征签名(TREM2, GPNMB, SPP1, CCL18, MMP9, CTSK, APOE, CHIT1, LIPA, CHI3L1, CD14, APOC1)的相关性来评估。 其次,使用与本体感知ASW量化来自不同研究的同类型细胞在SCimilarity表示中的混合程度。 根据综合得分,选择表现更好的查询任务模型作为最终模型,而不仅仅是基于较高的集成分数(扩展数据图2b,c)。 根据该研究,这个选定的集成模型比查询模型具有更多的研究混合度(NMI和研究ARI16)。 Data integration benchmarking 数据集成基准测试
Para_01 SCimilarity 被与四种批量整合方法进行了比较:Harmony23(harmonypy v.0.0.9)、Scanorama24(v.1.7.4)、scVI10(v.1.1.0rc2)和scArches11(scVI v.1.1.0rc2)。 修改后的 ASW(如上所述)、ARI 和 NMI 被计算作为整合基准指标。 由于评估生物信号保存需要‘真实’细胞类型注释,这些方法在 15 项测试研究中进行了基准测试,这些研究中作者提供的细胞类型注释在 SCimilarity 训练过程中被排除在外。 Para_02 Harmony和Scanorama使用scanpy中的包装函数运行。 scVI和scArches使用它们在线教程中描述的scvi-tools工作流程运行(https://docs.scvi-tools.org)。 由于scArches工作流程需要一个参考数据集,从所有训练数据集中以均匀概率跨研究随机抽取了101,133个细胞谱系作为参考。 , Para_03 在基于五个不同验证数据集组合的四个不同的整合任务中,计算了ARI、NMI和细胞类型ASW:(1)从所有15个测试数据集中均匀概率抽取的143,638个细胞谱;(2)两个肺部数据集1,29;(3)两个肾脏数据集25,26;以及(4)两个PBMC数据集27,28,所有这些数据集均来自测试研究,还有一个负向控制任务是将一个PBMC数据集28中的B细胞与另一个PBMC数据集27中的调节性T细胞进行整合。 Study ARI, study NMI and cell type ASW were calculated on four distinct integration tasks based on five different combination of validation datasets, four positive control tasks. Cell type annotation 细胞类型注释
Para_01 细胞类型分配通过k-NN分类结合注释参考集进行。 SCimilarity的降维潜在空间用于确定查询细胞t在参考数据集中与之最近的50个邻居,查询细胞根据公式(14)通过等权重计票的方式进行注释。 Para_02 根据公式(15)在SCimilarity降维潜空间中按距离加权: Para_03 为了允许用户从一个受限的感兴趣细胞类型列表中注释新的数据集,可以排除特定的细胞类型(黑名单)或者限制注释仅限于特定的细胞类型(白名单)。 在可行的情况下,推荐使用黑名单或白名单来提高可解释性并减少虚假注释。 然而,广泛的黑名单或白名单可能会显著减慢注释过程,因为预先构建的k-NN索引并未针对修改后的目标细胞类型列表进行优化。 k-NN parameters for annotation and query 注释和查询的k-NN参数
Para_01 两个独立的k-NN索引被用于高效和准确的查询。 为了细胞类型注释,使用hnswlib32构建了一个包含790万细胞的k-NN索引,参数设置为ef_construction = 1,000 和 M = 80。 搜索这个k-NN找到了用于细胞类型注释的50个最近邻(默认行为),即k = 50且ef = 100。 Para_02 Cell查询依赖于一个单独的2340万细胞k-NN索引,该索引也是使用hnswlib构建的。 这个索引是用以下参数构建的:ef_construction = 400 和 M = 50。 搜索参数由用户请求返回多少个相似细胞来设置。 默认行为设置为k = 1000和ef = k,但实际上,根据使用情况,k可以有很大的变化。 Cross-technology benchmarking 跨技术基准测试
Para_01 SCimilarity嵌入的比较是使用GEO GSE140819(参考文献30)中的配对数据样本CLL1进行的。 SCimilarity细胞类型注释被限制在了7个最相似但比三个作者提供的注释(B细胞、T细胞和巨噬细胞)更详细的Cell Ontology术语上。 对于最丰富的SCimilarity注释的细胞类型,计算了最多1,000个随机采样的细胞对之间的配对距离分布(受细胞数量限制),且不重复采样。 对于注释和协议内的选定群体之间的配对(细胞到细胞或细胞核到细胞核)、注释内和跨协议(细胞到细胞核)以及跨注释(一种细胞类型到另一种细胞类型)和协议内的情况,生成了分布。 在注释内和协议间(细胞到细胞核)以及跨注释(一个细胞类型到另一个细胞类型)和协议内进行了分布的生成。 Para_02 比较了使用SCP42431的人类PBMC样本的数据的谱系平台。从k-NN图中检索了最近邻SC相似性得分的分布,既不考虑平台也不受平台和重复内邻近的限制。 细胞类型注释被限制在九个最接近作者提供的注释的Cell Ontology术语内。 注释精度是通过计算每个平台和重复内具有与Cell Ontology映射的作者提供的注释相同的SC相似性预测注释的细胞百分比来确定的。 Cell type annotation benchmarking 细胞类型标注基准测试
Para_01 SCimilarity的细胞类型注释与三种细胞类型预测方法(CellTypist77版本1.6.2、TOSICA78版本1.0.0和scANVI79来自scVI版本1.1.0rc2)进行了比较,通过三个独立的分类任务:(1)注释一个人类肾脏数据集中的细胞;(2)注释一个人类PBMC CITE-seq数据集中的细胞;以及(3)注释跨越所有15个作者提供注释的保留数据集中的细胞类型。 相同的SCimilarity模型用于两项评估。每种方法为每个任务训练了一个单独的模型。对于每个测试研究中的每种细胞类型,计算了F1分数。 Para_02 对于参考文献25中的肾细胞测试数据集(12,190个细胞谱系),细胞类型注释被手动简化为22个Cell Ontology术语。 CellTypist、TOSICA和scANVI模型使用从四个肾SCimilarity训练数据集中获得的89,520个细胞进行训练,这些数据集在参考文献19的测试数据集中用细胞类型术语进行了注释。 对于参考文献33中的CZI PBMC CITE-seq数据集(94,811个细胞谱系),分析中去除了四个定义不明确的细胞群体(例如,耗竭的B细胞、未成熟的B细胞、增殖的T细胞和增殖的NK细胞),并且细胞类型注释被限制为与作者提供的注释相同的22个Cell Ontology术语。 scANVI使用scvi-tools工作流(https://docs.scvi-tools.org)进行了训练。 Celltypist使用自定义模型的工作流(https://colab.research.google.com/github/Teichlab/celltypist)进行了训练。 TOSICA使用演示教程(https://github.com/JackieHanLab/TOSICA)进行了训练。 所有细胞类型预测方法的性能通过F1分数进行评估。 Para_03 为了对所有15个测试数据集进行基准测试(图3e),从15项研究中随机抽取了143,638个细胞谱系。 然后,这些细胞谱系被过滤到测试集注释中存在的细胞类型中。 使用剩余的103,116个训练细胞谱系来学习New CellTypist、TOSICA和scANVI模型,这些细胞谱系来自所有训练数据集,并且加权处理使得每项研究在完整的训练集中具有相同的代表性。 Outlier filtering 异常值过滤
Para_01 为了在可视化和下游分析前过滤异常细胞,使用了SCimilarity的评分来标记那些分布外的细胞。 在进一步分析之前,将训练集中最近细胞评分小于33的细胞移除。 这些细胞中的许多来自永生化细胞系,并反映了它们与原代细胞的不同(以及在训练集中的缺失)。 请注意,如果不移除分布外的细胞,这些细胞将无法被准确注释,并可能干扰可视化。 Macrophage query preprocessing 巨噬细胞查询预处理
Para_01 为了准备FM细胞的细胞查询,使用了公共数据集1(GSE136831和https://www.ipfcellatlas.com),对所有摄入的数据进行了相同的预处理步骤,并使用Scanpy的scanpy.tl.score_genes函数结合SPP1、TREM2、GPNMB、MMP9、CHIT1和CHI3L1的基因特征进行评分。 得分最高的前50个细胞的平均特征谱被SCimilarity嵌入,并用作SCimilarity细胞搜索模型的输入查询,在图4和图5中的分析中一直使用。 Foundation model benchmarking 基础模型基准测试
Para_01 SCimilarity、scGPT5(版本0.2.1,2023年6月23日模型)和scFoundation80(2023年12月9日模型)在数据集GSE128033上使用FM和肌成纤维细胞基因特征以及从GSE136831中衍生的细胞查询谱系进行了比较。 查询细胞谱系被定义为使用scanpy基因特征在GSE136831中得分最高的前100个细胞的质心。 根据scGPT参考映射教程(https://github.com/bowang-lab/scGPT)和scFoundation get_embedding.py脚本(https://github.com/biomap-research/scFoundation)文档,查询谱系和GSE128033中的所有细胞都被嵌入。 使用欧几里得距离计算嵌入查询谱系与GSE128033中所有细胞之间的嵌入距离。 在每个模型中,使用Spearman等级相关系数(ρ)计算基因特征评分与查询细胞状态距离之间的相关性。 SCimilarity预测的细胞类型注释限制在肺组织中存在的28个细胞本体术语内。 Quality control for query input 查询输入的质量控制
Para_01 细胞查询的结果取决于用于查询的聚类中心。为了帮助用户生成有效的细胞状态查询,从查询细胞(即分组中的细胞及其聚类中心)计算一个统计数据。 为了获得稳健且有意义的查询结果,细胞状态应该是相对同质的一组细胞的聚类中心。 为了评估聚类中心的质量,其底层细胞被细分为10个聚类(k=10),然后从细分聚类中计算出10个聚类中心,并对每个聚类中心最相似的100个邻居进行SCimilarity搜索(默认n=100最近邻)。 将父聚类中心谱与每个k均值细分聚类中心之间的细胞查询结果重叠均值报告为查询稳定性的度量。 Myofibroblast and FM co-occurrence 肌成纤维细胞和FM共存
Para_01 两种细胞状态的同时出现是通过两次独立查询的结果计算得出的。 每个查询(例如,FM 和与纤维化相关的肌成纤维细胞)在每个样本中的相对频率是通过计算在该样本中高度相似(SCimilarity 得分的第 95 百分位及以上)于每个查询谱的搜索细胞数量来量化,再除以样本中搜索细胞的总数。 对于 FM 的‘搜索细胞’包括单核细胞或巨噬细胞的所有亚型(经典单核细胞、中间单核细胞、非经典单核细胞、巨噬细胞或肺泡巨噬细胞)(图 4c)。 对于与纤维化相关的肌成纤维细胞的‘搜索细胞’是指所有被注释为成纤维细胞或肌成纤维细胞的细胞(扩展数据图 5a)。 只有体内组织样本中至少包含 50 个巨噬细胞和 50 个成纤维细胞才会被考虑。 Important genes and pathways in FMs FMs中的重要基因和通路
Data availability Para_01 本研究产生的体外数据已存放在GEO数据库,访问编号为GSE280632。 模型权重、单细胞数据嵌入、精心整理的元数据和k-NN图已存放在Zenodo83(https://doi.org/10.5281/zenodo.10685499)。 用于模型训练、模型测试或作为未标记参考集的一部分的公共sc/snRNA-seq研究的源存储库和访问编号见补充表1。 Code availability Para_01 代码和教程可在 GitHub (https://github.com/Genentech/scimilarity) 获取。与本出版物配套的代码快照可在 Zenodo84 (https://doi.org/10.5281/zenodo.14087552) 查阅。 代码许可证:Apache 2.0。预训练模型权重、k-NN 和预先构建的索引许可证:CC-BY-SA 4.0。