Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >基因组 | Nat.Genet | InDel 新分类系统

基因组 | Nat.Genet | InDel 新分类系统

作者头像
生信菜鸟团
发布于 2025-05-23 03:14:58
发布于 2025-05-23 03:14:58
800
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

Basic Information

  • 英文标题:A redefined InDel taxonomy provides insights into mutational signatures
  • 中文标题:重新定义的InDel分类提供了对突变特征的见解
  • 发表日期:10 April 2025
  • 文章类型:Article
  • 所属期刊:Nature Genetics
  • 文章作者:Gene Ching Chiek Koh | Serena Nik-Zainal
  • 文章链接:https://www.nature.com/articles/s41588-025-02152-y

Abstract

Para_01
  1. 尽管存在有害影响,小的插入和缺失(InDels)受到的关注远少于替换。
  2. 在此,我们生成了同源的CRISPR编辑的人类细胞模型,用于研究复制后修复功能障碍(PRRd),包括DNA错配修复(MMR)以及复制性聚合酶(Pol ε和Pol δ)的单个和组合基因编辑。
  3. 揭示了独特的、多样的InDel突变足迹。
  4. 然而,现有的InDel分类框架无法将这些InDel特征与背景诱变及其他特征区分开来。
  5. 为了解决这个问题,我们开发了一种替代的InDel分类系统,该系统考虑了侧翼序列和信息性基序(例如,较长的同源多聚体),从而能够将InDel无歧义地分类为89种亚型。
  6. 通过对100,000基因组项目中七种肿瘤类型的深入分析,我们发现了37种InDel特征;其中27种是新的。
  7. 除了揭示以前隐藏的生物学见解外,我们还开发了PRRDetect——一种高度特异的PRRd状态分类器,可能对免疫治疗具有潜在意义。

Main

Para_01
  1. 小插入和删除(InDels;<100 bp)是继替换之后第二常见的遗传变异形式。
  2. InDel诱变是显著且非随机的,反映了潜在的突变过程,无论是正常生理的无害副产物,还是外源暴露和/或内源性功能障碍的有害后果。
Para_02
  1. 过去十年对突变过程的研究主要集中在替换上,
  2. 近年来在插入缺失检测和注释方面的进展,已导致在人类癌症中识别出18种小的插入缺失特征(IDS)。
  3. 这些特征是通过一个83通道分类系统(即83种插入缺失亚型,本文称为COSMIC-83)定义的,该系统基于插入缺失大小、受影响的核苷酸、侧翼单核苷酸/多核苷酸重复长度以及插入缺失连接处的序列同源性等特征。
  4. 随后使用改进的算法重新分析同一数据集,报告了另外九种新的从头产生的IDS。
Para_03
  1. 准确的插入缺失特征分析对于生物和临床目的至关重要。
  2. 例如,微同源介导的缺失占比较高是临床上可操作的同源重组缺陷的关键预测因素,在同源重组缺陷检测和分类算法中具有最大的权重。
  3. 此外,错配修复缺陷肿瘤中微卫星不稳定性(MSI)的检测依赖于测量全基因组插入缺失突变和/或分析单核苷酸/二核苷酸重复的面板。
  4. 最近的研究还强调了2–5个碱基对的短缺失和2–4个碱基对的重复是TOP1活性的不同读数(在RNaseH2缺失细胞中被放大)和TOP2A功能障碍的不同读数。
Para_04
  1. 鉴于InDel突变在肿瘤分类和治疗敏感性预测中的重要性日益增加,我们建立了一个‘真实情况’的实验IDS集,重点在于‘复制后修复缺陷’(PRRd),这包括MMR缺陷和复制聚合酶校对缺陷——这些生物学异常通常对免疫检查点抑制剂(ICI)表现出极高的敏感性。
  2. 我们发现现有的InDel分类方案(COSMIC-83)存在固有局限性,阻碍了其区分生物上不同的特征的能力。
  3. 为了解决这个问题,我们探讨了是否将InDel两侧的序列(对于替代分类至关重要的部分)纳入考虑,可以提供额外的理解和解析能力。
  4. 此外,已知会增加突变易感性的序列基序及其全基因组的普遍性也被纳入我们的提议中。
  5. 我们的方法能够明确地将每个InDel归类到特定的子类别中。
  6. 在此,我们证明了我们的替代InDel分类方法揭示了InDel突变的新病因,提供了机制上的见解和潜在的临床附加价值。

Results

Diversity of InDel patterns in PRRd

PRRd中InDel模式的多样性

Para_01
  1. 我们通过在hTERT永生化的RPE1(TP53−/−)细胞系中引入CRISPR编辑,生成了一个‘真实情况’的同源细胞模型集。
  2. 我们创建了四个单MMR基因敲除(ΔMLH1、ΔMSH2、ΔMSH3和ΔSETD2),两个聚合酶Pol ε的错义突变敲入突变体(POLE外切酶突变体p.P286R和p.L424V),两个Pol δ的突变体(POLD1外切酶突变体p.S478N和聚合酶突变体p.R689W)以及三种结合聚合酶校对突变和MMRd的双突变体(POLD1S478N/+ΔMLH1、POLD1S478N/+ΔMSH2和POLEP286RΔMSH2;补充表1和2)。
  3. 成功编辑的克隆在培养中扩增约45–50天,以允许突变积累。
  4. 随后,每个基因型分离出两到五个子克隆进行全基因组测序(WGS)和突变特征分析(图1a)。

Fig. 1: Isogenic PRRd human cell lines exhibit distinct InDel patterns.

- 图片说明

◉ a,TP53缺失的hTERT永生化视网膜色素上皮细胞(hTERT-RPE1TP53缺失,以下简称背景对照)中的突变积累实验。◉ b,CRISPR基因编辑的InDel负担和平均InDel倍数增加(每种基因型有2-5个亚克隆;补充表1-3)。◉ 红色虚线表示对照亚克隆的InDel负担均值。y轴以对数尺度显示InDel负担。◉ c,区分编辑亚克隆与背景对照的COSMIC-83 InDel特征。浅蓝色误差条表示未编辑对照的n=100次自举InDel特征与背景特征之间的余弦相似度的均值±3个标准差(扩展数据图1d),汇总自n=7个未编辑亚克隆。◉ x轴以对数尺度显示InDel数量。◉ d,减去背景后的基因编辑相关的COSMIC-83 InDel突变特征(补充表4)。◉ e,COSMIC ID1、ID2和ID7的关键特征(v.3.3)。◉ f,基因编辑ID与COSMIC ID之间的余弦相似度热图(v.3.3)。已知和提出的病因标注在热图上方(蓝色)。◉ g,将d中基因编辑InDel特征分解为COSMIC ID(v.3.3)的解决方案。

Para_02
  1. 除了ΔSETD2外,我们观察到所有基因编辑与未编辑对照(背景)相比,插入缺失负担均升高(图1b和补充表3)。
  2. ΔMSH3和POLD1R689W的突变负担大约高出两倍,POLD1S478N、POLEL424V和POLEP286R高出十倍,ΔMSH2和ΔMLH1高出55倍,特别是在联合基因编辑中尤为显著——POLD1S478N/+ΔMLH1和POLEP286RΔMSH2高出约200倍,POLD1S478N/+ΔMSH2高出300倍。
Para_03
  1. 除了ΔSETD2之外,所有线条与对照组相比在COSMIC-83 InDel特征谱中均表现出差异(图1c和补充表4)。
  2. 我们注意到基因编辑之间的区分特征(图1d和扩展数据图1)。
  3. 对于ΔMLH1、ΔMSH2和ΔMSH3,观察到在6 bp或更长的同源多聚体(poly-T6+)中的主要1 bp T缺失,而POLD1S478N和POLEP286R则表现出在poly-T5+处的特异性1 bp T插入。
  4. POLD1R689W、POLEL424V以及所有三种聚合酶/MMRd编辑主要表现出在长同源多聚体中的1 bp T插入,尽管并非完全如此,不同基因型之间存在1 bp T缺失的差异。
  5. 总体而言,这些实验揭示了不同PRRd突变体之间独特的、多样化的InDel特征。
  6. 值得注意的是,同一基因内的突变但影响不同的功能蛋白结构域表现出特征变化(即,POLD1的外切酶p.S478N与聚合酶p.R689W)。
Para_04
  1. 我们还检查了所有基因编辑的替换模式(扩展数据图2和补充表5)。
  2. 有趣的是,MMRd细胞系的替换与插入缺失比例低于对照组,而聚合酶功能障碍(Pol-dys)细胞系表现出显著增加的比例(扩展数据图2h)。
  3. 这表明,基因组不稳定性主要由MMRd中插入缺失突变的过量驱动,而替换突变在聚合酶校对功能障碍中起更重要作用。
  4. 此外,突变不对称性分析显示,POLE突变体在前导链上同时富集了替换和插入缺失,而POLD1突变体则表现出滞后链偏向,特别是在5-7个核苷酸的同源多聚体区域出现T插入(补充图1和补充表6)。
  5. 这与假设的Pol ε和Pol δ分别在前导链和滞后链合成中的优先活性一致,表明POLE/POLD1突变体在复制通过5-7个核苷酸的poly-T区段时倾向于在新生链上积累1个碱基的A插入。
  6. 这支持了聚合酶ε和δ在检测模板腺嘌呤处错误配对碱基方面更为高效的观点。
Para_05
  1. 然而,尽管PRRd基因型的实验InDel谱型具有相当的多样性,但很难将基因编辑特征与背景诱变区分开来。
  2. 聚类分析和基因编辑与对照InDel谱型的直接比较显示了极高的相似性(余弦相似度>0.9;扩展数据图1a,b,d)。
  3. MMRd和Pol-dys特征之间的区分也受到限制(扩展数据图1e)。
  4. 使用余弦距离的无监督聚类显示,特征主要分为两组——以缺失为主的MMRd特征和以插入为主的聚合酶突变特征(扩展数据图1f)。
  5. 因此,我们研究了COSMIC-83分类法的充分性,因为十种基因编辑之间的信号变化主要出现在两个通道中——在poly-T5+处的1 bp T插入和在poly-T6+处的1 bp T缺失。

Limitations of current InDel taxonomy

当前插入缺失分类法的局限性

Para_01
  1. 我们将实验基因编辑的InDel特征与COSMIC ID7进行了比较。ΔMSH2和ΔMLH1的InDel特征与所谓的MMRd相关ID7没有相似性(图1f)。相反,ΔMSH2和ΔMLH1的特征最类似于ID1和ID2,这些特征分别归因于新生链和模板链滑动相关的正常复制错误(图1d–g)。
  2. ,
Para_02
  1. COSMIC-83分类将同源多聚体中大于5个碱基的单碱基插入/缺失归入单一通道(即删除为T6+,插入为T5+;图1e和扩展数据图3a–d)。
  2. 然而,微小插入/缺失的形成概率随着简单核苷酸重复长度的增加而增加,这是MMRd的一个已知特征。
  3. 我们推测,较长同源多聚体中鉴别信号被归入单一的‘T5+插入’或‘T6+删除’通道,可能会降低特征提取的区分能力。
  4. 因此,MMRd特征无法与正常复制错误的特征区分开来。
  5. 这与相应的PRRd相关突变特征形成对比,这些特征在MMRd和/或Pol-d癌症中表现为明显且多样的模式。
Para_03
  1. 值得注意的是,ID7在被认为最有信息量的同聚体通道(>5 bp)中没有信号。相反,信号仅出现在与ID1和ID2相关的通道中(图1e),导致所有MMRd基因编辑特征被系统性地错误归因于ID1和ID2(图1f,g)。
  2. 此外,POLE、POLD1突变体以及所有组合聚合酶/MMRd编辑的InDel特征使用COSMIC-83分类法与ID1无法区分,有时彼此之间也无法区分(扩展数据图1e)。
  3. 聚合酶突变体POLD1R689W的特征与任何已报告的特征都不相似。
  4. 由于基因编辑的InDel诱变主要发生在较长的同聚体上,并且被错误地归因于ID1和/或ID2(图1g),我们探讨了是否可以通过扩展长同聚体通道并修改单个InDel通道中呈现的信息来提高分辨率,以区分看似相似但不同的生物特征,同时不损害特征提取的能力。

A new framework for classifying InDels

一种用于分类InDels的新框架

Para_01
  1. 与替换类似,结合周围序列特征可能会增强InDel目录在特征分析中的区分能力。
  2. 我们首先根据InDel是插入、缺失还是复杂InDel(同时发生插入和缺失)进行分类(图2a)。
  3. 在插入和缺失中,InDel按基序大小(1 bp与≥2 bp)进行亚分类。
  4. 对于1 bp的InDel,我们考虑了核苷酸组成(C/G与A/T基序)、5′和3′侧翼碱基以及同聚体区的长度。
  5. 对于≥2 bp的InDel,我们识别了InDel内部的最大重复基序,并在3′序列中考虑了其重复长度(补充说明1)。
  6. 对于在InDel连接处具有微同源性的缺失,我们考虑了缺失基序长度(L)和微同源长度(M)。
  7. 这种全面的分类方法产生了476个非重叠的InDel子类别(通道;补充表7和补充说明)。

Fig. 2: Redefined InDel taxonomy improves discriminatory power and reveals differential InDel patterns associated with PRR gene edits.

- 图片说明

◉ a,提出的InDel分类方案和一个ΔMSH2亚克隆的89通道InDel图谱。b,区分编辑亚克隆的89通道InDel图谱与背景对照组。浅蓝色误差条表示未编辑对照组n=100次自举的InDel图谱与背景图谱之间余弦相似性的均值±3个标准差(扩展数据图5b),这些数据来自n=7个未编辑亚克隆。x轴显示的是InDel数量的对数刻度。c,编辑亚克隆和自举对照组在COSMIC-83 InDel图谱中与89通道InDel图谱的余弦相似性。双尾Wilcoxon符号秩检验,P = 1.917 × 10−7)。d,经过背景减除后与PRRd基因编辑相关的89通道InDel突变特征(补充表4;https://signal.mutationalsignatures.com/explore/main/experimental/experiments?study=7)。Ins,插入;Del,缺失。◉ 这是 Sentence_02 的中文翻译◉ 这是 Sentence_03 的中文翻译◉ 这是 Sentence_04 的中文翻译◉ 这是 Sentence_05 的中文翻译◉ 这是 Sentence_06 的中文翻译

Para_02
  1. 我们检查了所有476个通道是否具有信息量。
  2. 通过分析来自国际癌症基因组联盟(ICGC)/癌症基因组数据库(TCGA)33、Hartwig34以及基因组英国(GEL)10万基因组项目35(扩展数据图3e)的18,522个肿瘤中所有通道的InDel分布,我们确定了无信息量的通道(即没有信号的通道),并将信号较弱的通道合并,从而将InDel通道总数减少到89个(图2a、扩展数据图3f和补充表8)。
  3. 总体而言,与COSMIC-83相比,89通道分类系统扩展了具有大部分信号的通道,这里是指1 bp A/T InDel,将其扩展为更广泛的通道,并将较长的InDel和/或在基因组中不常见的基因组基序(信号稀少或不存在)归并为更少的InDel子类别(扩展数据图4)。
  4. 尽管两种分类系统最终的数字差异不大,但我们的数据驱动方法,结合序列背景并增强单核苷酸/多核苷酸重复区的信号分布到额外的通道,为突变特征提取和分配过程提供了替代信息,可能增加检测新的生物学上有意义特征的可能性。
Para_03
  1. 为了验证这一点,我们将新的89通道InDel分类方法应用于我们的真实基因编辑数据集(补充表4)。
  2. 与COSMIC-83相比,实验性InDel图谱与对照之间的余弦相似度在89通道格式下要低得多(图2b,c和扩展数据图5a,b),这表明新的分类方法提高了基因编辑与背景的分离效果(89通道的平均余弦相似度为0.68 ± 0.08,COSMIC-83为0.89 ± 0.11;双尾Wilcoxon符号秩检验,P = 1.917 × 10−7)。
  3. 随后,我们使用89通道格式确定了与每种基因编辑相关的特征。
  4. 所得特征在整个89通道图谱中表现出更均匀分布的信号(图1d、2d和扩展数据图5c)。
  5. 基因编辑特征之间也更容易区分(89通道的平均特征对间余弦相似度为0.57 ± 0.25,COSMIC-83为0.64 ± 0.3;双尾Wilcoxon符号秩检验,P = 1.483 × 10−5;扩展数据图5d,e)。
  6. 值得注意的是,MMRd/聚合酶突变体的InDel特征并不是各个突变过程的简单叠加,这可能反映了Pol ε和Pol δ与MMR在抑制重复DNA复制过程中InDel形成时的生物学相互作用。
Para_04
  1. 有趣的是,我们注意到虽然MMR缺陷在较长的同源多聚体中尤其被放大(8–9 bp > 5–7 bp > 0–4 bp),但聚合酶突变体在较短的同源多聚体中表现出明显不同的插入突变分布(5–7 bp > 8–9 bp > 0–4 bp;图2d)。
  2. 由Pol ε和Pol δ的校对功能缺陷导致的较短同源多聚体中InDel率的提高,可能反映了它们与聚合酶活性位点上游双链DNA相互作用的距离。
  3. 事实上,Pol ε和Pol δ的晶体结构显示,在聚合酶活性位点附近5–7 bp范围内与双链DNA有大量接触,实验模型也支持这一最佳距离,解释了为何校对可能对活性位点上游这一‘足迹’以外的插入缺失提供较少保护(即活性位点更上游的未配对碱基;在较长的重复序列中MMR起着更关键的作用)。
  4. 这些独特的见解仅因新的89通道格式而变得明显,该格式能够更好地捕捉生物变异。
Para_05
  1. 为了比较两种分类系统的鉴别能力,我们还在我们的真实实验数据集(n = 37;扩展数据图6a)上进行了从头开始的特征提取。
  2. 使用COSMIC-83,仅提取了两个从头开始的特征——一个以多聚-T5+区域的T插入为主(ID83A),另一个以多聚-T6+区域的T缺失为主(ID83B;扩展数据图6b)。
  3. 相比之下,89通道格式产生了四个特征,与我们对主要由缺失驱动的MMRd特征的预期相匹配(InD89B),一个主要由插入驱动的聚合酶特征(InD89D),以及两个具有不同InDel比例的独立特征(InD89A和InD89C),可能反映了聚合酶/MMRd表型的组合(扩展数据图6c)。
  4. ,
Para_06
  1. 最后,为了确定这种通道信息内容与特征提取之间的关系是否适用于其他数据集和工作流程,我们使用三种不同的算法对来自ICGC33的52个无关结直肠WGS样本进行了处理。
  2. 所有三种算法都无法使用COSMIC-83识别所有可用的特征,达到五种的区分极限,产生的特征信号密度高度集中在两个通道中。
  3. 相反,89通道格式在所有使用的算法中都能持续检测到更多新的特征。
  4. 提取的特征也显示在更多通道上有信号,突显了89通道分类在揭示额外的真实突变过程方面的优越性能。

New InDel signatures (InDs) in seven cancer types

七种癌症类型的新型插入缺失特征(InDs)

Para_01
  1. 为了探索我们的新型InDel分类体系在人类癌症中对PRRd表型以外的特征发现的影响,我们分析了七种肿瘤类型(n = 4,775),这些肿瘤类型由于各种异常(例如,MMRd、环境紫外线(UV)辐射、APOBEC相关诱变)表现出临床上相关的高肿瘤突变负荷(TMB)——来自GEL 100,000 Genomes Project35的数据(图3a)

Fig. 3: De novo signature extraction using redefined InDel taxonomy uncovers 37 InDS in seven cancer types in the GEL cohort.

- 图片说明

◉ 七种癌症类型(n = 4,775;左图)中插入缺失的负担以及每种插入缺失对GEL肿瘤的突变数量的贡献。每个点的大小表示每种肿瘤类型中显示该突变特征的样本比例。每个点的颜色表示显示该特征的样本中该特征的中位突变负担(每Mb)。◉ b,从七个GEL癌症队列中提取并整理的37个共识插入缺失突变特征(InDS)的特征图谱(补充表10;https://signal.mutationalsignatures.com/explore/main/cancer/signatures?mutationType=3&study=7)。左上角的菱形框提供了可能的病因。N-Slip,新生链滑动;T-Slip,模板链滑动;NHEJ,非同源末端连接。

Para_02
  1. 我们按照之前描述的方法对每种肿瘤类型进行了突变特征分析(图3a、扩展数据图7和补充表9–11;方法)。
  2. 我们鉴定了37个共识插入缺失特征,称为InDS(以区别于COSMIC IDS;图3b)。
  3. 其中10个特征具有可映射到已知IDS的特征(InD1、InD2a、InD3a/InD3b、InD4a、InD6、InD8、InD9a、InD13和InD18)。
  4. 其余27个是新的。
Para_03
  1. 外源性暴露是五种InDS的基础。InD3a和InD3b在有吸烟暴露的肺癌中经常同时发生。
  2. InD3a/InD3b与由苯并(a)芘及其代谢产物苯并(a)芘二醇环氧物诱导的实验特征聚集在一起(扩展数据图8和9),支持了这些特征代表了与吸烟相关的DNA损伤的调节版本的观点。
  3. InD13以TT二核苷酸处的T缺失为特征,与紫外线损伤有关,而InD18仅在结直肠样本中发现,是由于大肠杆菌素暴露。
  4. InD32在曾接触铂的样本中被识别,并与一种新的铂相关特征SBS112相关。
Para_04
  1. Twenty InDS具有可能的内源性起源(扩展数据图9)。
  2. 其中一些已经被描述过,包括InD1和InD2a,分别与正常DNA复制过程中新生链和模板链滑动相关的错误有关。
  3. InD1和InD2a在所有肿瘤类型中普遍存在,除了中枢神经系统和皮肤癌,这些癌症表现出一种组织特异性的变体InD2b(图3a)。
  4. InD4a归因于TOP1转录相关突变。
  5. InD6以微同源介导的缺失为特征,与同源重组修复缺陷有关。
  6. InD8具有删除区域几乎没有或没有微同源性的缺失,很可能反映了非同源末端连接活动和/或放疗的痕迹。
Para_05
  1. InD9a与SBS2和SBS13的超突变相关,特征是在TCT和TCA处出现1个碱基的C删除(突变碱基下划线),与SBS2/SBS13的可变基序相同,特别是在短的多T片段中。
  2. 它可能是由APOBEC引起的(扩展数据图8c),并通过APOBEC过表达的DT40模型实验证据得到证实。
  3. 我们提出了一种突变机制,即APOBEC在TCT处对C进行脱氨作用后,UNG移除尿嘧啶会留下一个无信息的脱嘌呤位点。随后,模板链可以在这一短重复的T片段上滑动,导致C的删除(扩展数据图8d)。
  4. 由于目前尚不清楚的原因,我们也发现了类似的以C删除为主的InD9b/InD9c,尽管它们类似于InD9a,但没有对前导T的偏好,并可能是由另一种机制引起的。
Para_06
  1. 有趣的是,我们提取了八个基因特异性的MMRd和Pol-dys InDS。
  2. MMRd-InD7与COSMIC ID7不同。
  3. InD7以1 bp和2 bp缺失的预期过剩为特征,尤其是在较长的单核苷酸/二核苷酸重复区域。
  4. InD7与ΔMLH1、ΔMSH2和ΔMSH6的实验特征聚集在一起(扩展数据图9)。
  5. 我们还鉴定出InD19(由于PMS2缺陷),InD14(与POLD1外切酶突变相关),InD15(与POLE外切酶突变相关),InD16a和16b(由于POLE校对功能和MMR的同时丧失),InD21(与POLD1校对缺陷和MMRd相结合相关)以及InD20,我们通过实验研究发现它是由在POLE功能障碍背景下的MMRd引起的。
Para_07
  1. 剩余的12个签名病因不明。
  2. 其中5个可能是人工产物——InD27和InD28经常同时出现,导致数千个插入缺失,并与SBS57相关,可能是扩增或测序的人工产物。
  3. InD28m很可能是InD28和InD4的混合特征,需要更大的队列来解决。
  4. InD5和InD10普遍存在,可能是人工产物。
Para_08
  1. 虽然C的插入在聚-C区段后跟随一个3′A时主导了InD26和InD30,但InD30的C插入在同源重复CCC和CCCC中引发了数千次插入,而InD26的C插入主要发生在更长的CCCCC中,并且与超突变无关。
Para_09
  1. 三个InD(InD31、InD24和InD12)与其他类别的特征表现出显著的相关性。
  2. InD31在短同源序列(<5 bp)中显示出独特的C缺失,随后在短同源序列(<5 bp)中出现3′G和T缺失,随后是3′A。
  3. 它仅在具有新型罕见SBS105的样本中被报道,且通常与InD8同时出现。
  4. InD24的缺失在GTA和GTG处显著峰值,并与DBS8高度相关,该特征显示在同一基序(TGTG > TAGG/TTGG)中出现双重替换。
  5. InD12在二核苷酸AA和AT之间显示出C缺失,并与DBS25有关,该特征在TT二核苷酸处有显著峰值。
  6. 尽管这些特征明显共现,但其成因仍不清楚。
  7. InD4b 和 InD29 分别与 InD4a 和 InD8 具有共同特征。
  8. 它们是否代表组织特异性变异、是混合的还是由不同机制引起的,需要进一步研究。
  9. InD11 似乎与 InD1 相关,可能是高 InDel 负荷样本中经常富集的过度分割特征,例如那些具有 MMRd 和 Pol-dys 的样本。
  10. 在膀胱癌和结直肠癌中发现的 InD23 展现出非重复区域插入长度(≥5 bp)的显著模式。
  11. 这些插入几乎全部是由相邻序列串联复制产生的。
  12. InD33 在一种接受替莫唑胺治疗的 CNS 肿瘤中最明显;然而,其病因仍不清楚。
  13. 总之,5个InDS可能是外源性的(InD3a、InD3b、InD13、InD18和InD32),20个是内源性的(InD1、InD2a、InD2b、InD4a、InD4b、InD6、InD7、InD8、InD9a、InD9b、InD9c、InD11、InD14、InD15、InD16a、InD16b、InD19、InD20、InD21和InD29),12个来源不确定(InD5、InD10、InD12、InD23、InD24、InD26、InD27、InD28、InD28m、InD30、InD31和InD33)。

A signature-based classifier of PRR dysfunction

基于签名的PRR功能障碍分类器

Para_01
  1. PRRd亚型,以MSI为特征,临床上具有可操作性,可能对免疫治疗有选择性敏感性。
  2. 目前检测PRRd的主要方法依赖于MMR蛋白的免疫组化(IHC)染色(但不适用于聚合酶突变体)和/或基于PCR的检测方法,用于确定选定基因组位点的MSI。
  3. 这些检测方法不够敏感或不够可靠,尤其是在非上皮组织中。
  4. 因此,利用本研究的见解,我们探索了构建一个分类器用于肿瘤PRRd分层,将MMRd、Pol-dys和混合MMRd/Pol-dys作为独立类别,与PRR功能进行区分。
Para_02
  1. 我们使用了571例MMRd(n = 214)、Pol-dys(n = 36)、混合MMRd/Pol-dys(n = 41)或PRR正常(对照组,n = 280)的GEL癌症,这些病例是根据确认的致病基因型和等位基因状态,以及/或支持性的IHC染色确定的(图4a和补充表12)。
  2. 作为对照组的样本既没有通过关键MMR基因(即MLH1、MSH2、MSH6和PMS2)、POLE、POLD1中缺乏驱动突变来确认MMRd和/或Pol-dys,也没有显示出与这些异常相关的MSI证据。
  3. 我们训练了多个多项弹性网络回归模型,并在数据集中反复应用7:3的划分。
  4. 通过探索所有可能的特征/模型(补充表13),我们确定了与MMRd、Pol-dys和混合MMRd/Pol-dys相关的SBS和InDS暴露,以及总InDels与替换的比例作为最具预测性的特征(图4b和补充表14;方法部分)。
  5. 最终模型称为PRRDetect(复制后修复检测),在完整数据集(n = 571)上重新训练。
  6. 然后,在一个独立的验证队列中,包括504例ICGC乳腺癌和847例GEL癌症,其PRRd的真实标签已知,PRRDetect在区分PRR功能障碍与PRR正常样本时,达到了AUROC(受试者工作特征曲线下面积)为1,AUPRC(精确率-召回率曲线)为0.99,表现优于其他MSI/MMRd检测工具,包括MSIseq、MMRDetect和TMB——一种被批准用于免疫治疗的生物标志物(图4c,d和补充表12、15和16)。
  7. PRRDetect在区分PRR功能障碍与PRR正常样本时,表现优于其他MSI/MMRd检测工具,包括MSIseq、MMRDetect和TMB——一种被批准用于免疫治疗的生物标志物。

Fig. 4: PRRDetect improves the detection of tumors with PRR dysfunction.

- 图片说明

◉ PRRDetect分类器开发的简化流程。(1) 使用571个真实样本进行初步探索性训练。(2) 最终重新训练以生成PRRDetect分类器。-ve ctrl,阴性对照。◉ 七个基因组特征对最终PRRDetect分类器的系数分布。绿色误差条表示交叉验证中十次重复训练的均值±标准差。红色点表示每个类别预测所选择的最终系数(补充表14)。◉ PRRDetect在独立癌症队列中的验证和应用。◉ ROC曲线展示了PRRDetect在独立癌症队列(n = 1,351)中优于其他生物标志物策略的表现。P值是基于AUC差异的自举分布(10,000次)计算的双侧非参数检验。MMRDetect,P < 2.2 × 10−16;MSIseq,P = 6.617 × 10−15;TMB,P < 2.2 × 10−16。◉ PRRDetect对n = 1,335 ICGC和Hartwig癌症的结果,按x轴从左到右的预测概率从低到高排序(MMRd为紫色,MMRd/Pol-dys组合为蓝色,Pol-dys样本为橙色)。负样本按TMB从左到右递增顺序排列。MSIseq、MMRDetect、癌症基因驱动注释和癌症组织来源的结果标注在底部轨道。虚线矩形突出了使用TMB > 10个突变每Mb作为截止值时假阳性过度报告的范围。◉ TMB高(>10个突变每Mb)、暴露于导致超突变的SBS特征以及PRRDetect预测在n = 1,335 ICGC和Hartwig癌症中的结果一致性。◉ TMB高(>10个突变每Mb)、暴露于导致超突变的SBS特征以及PRRDetect预测在n = 4,775 GEL肿瘤中的结果一致性。muts,突变。

Para_03
  1. 接下来,为了调查PRRd在其他癌症队列中的普遍性,我们使用PRRDetect对七种常见于高突变样本的癌症类型进行了分析,这些样本来自ICGC33和Hartwig34(图4c、e、f,扩展数据图10a、b和补充表17)。
  2. PRRDetect预测了3.7%(50/1,335)的样本为PRR功能障碍,正确识别了所有Pol功能障碍、MMR功能障碍/Pol功能障碍样本,并遗漏了两个亚克隆MMR功能障碍样本(基于可用的已发表的PRR功能障碍状态驱动信息)。
  3. MSIseq未能识别出43个PRRDetect预测的MMR功能障碍中的6个,2个混合型MMR功能障碍/Pol功能障碍病例,而在检测纯Pol功能障碍病例方面表现不佳(即遗漏了全部7个病例)。
  4. 不出所料,PRRDetect捕获了所有MMRDetect阳性病例。
  5. 然而,MMRDetect未能识别所有PRR功能障碍病例,因为它并未设计用于检测Pol功能障碍/混合表型,并遗漏了7个MMR功能障碍样本。
  6. 值得注意的是,我们注意到许多PRRDetect阳性病例没有相关的驱动突变被识别出来(50例中有33例)。
  7. 这在临床上具有重要意义。在50例PRRDetect阳性病例中,有39例是MMR功能障碍(只有8例有相关驱动突变),7例是Pol功能障碍(所有病例都有聚合酶校对结构域的驱动突变),4例被预测为混合型MMR功能障碍/Pol功能障碍(其中2例有POLE外切酶突变,没有病例有MMR驱动突变)。
  8. 如果PRRDetect的预测都是正确的,并且测序方法仅专注于识别与这些缺陷相关的驱动事件,那么将有相当大比例的病例(66%)被遗漏。
Para_04
  1. 鉴于PRRd癌症通常表现出高TMB,而TMB被用作免疫治疗的生物标志物,我们探讨了基于TMB的患者分层的局限性。
  2. 根据FDA批准的TMB截断值为每Mb 10个突变49,459例中略超过十分之一被分类为TMB高(50/459,10.9%)的病例显示出预测的PRR功能障碍(图4f,扩展数据图10b和补充表17)。
  3. 其他大多数病例(353/459,76.9%)的高TMB来源于烟草、紫外线和APOBEC暴露;56例(12.2%)是由于其他原因。
  4. 因此,在MMRd和Pol-dys发生频率较高的独立癌症队列中,约89%的TMB高分类样本可能不具有与免疫治疗反应相关的内在生物学基础,这对TMB作为ICI50,51选择性生物标志物的使用具有重要意义。
Para_05
  1. 我们询问这一趋势是否也适用于更大的GEL队列(n = 4,775)。
  2. 在1,371例TMB高病例中,近一半(677,49.4%)被预测为具有MMRd和/或Pol-dys(图4g),其中仅约50%的病例有已确定的驱动因素。
  3. 其余564例(41.1%)的高TMB是由于其他诱变暴露;130例(9.5%)是由于其他未确定的原因。
  4. 此外,除了在结直肠癌(19%,400/2,146)和子宫癌(37%,255/695)等典型肿瘤类型中揭示PRR功能障碍外,PRRDetect还预测了胃癌(11/181,6%)、膀胱癌(3/347,1%)、中枢神经系统癌症(3/392,1%)和肺癌(8/958,1%)中一小部分但值得注意的比例出现PRRd(扩展数据图10c和补充表12)。
  5. 这强化了两个重要的临床观点——首先,尽管PRRd在这些肿瘤类型中更为常见,但它并不局限于结直肠癌和子宫癌;其次,WGS可以作为一种肿瘤非特异性检测方法,未来能够揭示PRRd及其他任何可操作的生物学异常。

Discussion

Para_01
  1. 提取生物相关特征的能力在很大程度上取决于突变的表示或分类方式,而不是用于特征提取的基础算法。
  2. 在这里,我们展示了将潜在的区分性信号归入少数通道且/或不考虑周围序列背景的分类方案,在辨别具有生物学意义的插入缺失模式方面存在局限性,无论使用何种提取算法。
  3. 因此,目前报告的一些插入缺失特征可能对应多种突变过程,影响其分配的特异性。
  4. 为克服这一限制,我们提出了一种替代的插入缺失分类体系,该体系结合了侧翼序列背景,并将信号分布到更广泛的通道中,从而在不牺牲特征提取能力的情况下提高了区分能力。
  5. 使用此框架,我们捕捉到了与PRRd相关的插入缺失特征的显著微卫星不稳定性表型和真实的生物学多样性,这在同源细胞模型和患者肿瘤中均有所体现。
  6. 事实上,这些插入缺失特征反映了癌症中与PRRd相关的不同单碱基替换特征。
Para_02
  1. 此外,我们解码了来自七种癌症类型的37个共识InDS。
  2. 我们确认了十个之前描述过的IDS,包括与吸烟、紫外线暴露和APOBEC活性相关的那些,并报告了八个新的MMRd和聚合酶校对功能障碍的InDS。
  3. 虽然我们为一些新的特征提供了可能的原因和关联,但目前对插入缺失突变机制的理解仍然不完整。
  4. 未来结合更多癌症类型和/或更大样本队列的研究将有助于发现更多的特征并揭示新的病因。
  5. 未来有可能对分类体系进行调整,以包括目前由于使用短读长全基因组测序检测插入缺失时的技术误差率限制而无法探索的特征(即在较长的简单重复区域)。
  6. 这可能也会有启发性。
Para_03
  1. 我们的分类器PRRDetect具有高度的敏感性和特异性。它利用SBS和InD特征来根据PRRd亚型对肿瘤进行分层,并且据我们所知,这是唯一具备此功能的工具。
  2. 重要的是,我们发现目前的MSI/MMRd生物标志物与真实的生物学状态之间缺乏一致性。
  3. 特别是,TMB尽管已被FDA批准,但缺乏特异性。
  4. 这具有深远的临床意义,因为超过50%的TMB高(每Mb超过10个突变)癌症来源于生物学异常和环境暴露,而这些因素没有得到证实的生物学基础用于免疫治疗,可能会对患者预后产生影响。
  5. PRRDetect还可以检测到具有PRR缺陷特征但无法检测到驱动基因的样本(几乎占所有PRRd病例的50%)。
  6. 有限的测序检测方法将简单地遗漏这些肿瘤的大量部分。
  7. 最后,我们的分类器并不区分MMRd基因型,尽管MLH1、MSH2、MSH6和PMS2之间存在明显差异;目前,没有临床指征需要这样做。
  8. 然而,如果将来区分这些基因变得具有临床重要性,那么也是可以实现的。
Para_04
  1. 总之,我们的研究突显了突变分类对签名分析准确性的影响。
  2. 我们决定利用周围序列背景来对插入缺失进行分类,这是基于机制性研究,表明插入缺失的形成与侧翼3′和5′序列之间的关系。
  3. 然而,最佳分类仍然是一个活跃的研究领域。
  4. 其他分类方法未来可能会揭示更多的突变过程。
  5. 通过本文中描述的改进框架来解析插入缺失诱变的图谱,有望为癌症患者带来实际的好处。

Methods

Para_01
  1. 本文所述的实验无需特定伦理委员会的批准。

Cell lines

细胞系

Para_01
  1. 本研究中生成和使用的所有细胞系模型均列于补充表1中。
  2. 所有细胞均在添加了10% FBS的DMEM/F12培养基(Gibco/Thermo Fisher Scientific)中培养,温度为37°C,二氧化碳浓度为5%,在湿度饱和的培养箱中培养。
  3. 原始的hTERT-RPE1 ΔTP53细胞来源于之前的一项研究。
  4. 为了生成其余同源CRISPR编辑的细胞系,每种编辑使用20万RPE1 ΔTP53细胞,用电穿孔法将预先形成的核糖核蛋白复合物(RNP,最终浓度为120 pmol gRNAs和100 pmol Alt-R Cas9)在补充的SE缓冲液中进行电穿孔,使用nucleocuvette和AMAXA 4D-Nucleofector(Lonza),程序为EH-158,按照制造商的说明进行。
  5. 电穿孔后,细胞被重新接种到完全补充的DMEM/F12培养基中,恢复48小时。
  6. 对于敲入实验,同源定向修复(HDR)供体寡核苷酸与RNP一起用于电穿孔,细胞在含有最终浓度为2 μM M3814(Selleckchem)和0.5 μM Alt-R HDR增强剂(Integrated DNA Technologies)的培养基中进行恢复,持续前24小时。
  7. 所有细胞随后培养2至4天,以允许基因编辑,最终通过有限稀释法在96孔板上分离单克隆。
  8. 通过Sanger测序筛选靶向克隆,以确认敲除的移码突变或敲入的预期错义突变的成功情况。
  9. 本研究中生成的所有gRNAs、测序引物和细胞系基因型均总结在补充表1和补充表2中。

Mutation accumulation experiment and sequencing

突变积累实验和测序

Para_01
  1. 双突变体更难建立,但其倍增时间与单突变体相似。
  2. 编辑后的克隆培养了45-55天(约40到50次倍增),以允许突变积累,在此之后进行第二次单细胞极限稀释,以分离每个编辑基因型的两到三个子克隆,从而形成瓶颈,以捕捉自初始编辑亲代克隆分离以来发生的突变。
Para_02
  1. 所有样本的基因组DNA均使用Quick-DNA Miniprep Plus试剂盒(ZymoResearch)按照制造商的说明进行提取。
  2. WGS文库由Novogene制备并在Illumina NovaSeq 6000平台上进行测序(150 bp,双端,25×)。

Somatic variant calling

体细胞变异检测

Para_01
  1. 短读段通过BWA-MEM 0.7.17-r1188对GRCh38/hg38进行比对。
  2. 遗传参考克隆和子克隆中的替换和插入缺失通过之前描述的方法进行检测。
  3. 应用了后处理过滤器以提高突变检测的特异性。
  4. 具体而言,对于CaVEMan54(v.1.13.15)的单核苷酸变异(SNV)检测,我们使用CLPM = 0和ASMD ≥ 140。
  5. 为了减少Pindel55(v.3.2.0)的假阳性检测,我们使用QUAL ≥ 250和REP < 10。
  6. 平均变异等位基因频率低于0.4的细胞克隆被标记为多克隆,并从所有后续定量分析(即突变负荷估计)中排除。
  7. 对替换和插入缺失应用了0.2的变异等位基因频率过滤器。
  8. 子克隆中的新生替换和插入缺失是通过从相应的父代克隆中减去获得的,如果可用的话,或者通过移除子克隆之间共享的突变获得。
  9. 新生突变的数量在补充表3中提供。
  10. 重排未被分析,因为数量太少而无法提供信息。

Mutational signature analysis of experimental samples

实验样本的突变特征分析

Para_01
  1. 使用已发布的框架(https://github.com/xqzou/COMSIG_KO)通过余弦相似性、自举法和背景减法推导了与基因编辑相关的突变特征。
  2. 简而言之,我们首先(1)通过汇总未编辑和未处理亚克隆的突变特征确定了背景对照中的背景突变特征,(2)确定了编辑克隆的突变特征与背景突变特征之间的差异,如果编辑生成了一个特征,我们(3)从编辑亚克隆的突变特征中去除了背景突变特征(补充表4和5)。
Para_02
  1. 我们还使用了统一流形近似和投影(UMAP)来聚类插入缺失(InDel)特征。
  2. 实验得到的特征与已发表的参考特征进行了比较,使用的工具是来自 https://rdrr.io/github/Nik-Zainal-Group/signature.tools.lib/ 的 signature.tools.lib(版本 2.4.4)

Replicative strand asymmetry

复制链不对称性

Para_01
  1. 仅对1 bp InDels进行了复制链偏倚分析。
  2. 使用ENCODE项目(MCF-7)的Repli-seq数据将InDels映射到前导链或滞后链。
  3. 所有1 bp InDels均以嘧啶作为突变碱基进行比对,遵循该领域的惯例。
  4. 这有助于识别InDel对应的链。
  5. 使用BEDTools (v.2.26.0-114-g4c407ce) 中的IntersectBed来识别与特定基因组特征重叠的突变。
  6. 为了评估特定的突变特征,根据这些区域中重复序列的分布计算了滞后链和前导链之间InDels的‘预期’比例。
  7. 通过将InDels映射到所有前导链/滞后链的基因组坐标,确定了不同链之间InDels的‘观察’比例。
  8. 通过计算在一个链(例如前导链)上发生InDels与另一个链(例如滞后链)上的InDels的比值来量化不同链之间的不对称性。
  9. 使用二项式检验或卡方检验计算P值,并使用Benjamini–Hochberg方法对多重检验进行校正。

De novo extraction of InDel signatures from hTERT-RPE1 samples

从hTERT-RPE1样本中重新提取InDel特征

Para_01
  1. 使用 SigProfilerExtractor39(v.1.1.18)以及 SigProfilerMatrixGenerator59(v.1.2.4)进行从头开始的突变特征提取和分解。
  2. 应用了推荐的默认设置(包括 500 次 NMF 重复)。
  3. 也使用 Indel.signature.tools3(v.2.4.4)进行特征提取,设置为默认值(20 次引导,每次引导 500 次重复,匹配聚类)。
  4. 每个通道集选择的 InDel 特征数量是根据聚类特征的平均轮廓宽度的最大下降来确定的。
  5. 对于使用 MuSiCal8(https://github.com/parklab/MuSiCal,v.1.0.0)进行提取,默认超参数包括随机初始化(init 超参数),最小体积非负矩阵分解(MVNMF)算法(method 超参数),20 次 MVNMF 重复运行(n_replicates 超参数),以及每次重复运行中 10,000 到 1,000,000 次 MVNMF 迭代(分别对应 min_iter 和 max_iter 超参数)。

GEL cohort

GEL小组

Para_01
  1. 本研究考虑了结直肠癌(n = 2,146)、子宫内膜癌(n = 695)、胃癌(n = 181)、膀胱癌(n = 347)、脑癌(中枢神经系统,n = 392)、肺癌(n = 958)和皮肤癌(n = 56)的WGS数据(v.8),这些数据来自之前描述过的经过整理的12,222个样本队列。
  2. 使用Strelka60(v.2.4.7)以体细胞调用模式检测插入缺失。

InDel segmentation

InDel 分割

Para_01
  1. 我们利用了InDel与其相关3′序列背景之间的关系,以确定每个InDel在3′序列背景和InDel本身中重复性最大的最小InDel前缀。
  2. 简而言之,对于每个InDel的前缀,我们识别了相关后缀和3′背景中的最大重复子串。
  3. 这适用于所有左对齐且简约的InDel变异。
  4. 我们将这些InDel和3′背景的划分称为‘分段’,并选择包含在3′序列背景和InDel中重复性最高的最小前缀的分段。
  5. 分段产生了多个值,用于量化前缀序列的重复性(称为‘单元’)。
  6. 这些值以及序列背景可用于将InDel分组为生物学相关的、非重叠的InDel子类别或‘通道’。

InDel channel construction

InDel通道构建

Para_01
  1. 通过使用每个InDel的分割值,我们构建了一组476个非重叠的InDel通道。
  2. 通过调查17,253个肿瘤中所有476个通道的InDel频率分布,这些肿瘤涵盖了ICGC/TCGA、Hartwig和GEL 100,000 Genomes Project中的大多数癌症类型,我们排除了没有信号的通道,并将低信号的通道合并,以将InDel通道总数减少到89个。
  3. 最终的89个通道集用于本研究中考虑的实验基因编辑数据集和GEL 100,000基因组项目的癌症WGS。
  4. 通常,通道可以分为六大类——1 bp插入、1 bp缺失、≥2 bp插入、≥2 bp缺失、≥2 bp缺失且有微同源证据以及复杂InDels。
  5. 通道的构建方式使得每个InDel只能被明确地分配到一个通道。
  6. 每个通道的完整描述和示例InDels包含在补充表8中。
  7. 通道构建的推理过程在补充说明中进行了描述。

InDel signature extraction of GEL cohort

GEL队列的InDel特征提取

Para_01
  1. 我们进行签名提取的方法受到先前研究的启发。
  2. 我们观察到,高突变样本对使用标准β散度NMF模型进行签名提取产生了强烈影响。
  3. 我们试图从初始提取中过滤掉高突变样本。
  4. 对于每种组织,我们首先去除总InDel负担小于100的样本,然后根据它们的余弦相似性(余弦距离,1−余弦相似性)使用层次聚类和完全连接方法对样本特征进行聚类。
  5. 通过设定阈值来确定相似样本的聚类,使得平均轮廓宽度最大化,并且聚类内变化最小化。
Para_02
  1. 为了确定特定簇的高突变体,对于每个簇,我们使用两组分高斯混合模型(mixtools61)拟合每个样本的总负担,并与一组分混合模型进行比较,使用贝叶斯信息准则进行模型选择。
  2. 高突变体被定义为总负担超过第三四分位数 + 1.5 × 四分位距的样本的并集,其中四分位数是根据整个数据集计算的,以及由较高负担高斯分布生成的概率超过50%的样本。
  3. 然后按组织手动审查正常和高突变体簇,并且仅使用正常簇进行主要提取。
Para_03
  1. 如前所述,按组织进行了签名提取,增加了自举次数(40次)和每次自举的重复次数(1000次),以提高最终解决方案的稳定性。

Signature refitting and reliably determining excess variation

签名重新调整并可靠地确定过度变化

Para_01
  1. 我们试图通过一个已发表的框架来确定样本目录中是否存在表明稀有或未提取特征的过度变异。
  2. 在重新拟合组织特异性目录时,包括高突变样本,使用 FitMS3 从非高突变样本中提取特征,我们观察到显示较低 InDel 数量的谱型表现出更高的误差(以总残差除以样本负担衡量)。
  3. 通常情况下,随着 InDel 负荷的增加,误差呈对数减少。
  4. 因此,使用单一的拟合误差阈值来定义存在过度变异的样本会排除大量样本。
Para_02
  1. 为了更准确地校准我们对拟合误差的期望,从而确定检测过度变异的阈值,我们进行了一种参数自助法程序,以生成样本特定的预期误差分布。
  2. 对于每个样本目录,我们使用 FitMS 生成的归一化重建轮廓中的每通道密度构建了一个多项分布。
  3. 利用该分布,我们模拟了 10,000 个样本轮廓,其总负担与样本负担相等,用 FitMS 拟合这些轮廓,并计算出结果的误差分布。
Para_03
  1. 将实验得出的误差分布与结果的零分布进行比较,使我们能够估计一个经验P值。
  2. 该过程对GEL队列中的所有样本重复进行,并对P值进行了多重检验校正。
  3. 为了将假发现率控制在5%,选择了调整后的P值小于0.05的样本进行进一步分析,以确定罕见特征。

Rare signature extraction and refinement

稀有签名的提取与优化

Para_01
  1. 对于每种组织,使用减去FitMS重构的轮廓后的残差信号对变异过大的样本进行了聚类。
  2. 使用平均链接和欧几里得距离的层次聚类在每种组织中产生了多个聚类。
  3. 对每个聚类进行了第二次签名提取,使用初始的主组织特异性签名集来初始化签名矩阵。
  4. 每个聚类确定了额外的一个到五个稀有签名,并将稀有签名的数量确定为n的最小值,使得稀有签名不会被发现能够完美再现聚类成员或匹配常见签名。
  5. 所有从一种组织中提取的稀有签名都经过人工整理以识别重复模式,并选择了与常见签名混合最少的稀有签名实例。
  6. 使用每种组织的共识常见和稀有签名集,对每个目录中的所有样本重新拟合FitMS,以确定每种样本的签名暴露情况。

Deriving consensus IDS

获取共识IDS

Para_01
  1. 我们使用平均链接和余弦距离进行层次聚类,从七个GEL癌症队列(111个组织特异性InDS)中聚类了InDel特征,并根据已发表的框架3得出了一个共识特征集。
  2. 然后将与组织特异性特征对应的参考特征转换矩阵(补充表9–11)用于将组织特异性特征暴露转换为共识特征(最终InD)暴露,以进行后续分析。

Annotating InD reference signatures using gene-edit and mutagen exposure signatures

使用基因编辑和诱变暴露特征对InD参考特征进行注释

Para_01
  1. 之前研究中生成的样本变异被重新分类并使用我们改进的InDel分类方案进行分析。
  2. 实验特征通过背景减法获得,并使用之前描述过的基于自举和余弦相似度的框架确定。
  3. 共识InDel特征和所有实验得到的特征使用层次聚类和余弦距离进行聚类。

PRRDetect model

PRRDetect 模型

Para_01
  1. 我们训练了PRRDetect,这是一个多项式弹性网络回归模型,在571例GEL癌症中进行,这些癌症根据手动整理的相关驱动突变和/或支持免疫组化结果被确定为MMRd(n = 214)、Pol-dys(n = 36)、混合MMRd/Pol-dys(n = 41)或PRR-正常(阴性对照,n = 280)。
  2. 那些既没有Pol-dys也没有MMRd的样本被确认在关键MMR基因(即MLH1、MSH2、MSH6和PMS2)、POLE、POLD1中没有驱动突变,并且没有显示出与这些异常相关的MSI证据。
Para_02
  1. 为了创建我们的分类器,我们探索了多种特征组合作为模型输入,包括(1)与PRR缺陷(MMRd、MMRd/Poly-dys、Poly-dys)相关的SBS和InDel特征的总暴露量;(2)特征集(1)与TMB结合;(3)特征集(1)与总InDel/SNV比率结合;(4)与PRRd相关的SBS特征的总暴露量;(5)与PRRd相关的InD特征的总暴露量。
  2. 对于每种特征集,我们使用比例(即归一化的特征暴露量)或特征的绝对值(即每个特征贡献的原始突变数量)来构建模型。
  3. 总共尝试了十种模型结构(五种特征集 × 两种归一化方式;补充表13)。
Para_03
  1. 对于所有模型,特征值首先进行了log2变换,然后使用公式x′=(x−μ)/σ进行z分数标准化。
  2. 我们使用了caret中的多项式弹性网络回归(glmnet)实现(https://topepo.github.io/caret/)。
  3. 在每次训练迭代中,我们首先将队列分为70%用于训练,30%用于测试,并在训练和测试数据集中保留MMRd、Pol-dys、混合和阴性类别的相对比例。
  4. 在70%的训练组内采用了十次重复的十折交叉验证策略。
  5. 使用网格搜索方法确定两个超参数(即α,它在套索惩罚和岭惩罚之间起到平衡因子的作用;以及λ,它定义了惩罚的强度)的最佳组合,以最小化对数损失。
  6. 然后在保留的30%测试集上测试模型。
  7. 我们进行了十次70:30的重新划分,以评估模型的稳定性/鲁棒性(图4a)。
  8. 然后使用与第一轮相同的重复十折交叉验证策略,在整个571个样本队列上重新训练模型,以获得各个模型的最终特征系数。
Para_04
  1. 为了确定性能最佳的模型,定义了七个指标——最终模型的训练准确率、测试集的中位数准确率、α的标准差、λ的标准差、中位数系数标准差、测试集上的多类曲线下面积(AUC)以及最终模型的训练多类AUC(补充表13)。
  2. 最终,PRRDetect被选为具有以下输入变量的模型:(1) MMRd相关SBS 6、15、26、44、97的总暴露量;(2) Pol-dys相关SBS 10a、10d的总暴露量;(3) MMRd/Pol-dys组合相关SBS 14、20的总暴露量;(4) MMRd相关InD7、InD19的总暴露量;(5) Pol-dys相关InD14、InD15的总暴露量;(6) MMRd/Pol-dys组合相关InD16a、InD16b、InD20、InD21的总暴露量;(7) 插入缺失与单核苷酸变异的总比例,前六种特征进行了比例归一化(补充表14)。
  3. 最终的PRRDetect使用上述特征在整个经过筛选的571个样本队列上重新训练。
Para_05
  1. 该模型在四个PRRd子类(即MMRd、Pol-dys、MMRd/Pol-dys或Neg)上输出一个分类分布。如果‘阴性’类的概率大于0.5,则样本为PRR阳性;否则,将概率最高的阳性类(MMRd、MMRd/Pol-dys或Pol-dys)分配给该样本。

PRRDetect in additional cohorts

PRRDetect 在其他队列中的应用

Para_01
  1. 我们在独立的ICGC乳腺癌队列(n = 504)和GEL的一部分保留样本(n = 847)中验证了PRRDetect,其中真实的PRRd标签是基于四种MMR蛋白(PMS2、MLH1、MSH2和MSH6)的免疫组化染色和驱动突变确定的。
  2. 最终队列包含1,351个样本,我们还计算了MSIseq和MMRDetect的预测结果。
  3. 使用R包‘pROC’计算了ROC曲线及其相对AUC值。
  4. P值通过roc.test()函数使用自助法(10,000次重采样)计算。
Para_02
  1. 为了调查PRRd在其他癌症队列中的流行情况,我们将PRRDetect应用于两个未包含在InD特征提取和PRRDetect训练中的额外数据集——ICGC/TGCA泛癌数据集33和Hartwig医学基金会转移性癌症队列34(n = 1,335),重点关注七种常见富含高InDel负担样本的癌症类型。
  2. 这些队列中个体样本的InDel被处理为89通道图谱,与GEL队列样本的处理方式相同。
  3. 对于这些数据集,我们使用了已发表的驱动基因注释作为PRRd标签。

Statistics and reproducibility

统计学与可重复性

Para_01
  1. 所有比较均在生物学独立样本之间进行。
  2. 未使用任何统计方法来预先确定样本量。
  3. 分析中未排除任何数据。
  4. 实验未进行随机化。
  5. 研究人员在实验和结果评估过程中未对分组情况进行盲法处理。
  6. 更详细的说明见报告摘要。

Reporting summary

报告摘要

Para_01
  1. 有关研究设计的更多信息,请参阅与本文相关的Nature Portfolio报告摘要。

Data availability

Para_01
  1. 来自hTERT-RPE1突变积累实验的原始序列文件已存放在欧洲基因组-表型组档案库,访问编号为EGAD50000000209。
  2. 突变调用结果已存放在Mendeley(https://doi.org/10.17632/3k2tpx9ssr.2)。
  3. RPE1细胞可直接从作者处获得。
  4. 经过整理的数据可在我们的参考突变特征网站Signal上进行常规浏览(https://signal.mutationalsignatures.com)。
  5. 所有其他数据此前已发表。
Para_02
  1. 来自100,000基因组项目的原始数据存储在一个安全的研究环境中,可供注册用户使用。
  2. 有关更多信息,请访问 https://www.genomicsengland.co.uk/research 或联系 research-network@genomicsengland.co.uk。
  3. ICGC/TCGA WGS数据可从 https://dcc.icgc.org/releases/PCAWG 获取。
  4. Hartwig转移WGS数据可通过Hartwig医学基金会的标准化程序和申请表获得,这些表格可在 https://www.hartwigmedicalfoundation.nl/en/appyling-for-data/ 找到。
Para_03
  1. 来自人类诱导多能干细胞(iPS)的诱变特征可通过 https://data.mendeley.com/datasets/m7r4msjb4c/2 获取。
  2. 人类iPS敲除特征可直接从 https://doi.org/10.1038/s43018-021-00200-0 获取。
  3. RPE1实验特征的结果可在 https://signal.mutationalsignatures.com/explore/main/experimental/experiments?study=7 浏览。
  4. 七种癌症类型的InD特征可在 https://signal.mutationalsignatures.com/explore/main/cancer/signatures?mutationType=3&study=7 获取。
  5. 本文提供了原始数据。

Code availability

Para_01
  1. PRRDetect的R源代码可通过GitHub在https://github.com/Nik-Zainal-Group/PRRDetect获取,也可通过Zenodo在https://doi.org/10.5281/zenodo.14906103获取。
  2. InDel分割和特征分类脚本可通过GitHub在https://github.com/Nik-Zainal-Group/indelsig.tools.lib获取,也可通过Zenodo在https://doi.org/10.5281/zenodo.14906117获取。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档