今天给大家带来的是2020年3月发表在Nat Genet(IF=27.603)杂志上的文章“Pan-cancer analysis of whole genomes identifies driver rearrangements promoted by LINE-1 retrotransposition”。文章中作者通过泛癌数据分析了LINE-1 逆转座促进各种类型的重排。
Pan-cancer analysis of whole genomes identifies driver rearrangements promoted by LINE-1 retrotransposition
全基因组的泛癌分析确定了LINE-1逆转座促进的驱动程序重排
(分享者:科研菌-虾饺皇)
L1逆转录转座子是一种广泛存在于人类基因组中的重复元件,占整个DNA含量的17%。L1元件可以联合细胞酶、自编码蛋白与核酸内切酶和逆转录酶的作用,在逆转录转座过程中复制并插入新的基因组位点。在人类参考基因组中存在有大约500,000个L1元件,其中大多数是截短的,为不可逆转录的非活性元件。而它们中的一小部分,大约100-150个L1基因座,在人类的基因组中仍保持活跃,并起着source elements的作用,它们由hot-L1s的高活性拷贝组成。这些L1 source elements通常被转录抑制,但是在肿瘤中发生的表观遗传学改变可能会促进它们的表达并使其逆转录转座。
体细胞L1逆转座通常会引入L1序列中3'末端的新copy,并且还可以在3'转导的过程中动员位于source elements下游的独特DNA序列。L1逆转录转座子还可以促进Alu元件、SINE-VNTR-Alu(SVA)元件和经处理的假基因的体细胞转运,这些假基因是活性L1元件逆转录成DNA并插入基因组后mRNA的复制形成的。在人类肿瘤中大约50%含有L1元件的体细胞逆转座子。先前的分析表明,尽管在癌症中体细胞获得的L1插入片段可能会影响基因功能,但单个肿瘤中的大多数反转录转座子整合代表了客体突变,对癌症的发展影响很小或没有影响。尽管如此,除了经典的L1插入事件之外,L1元件还能够促进种系和体细胞中其他类型的基因组结构改变。在人类癌症的背景下,这些改变的影响尚未被充分探索。
分析PCAWG中2954个肿瘤样本与其配对正常组织,得到总共19,166例体细胞逆转录转座事件,分为六类,其中 L1介导的事件(soloL1、TD、RG)占98%,其他事件如Alu、SVA和PSD占少数比例(图1a),并展示了在头颈部肿瘤和泛癌中胰腺腺癌样本的体细胞获得的逆转座子类型,也是由L1介导的事件占绝大部分(图1b),并采用TraFiC-mem进行验证,得到FDR<5%。随后,作者展示了各个类型肿瘤的逆转录情况(图1c),在2095个肿瘤样本中有1046个样本至少有一个逆转录事件,而在食管腺癌、头颈鳞状上皮癌、肺鳞状上皮癌和结直肠腺癌中的体细胞逆转座子明显丰富(图1d),这四种肿瘤仅占所有样本的9%,但是逆转录事件占了所有的70%。最后,展示了4种肿瘤和其他类型肿瘤的突变情况,发现L1插入是食管腺癌中最常见的结构变异类型,而在头颈部鳞状和结直肠腺癌为第二大常见的结构变异类型(图1e)。作者还探究了逆转录与驱动基因的关系,发现具有TP53突变的肿瘤中L1逆转座率增加,这可能是TP53发挥了抑制移动元件的作用。同时,有66个L1插入事件位于癌症相关基因的启动子区域内,作者分析了其与其余相同肿瘤类型样品中的表达水平,发现有L1插入事件的表达明显增高。
图1. 人体癌症的体细胞逆转座景观
全基因组分析15906个体细胞L1插入片段的分布,展示了在3号染色体上L1插入率(紫色)以及L1核酸内切酶基序密度(蓝色)和复制时间(橙色),结果显示L1逆转座率存在显著差异(图2a)。为了解这种结构变异的原因,作者研究了L1插入事件发生率与各种基因组特征的关系。作者首先研究了L1核酸内切酶靶点基序的位置是否可以用来确定体细胞L1插入事件在整个癌症基因组中的分布。使用基于负二项式回归的统计方法对多个基因组变量(L1核酸内切酶基序 蓝色,DNA复制时间 橙色,开放染色质 粉色 ,异染色质 绿色,表达水平 青色和转录延伸 棕色)的影响进行反卷积。L1插入片段与L1核酸内切酶基序和DNA复制时间密切相关。接下来,进一步通过分析H3K9me3(异染色质)L1插入率,发现开放染色质有体细胞L1事件富集,并消耗了异染色质。L1逆转座率与染色质的主动转录特征呈负相关,同时L1逆转座率在高表达基因中略有降低(图2b)。L1逆转座率与细胞周期的关系,发现在不同细胞周期有差异,并且最先发生在S期,在核DNA合成的后期阶段达到顶峰(图2c)。
图2. L1体细胞插入在癌症基因组中的分布及与基因组特征的关系
作者通过L1动员的体细胞3'转导事件来研究L1特异性活性的source elements。共发现人类基因组中的124个人类的L1种系基因座,其中有52个基因座在人类癌症中没被报道过。随后进一步研究各个source elements对跨癌症类型的逆转座子负荷的贡献,发现逆转座子通常由五个hot-L1 source elements构成,仅五个hot-L1 source elements就占了所有体细胞逆转座贡献的一半(图3a)。因此,作者通过火山图将模式相近的hot-L1活化归类为两个模式,其source elements被称为Strombolian和Plinian。Strombolian source elements相对惰性,通常有活性对PCAWG数据整体逆转座子有很大贡献,但在单个肿瘤样本中产生少量的逆转座子。而Plinian source elements在整体肿瘤样本中很少活跃,但在某些单个的病例中,它们的活性很强,从而产生大量的逆转座子(图3b)。在单个肿瘤水平上,可以观察到单个癌症基因组中有1到22个活性source elements,但通常是1到3个起关键作用,同时,在食管腺癌、肺癌和头颈鳞状细胞癌中存在更多的L1活性source elements(图3c)。在PCAWG样品中,体细胞逆转座子数量与L1活性source elements的数量之间存在相关性(图3d)。
图3. L1 source element在人类癌症中的活性
在具有高体细胞L1插入率的癌症基因组中,可观察到一些L1逆转录事件遵循独特的模式,这种模式一系列的reads簇组成,并伴有拷贝数丢失的现象,其中体细胞L1插入整合到染色体的一端(图4a)。对X染色体的拷贝数变化进行分析,发现拷贝数改变的第二个breakpoint上有L1 reciprocal簇的丢失,同时,发现了X染色体上3.9-kb 的缺失和 2.1-kb 的体细胞L1 插入是同时发生的(图4b)。因此,这类重排就称为L1介导的缺失,已被证存在于L1s体外培养的细胞和人脑细胞中。为此,作者开发了一种算法用于测定L1介导的缺失,并测定了PCAWG上所有的L1介导的缺失,发现共有90个从0.5 kb到53.4Mb大小不等的缺失(图4c)。上述的所有检测到的L1介导的缺失,在breakpoint处都存在通过RNA中间体合成的L1元件或是L1转导序列及其伴随的聚腺苷酸片段。L1介导的缺失的机制为L1mRNA与染色体3′ overhang结合,并通过逆转录合成L1 -cDNA,L1 -cDNA末端与另一端的3′ overhang结合,造成了染色体一个片段的缺失(图4d)。为了进一步确认这些重排是由单个逆转录转座事件介导的,作者进一步探索PCAWG数据,发现两个不同的体细胞L1介导的缺失breakpoints可以匹配到同一个L1 插入片段。作者还在肺鳞癌样品发现一个34 bp的小插入片段导致19号染色体上大小为1.1 kb片段的缺失(图4e)。作者还发现了一种重排跨越了L1事件,在两个breakpoints存在不同类型的reads,其中一个breakpoints为 L1 元件的reads簇,另一个breakpoints为非L1元件的reads簇。例如在食道肿瘤样品中,3号染色体上的一个大小为2.5 kb的缺失为7号染色体L1基因座下游序列单独介导的(图4f)。作者还使用TraFiC-mem对头颈癌细胞系鉴定出的的16个由体细胞L1介导的缺失进行了验证,证实了L1元件的体细胞整合诱导了相关的缺失。
图4. 体细胞L1介导的缺失的特征
大多数的L1介导的缺失大小都在几百到数千个碱基对,但有少部分缺失可达到兆碱基范围。例如在食道肿瘤样品SA528901中,作者在染色体1的p31.3–p13.3区发现了45.5-Mb的缺失,其中两个breakpoints的重排都由L1元件介导的(图5a);同样,在肺肿瘤样品SA313800中的X染色体上,还发现了一个L1介导的51.1Mb缺失,该缺失包括着丝粒的丢失(图5b)。同时,L1介导的缺失有可能是driver events,并导致抑癌基因的丢失,例如在食道肿瘤样品SA528932中,染色体7p12.3由L1介导的转导整合到染色体9短臂会导致9p21.3–9p21.2区域的5.3 Mb缺失,这会造成抑癌基因CDKN2A部分拷贝数丢失(图5c),而在另一个食道肿瘤样品中也有9号染色体中由L1元件介导整合导致8.6-Mb大小的缺失,同样造成抑癌基因CDKN2A的丢失。因此,L1介导的缺失有致癌潜力。
图5. 人类肿瘤中L1介导的Mb大小的缺失
作者发现体细胞逆转座可以参与介导更复杂的结构变异,作者发现在一个食道肿瘤样品SA528896中两个单独的L1介导的结构变异形成更复杂的重排。首先,来自染色体14q23.1上L1元件转导连接了染色体1p和5q。其次,在这个事件中,染色体5p连接到一个未知染色体,同时5号染色体存在涉及着丝粒的大量拷贝数丢失。这种情况表明,L1介导的结构变异可以涉及两个染色体的DNA断裂和修复(图6a)。同时,在样本NCI-H2087中也存在此现象,其1q31.1和8q24.12处存在易位断裂点,具有L1介导的缺失的特征,同时染色体1q和8q可由6p24染色体的L1转导整合连接(图6b)。这有可能是由于L1转导的cDNA与另一条染色体3′ overhang错误连接而成的(图6c)。
图6. 体细胞L1整合促进人类癌症的易位
作者还在食道肿瘤样本SA528848中发现了在6号染色体上有一段重复序列(图7a),作者认为是由于在DNA复制过程中L1插入姐妹染色单体整合形成的(图7b)
图7. 体细胞L1整合促进重复
L1逆转座子还可以通过触发断裂-融合-桥循环来诱导基因组不稳定。断裂-融合-桥循环最开始是由于破裂的姐妹染色单体end-to-end的融合导致,而这种融合被认为是端粒磨损引起的,但作者发现L1介导的重排也可以引起这种染色体结构变异,在肺肿瘤样本SA313800中,作者发现染色体14q有拷贝数变化,同时变异后的染色体有一段重复序列,作者对breakpoint两端测序数据进行分析发现14q拷贝数变化增加,而14p拷贝数丢失(图7c),作者认为这种基因组结构为倒位,是由于两个姐妹染色单体通过在head-to-head方向被L1逆转座连接而成的(图7d)。
作者还发现在食道肿瘤样品SA528848中,有L1介导的重排的典型特征,其中在11号染色体上存在一个53 Mb区域的缺失,涉及端粒区域的丢失,同时存在一个包含癌基因CCND1区域的扩增,扩增的另一端受到倒置重排的限制,这说明癌基因CCND1是由于断裂-融合-桥循环导致的(图8a)。作者认为癌基因CCND1每扩增一次需要两次断裂-融合-桥循环,首先,在细胞分裂S期前后,体细胞L1逆转座以相反方向连接两条姐妹染色单体,形成双着丝粒染色体,随后在第二个着丝粒前又经历一次断裂-融合-桥循环,导致癌基因CCND1的扩增(图8b)。作者还在肺肿瘤样品SA503541中,发现L1介导整合引起断裂-融合-桥循环造成CCND1的扩增。(图8cd)
图8. L1的体细胞整合引起断裂-融合-桥循环导致融合基因扩增
作者分析了PCAWG中38种癌症2954个癌症基因组的体细胞逆转座子的模式和机制,发现了许多尚未被报道的逆转座子。同时,作者分析确定了由L1逆转座子介导的人类癌症结构变异的模式和突变的机制,还发现L1逆转座子的异常整合会引起Mb大小的缺失,这种缺失可能导致抑癌基因的缺失,也会引起断裂-融合-桥循环导致癌基因的扩增。
编辑:虾饺皇
校审:冻鸳鸯、糯米饭