首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >scATAC-seq中常见的质控图

scATAC-seq中常见的质控图

作者头像
生信技能树
发布2025-11-20 12:04:50
发布2025-11-20 12:04:50
240
举报
文章被收录于专栏:生信技能树生信技能树

前面分析的一个数据中数据还有没下载完,这里来看看scATAC-seq中常用的QC指标都有哪些。

Read depth

可用片段(Usable fragment)——片段定义为测序输出中对应于基因组某一位置的序列。若进行单端测序,单个读取即为一个片段;若进行双端测序,一对读取视为一个片段。当片段通过ChIP-seq标准化处理流程中的各项过滤标准时,即被判定为可用片段。该指标用于评估ChIP-seq数据。

文献中常见的QC图:

插入片段大小分布呈现出周期性模式:

这些片段的长度反映了染色质的可及性以及核小体的包装状态。周期性模式: 指在插入片段长度分布图中,观察到峰值以固定的间隔重复出现。这种周期性模式是核小体周期性排列的直接体现,是数据质量高的一个有力证据。

  • 核小体会保护其缠绕的约147 bp DNA免受Tn5酶的切割。
  • 预期模式: 因此,在片段长度分布图中,我们会在~147 bp以及它的整数倍(~294 bp, ~441 bp等)位置观察到明显的波谷,而在短片段(<100 bp,代表无核小体区域)和~200 bp(代表一个核小体两端的连接DNA)等处观察到波峰
  • 第一个峰值(< 100 bp): 代表完全没有核小体保护的、完全开放的染色质区域(例如活跃的增强子、启动子),Tn5可以在此自由切割产生短片段。
  • 第二个峰值(~200 bp): 代表一个核小体保护的长度(147 bp DNA + 两侧接头序列)。这意味着Tn5切割了一个核小体两端的连接DNA,产生的片段长度正好对应一个核小体所占据的DNA长度。
  • 第三个峰值(~400 bp): 代表被两个相邻核小体保护的DNA片段(即一个核小体重复单元)。
  • 后续峰值: 可能观察到~600 bp的峰值,代表被三个核小体保护的片段,依此类推。

下图正常的核小体信应该在NS > 4的图片中的147~294bp区域有一个峰值,如果没有这个清晰的峰值,那么可以考虑建库或上游的分析存在问题。而NS < 4的图片,应该在< 147bp的区域出现峰值,否则考虑建库或上游的分析存在问题。

Peaks

宽松峰值(Relaxed peaks)——指采用极低显著性阈值所识别出的一组峰值。这类峰值集在设计上不仅包含真实信号,还大量囊括了噪声样本,以便后续进行重复实验一致性分析。该峰值集合含有大量假阳性(甚至可能以假阳性为主),因此不适用于直接人工解读,而是作为IDR等需要同时分析信号与噪声的计算方法的理想输入数据。该概念应用于ChIP-seq分析领域。

文献中常见的QC图:不同细胞类型鉴定的peaks数

图F:重复读取率,数值越低越好。一个较低的重复率(例如<20%)表明文库复杂度高,数据质量好。如果某个细胞的重复率异常高,通常会被过滤掉。

图G:每个细胞的片段数,数值越高,通常表示该细胞捕获到的染色质开放信息越多。

图H:峰内片段百分比,它表示有多少测序数据落在了被生物信息学方法鉴定为“染色质开放峰值”的区域。数值越高越好。一个高的百分比(例如>15-30%,因实验和细胞类型而异)表明数据中真实的生物学信号比例高,技术噪音低。

图I:黑名单区域比对率。识别并量化在基因组特定区域(如着丝粒、端粒)的非特异性或结构性的虚假信号。这些区域由于各种原因(如重复序列)容易产生误导性的高信号。数值越低越好。一个高的百分比表明数据中存在大量不可靠的、可能干扰真实峰值识别的信号。高质量的数据此值通常很低(例如<5%)。

图J:核小体信号,评估每个细胞中由核小体保护的DNA片段的比例。过高的核小体信号可能表明细胞质量差(如发生凋亡,核小体DNA泄露),或实验过程中Tn5酶切效率不佳。

Enrichment

转录起始位点富集得分(Transcription Start Site,TSS) —— TSS 富集计算是一种信噪比计算。收集参考 TSS 集周围的读取,形成一个以 TSS 为中心、向两侧各延伸 2000 bp(总计 4000 bp)的读取聚合分布。然后,通过计算该分布两端侧翼各 100 bp(总计 200 bp 的平均数据)的平均读取深度,并计算每个位置相对于该平均读取深度的倍数变化,对该分布进行标准化。这意味着两侧翼区域的标准化值应从 1 开始,如果在转录起始位点(基因组高度开放区域)存在高读取信号,则信号应增强并在中间位置达到峰值。我们将经过此标准化后分布中心位置的信号值作为我们的 TSS 富集度量指标。该指标用于评估 ATAC-seq 数据。

这里每一个点表示一个peak,横轴表示这个peak中的umi reads数,纵轴表示peak的TSS打分。从这个图可以找到一个合适的过滤阈值。

转录起始位点信号富集图:用于衡量数据质量以及捕获真实生物学信号的能力。

转录起始位点: 是基因开始转录的基因组位置。在染色质层面,活跃基因的TSS通常处于“开放”状态,容易被ATAC-seq方法捕获,从而产生高强度的测序信号。高质量的数据应该在TSS区域显示出强烈的富集信号。一个高的TSS富集分数表明实验成功,文库中包含了大量真实的、来自开放染色质的信号,而非技术噪音。

此图展示所有TSS上下游(例如±2 kb)区域平均的信号富集情况。高质量的样本会呈现出一个以TSS为中心的、尖锐的峰值。

峰内读取占比(Fraction of reads in peaks,FRiP) —— 所有比对成功的读取中,落在所识别出的峰值区域内的读取所占的比例,即显著富集峰值中的可用读取数除以所有可用读取数。一般而言,FRiP 分数与区域数量呈正相关。

峰值检测饱和度(Saturated peak detection) —— 如果在 eCLIP 数据集中下采样至 50% 的可用读取并重新识别峰值后,原始显著峰值中有 80% 与在下采样数据集中识别出的宽松峰值存在重叠,则认为峰值检测已达到饱和。该指标用于评估 eCLIP 数据。

显著峰值 Significant peaks::log2 (fold enrichment above background) ≥ 3 且 –log10 (p-value) ≥ 3。

宽松峰值 Lenient peaks:peaks with a log2 ≥ 1 且 –log10 ≥ 2 的峰值。

这里显著性筛选还挺严格。

Replication

理想情况下,高通量测序实验应对两个独立的生物样本(例如两次分别培养的永生化细胞系)分别进行独立的文库构建。每一次这样的实验即视为一次"重复"。在理想状况下,每次重复仅需一次测序运行即可获得该实验所需的测序深度。然而在现实中,实验可以通过多种方式进行重复:

生物学重复 Biological replication —— 对两个不同的生物样本执行相同实验方案所获得的重复。例如,在不同批次培养的细胞、两次不同的基因敲低实验等。

同基因型重复 Isogenic replication —— 属于生物学重复。指源自同一人类供体或同一品系模式生物的样本进行的重复实验。这些生物样本经过分别处理(例如两次分别培养、两次独立的基因敲低或两次不同的切除手术)。

异基因型重复 Anisogenic replication —— 属于生物学重复。指源自不同人类供体或不同品系模式生物的相似组织样本进行的重复实验。

技术重复 Technical replication —— 对同一生物样本进行重复实验,每次重复采用完全相同的处理方式(例如同一批次培养的细胞、同一次基因敲低)。

测序重复 Sequencing replication —— 同一文库可进行多次测序运行。每次运行均可视为实验的测序重复,特别是在测序运行方式不同的情况下(例如双端测序与单端测序)。

伪重复 Pseudoreplicate —— 在缺乏真实生物学重复的情况下,从单次重复实验中通过无放回抽样方式获取的读取子样本,用作重复实验的替代品。

重复一致性

不可重复发现率(Irreproducible Discovery Rate,IDR) —— 通过衡量同一实验中两个生物学重复之间的一致性,来评估高通量实验的可重复性。该指标用于评估ChIP-seq和ATAC-seq数据。

IDR是一种对重复峰值集进行操作的统计方法,通过比较这些峰值在各个重复/伪重复峰值集中的排序一致性来评估重复性。排序一致性高的峰值会被保留。IDR可对一对真实重复样本的峰值进行分析,生成"保守"输出峰值集;或对一对伪重复样本的峰值进行分析,生成"最优"输出峰值集。保守峰值集中的峰值可视为高置信度峰值,代表了真实生物学重复间可重现的事件,并考虑了真实的生物学噪声和技术噪声;最优峰值集中的峰值也可视为高置信度峰值,代表可重现事件并考虑了读取抽样噪声。最优峰值集通常具有更高灵敏度,特别适用于某个重复样本数据质量较低的情况。

自洽比率 The self-consistency ratio —— 用于衡量单个数据集内部的一致性。挽救比率 The rescue ratio —— 当单个实验内的重复样本之间缺乏可比性时,用于衡量不同数据集之间的一致性。

文库复杂度Library Complexity

ChIP-seq 标准:

ATAC-Seq 标准:

PCR瓶颈系数1 (PCR Bottlenecking Coefficient 1,PBC1)

PBC1 = M1 / M_DISTINCT 其中: M1:仅被一条read唯一比对的基因组位置数量 M_DISTINCT:所有reads唯一比对到的不同基因组位置总数

PCR瓶颈系数2 (CR Bottlenecking Coefficient 2,PBC2)

PBC2 = M1 / M2 其中: M1:仅被一条 read 唯一比对的基因组位置数量 M2:被两条 read 唯一比对的基因组位置数量

非冗余比例 (Non-Redundant Fraction,NRF) —— 去重后的唯一比对读总数(即去除重复后)与原始 read 总数的比值。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Read depth
  • Peaks
  • Enrichment
  • Replication
  • 重复一致性
  • 文库复杂度Library Complexity
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档