本系列讲解 空间转录组学 (Spatial Transcriptomics) 相关基础知识与数据分析教程[1],持续更新,欢迎关注,转发,文末有交流群!
把测序产生的海量读段(reads)整理成一张计数矩阵(count matrix),通常都遵循一套标准流程。无论用哪种分析软件,大致都要经历下面四步:
完成上述步骤后,还要在计数矩阵层面再做一轮质控和处理,包括:
虽然测序读段(reads)本身已经携带大部分信息,但要把它们变成计数矩阵,还得借助一张“坐标对照表”——用来说明 Read 1 中的 Coordinate IDs (CIDs) 对应到芯片上的哪个具体位置。
不同空间转录组平台做法不一样:像 10X Visium,每个芯片的坐标是固定死的,对照表随协议版本一起发布;而另一些平台,芯片上的坐标是随机打的,供应商会随芯片附赠一个专属对照文件。对于固定坐标的芯片,软件(如 Space Ranger)只需知道芯片编号就能自动下载对应表;若是随机坐标的芯片,就得用户自己把这份文件准备好。
把读段按 CID 还原到真实空间位置的过程就叫“条形码解析”(barcode deconvolution),它是空间转录组数据分析的头道工序。由于不同平台、不同批次在这一步差异最大,理解其细节比后面几步都关键。
转录本序列本身只是字符串,要想知道这些序列来自哪个基因,就必须把它们比对到带基因注释的参考基因组上。
常用的比对软件有 STAR
和 Rsubread
。10X 的官方流程 SpaceRanger 和华大的 SAW 底层都调用了 STAR
。
在reads层面,我们要综合前面每一步的信息来做质控:
完成这一轮“粗筛”后,再用质控指标给数据做“精修”,可在reads层面继续筛,也可留到后面按spot再筛。常用指标和图有:
当所有reads层面的处理都完成后,我们已用解析出的 CID 把每条reads定位到了芯片上的具体位置。接下来,就可以按“gene × spot”的格式建表,并统计每个spot里每个基因的reads数。
为了让数据不那么稀疏、分析更顺畅,绝大多数平台会再做一步“合并spot”(binning):把相邻的 n × n 个小方格(n 常取 20、50、100 或 200,取决于原始spot有多密)里的读段数加在一起,形成更大的“宏点”。
如果平台的spot比组织里的细胞还小,我们还能把 binning 做到真正的“单细胞级”。做法是利用高倍显微图和 DAPI 核染色(如果有)先画好每个细胞的轮廓,再把落在这轮廓里的spot读段汇总成一个“细胞对象”——思路跟正方形合并类似,只是把方格换成了细胞边界。
Reference
[1]
Ref: https://lmweber.org/OSTA/