文章题目:huARdb: human Antigen Receptor database for interactive clonotype-transcriptome analysis at the single-cell level 日期:2022-01-7 期刊:Nucleic Acids Research DOI:https://doi.org/10.1093/nar/gkab857 网站:https://huarc.net/database
人类适应性免疫系统是免疫系统的一个分支,负责特定抗原识别和清除。通过与特定抗原的相互作用,适应性免疫系统被激活,并可以存储针对目标抗原的长期免疫记忆。因此,具有高抗原特异性的长期免疫记忆可以在随后暴露于抗原期间产生更强大的反应。适应性免疫反应激活需要 T 或 B 细胞上表达的受体识别抗原,分别称为 T 细胞受体 (TCR) 或 B 细胞受体 (BCR)。
TCR 由成对的 α 和 β 肽链组成,BCR 由重链和轻链组成,每条链由可变区(V 区)和恒定区(C 区)组成 。每个 TCR/BCR 肽链的 V 区由可变 (V) 基因、多样性 (D) 基因和连接 (J) 基因的随机重组编码。在 T 或 B 细胞发育过程中,V(D)J 基因重组为每个 T 或 B 细胞上的 TCR/BCR 产生独特的互补决定区 (CDR),从而赋予其特异性。每个 TCR/BCR 肽链的 V 区包含 CDR1、CDR2 和 CDR3,其中 CDR3 在抗原识别中起主要作用。
在T细胞和B细胞成熟过程中,随机的V(D)J基因重组产生每个细胞独一无二的TCR/BCR,在人体内形成具有高度多样性的TCRs/BCRs库。以应对环境中丰富多样的病原生物。单细胞免疫组库分析联合单细胞转录组分析使正常和病理条件下单个TCR/BCR克隆型和功能的高通量研究得以实现。过去时间里产生的大量公开的单细胞免疫组库数据需要深入分析,以揭示更多免疫学机制。然而,目前尚没有方法可以对已发表的单细胞免疫组库数据进行再利用和无偏的整合分析。
huARdb数据库收集了215份单细胞免疫组库数据。这些数据来自于493个不同的测序文库, 24种不同组织和12种不同疾病模型。作者通过使用统一的数据处理流程对每个单细胞免疫组库数据处理,得到每个数据集的单细胞水平TCR/BCR和转录组特征。作者同时开发了网页以展示数据库各数据集的转录组相关特征和TCR/BCR相关特征。用户可以在主页上观看操作演示视频,通过疾病、组织类型、细胞类型索引、分析感兴趣的样本。对于单个免疫组库数据集,用户可以查看样本数据的各项转录组特征,例如各亚型细胞在tSNE图上的分布。当用户对某一细胞亚型感兴趣时,可以在网页菜单中选择相应细胞亚型名称,高亮特定亚型的细胞分布。
同时也首次开发了克隆型-转录组联合可视化分析方法。可以通过细胞TCR/BCR特征定义细胞克隆型。用户不仅可以查看各克隆型的细胞频率,也可以分析数据集内高度扩增克隆细胞的转录组特征,如可以看到和分析每个克隆型内细胞亚型的分布信息,以及在单细胞水平上查看高度扩增克隆型细胞的TCR/BCR信息和转录组信息。
收集了 14 个人类单细胞免疫分析数据集,包括GEO、SRA和Genome Sequence Archive,包含来自 24 种组织类型和 12 种疾病的细胞。收集了 231 个耦合的 scRNA-seq 和 scV(D)J-seq 数据集。经过质量控制和数据过滤后,剩下215 个数据集,其中包含 444794 个具有成对 TCR/BCR 链的 hcT/B 细胞,平均在每个数据集中捕获了 2069 个 hcT/B 细胞和 13493 个基因。
通过细胞亚型预测, huARdb 对 402557 个 hcT 细胞(90.5%)和 42237 个 hcB 细胞(9.5%)进行了分类:T细胞进一步分为效应记忆CD8 + T细胞、Th1/Th17细胞、调节性T细胞等13种不同的亚型,而B细胞进一步分为naive B细胞、耗竭性B细胞、非转换记忆B细胞,转换记忆B细胞和浆母细胞
mkgtf
function was used to retain the protein-coding sequencemkref
and mkvdjref
用来对hg38构建索引count
得到编码蛋白基因的UMI矩阵vdj
produce V, (D), J, C gene usage, CDR3 sequences, and UMI counts of TCR/BCR chainsDoubletFinder
去除doublets过滤doublets后,Seurat (v4.0.2) 将表达矩阵导入为Single Cell Experiment (SCE)对象,接着使用LogNorm- Counts
转为log矩阵。SingleR
利用human T or B cell reference datasets 用来细胞亚型预测
Top 10 marker genes for each predicted cell subtype were defined and visualized with pl.rank genes groups_matrixplot
function within Scanpy Python-package
使用Scanpy Python-package (v1.7.2)的scanpy.pp.normalize total
将表达矩阵进行normalize,转为CPM,再利用scanpy.pp.log1p + scanpy.tl.pca
进行log+PCA。neighborhood graph使用scanpy.pp.neighbors
构建,非监督聚类使用scanpy.tl.leiden
每群细胞的top10 marker使用pl.rank genes groups matrixplot
得到
首先用Scirpy (v0.7.0)
将V(D)J gene annotation + CDR3 sequences of each TCR/BCR加载进来。
接下来就是一系列比较严格的过滤:
最后,753,385/1,198,179 cells were discarded and 444,794 hcT/B cells were displayed in huARdb
pp.ir dist + tl.define clonotypes
Python3 (v3.7.9) and Javascript 用来前后端交互
数据库放在Nginx web server (v1.14.1) on a Linux CentOS (v8.3.2011)