首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >huARdb:单细胞水平克隆型-转录组分析的人类抗原受体数据库

huARdb:单细胞水平克隆型-转录组分析的人类抗原受体数据库

作者头像
生信技能树jimmy
发布2022-03-14 16:53:25
发布2022-03-14 16:53:25
9730
举报
文章被收录于专栏:单细胞天地单细胞天地

前言

文章题目huARdb: human Antigen Receptor database for interactive clonotype-transcriptome analysis at the single-cell level 日期:2022-01-7 期刊:Nucleic Acids Research DOI:https://doi.org/10.1093/nar/gkab857 网站:https://huarc.net/database

摘要

人类适应性免疫系统是免疫系统的一个分支,负责特定抗原识别和清除。通过与特定抗原的相互作用,适应性免疫系统被激活,并可以存储针对目标抗原的长期免疫记忆。因此,具有高抗原特异性的长期免疫记忆可以在随后暴露于抗原期间产生更强大的反应。适应性免疫反应激活需要 T 或 B 细胞上表达的受体识别抗原,分别称为 T 细胞受体 (TCR) 或 B 细胞受体 (BCR)。

TCR 由成对的 α 和 β 肽链组成,BCR 由重链和轻链组成,每条链由可变区(V 区)和恒定区(C 区)组成 。每个 TCR/BCR 肽链的 V 区由可变 (V) 基因、多样性 (D) 基因和连接 (J) 基因的随机重组编码。在 T 或 B 细胞发育过程中,V(D)J 基因重组为每个 T 或 B 细胞上的 TCR/BCR 产生独特的互补决定区 (CDR),从而赋予其特异性。每个 TCR/BCR 肽链的 V 区包含 CDR1、CDR2 和 CDR3,其中 CDR3 在抗原识别中起主要作用。

在T细胞和B细胞成熟过程中,随机的V(D)J基因重组产生每个细胞独一无二的TCR/BCR,在人体内形成具有高度多样性的TCRs/BCRs库。以应对环境中丰富多样的病原生物。单细胞免疫组库分析联合单细胞转录组分析使正常和病理条件下单个TCR/BCR克隆型和功能的高通量研究得以实现。过去时间里产生的大量公开的单细胞免疫组库数据需要深入分析,以揭示更多免疫学机制。然而,目前尚没有方法可以对已发表的单细胞免疫组库数据进行再利用和无偏的整合分析。

huARdb数据库收集了215份单细胞免疫组库数据。这些数据来自于493个不同的测序文库, 24种不同组织和12种不同疾病模型。作者通过使用统一的数据处理流程对每个单细胞免疫组库数据处理,得到每个数据集的单细胞水平TCR/BCR和转录组特征。作者同时开发了网页以展示数据库各数据集的转录组相关特征和TCR/BCR相关特征。用户可以在主页上观看操作演示视频,通过疾病、组织类型、细胞类型索引、分析感兴趣的样本。对于单个免疫组库数据集,用户可以查看样本数据的各项转录组特征,例如各亚型细胞在tSNE图上的分布。当用户对某一细胞亚型感兴趣时,可以在网页菜单中选择相应细胞亚型名称,高亮特定亚型的细胞分布。

同时也首次开发了克隆型-转录组联合可视化分析方法。可以通过细胞TCR/BCR特征定义细胞克隆型。用户不仅可以查看各克隆型的细胞频率,也可以分析数据集内高度扩增克隆细胞的转录组特征,如可以看到和分析每个克隆型内细胞亚型的分布信息,以及在单细胞水平上查看高度扩增克隆型细胞的TCR/BCR信息和转录组信息。

数据库概况

收集了 14 个人类单细胞免疫分析数据集,包括GEO、SRA和Genome Sequence Archive,包含来自 24 种组织类型和 12 种疾病的细胞。收集了 231 个耦合的 scRNA-seq 和 scV(D)J-seq 数据集。经过质量控制和数据过滤后,剩下215 个数据集,其中包含 444794 个具有成对 TCR/BCR 链的 hcT/B 细胞,平均在每个数据集中捕获了 2069 个 hcT/B 细胞和 13493 个基因。

通过细胞亚型预测, huARdb 对 402557 个 hcT 细胞(90.5%)和 42237 个 hcB 细胞(9.5%)进行了分类:T细胞进一步分为效应记忆CD8 + T细胞、Th1/Th17细胞、调节性T细胞等13种不同的亚型,而B细胞进一步分为naive B细胞、耗竭性B细胞、非转换记忆B细胞,转换记忆B细胞和浆母细胞

数据处理方法

预处理

  • Cell Ranger (v6.1.0) 默认参数处理coupled single-cell (sc) RNA-seq and scV(D)J-seq data
  • mkgtf function was used to retain the protein-coding sequence
  • mkref and mkvdjref 用来对hg38构建索引
  • scRNA-seq的 fastq raw data使用count得到编码蛋白基因的UMI矩阵
  • scV(D)J-seq的 fastq raw data使用vdj produce V, (D), J, C gene usage, CDR3 sequences, and UMI counts of TCR/BCR chains

质控过滤

  • Seurat (v4.0.2) 将unique feature counts <200 或者 线粒体>20%的细胞去除
  • DoubletFinder去除doublets

细胞亚型预测

过滤doublets后,Seurat (v4.0.2) 将表达矩阵导入为Single Cell Experiment (SCE)对象,接着使用LogNorm- Counts 转为log矩阵。SingleR 利用human T or B cell reference datasets 用来细胞亚型预测

  • Predicted effector memory CD8+ T cells, central memory CD8+ T cells, terminal effector CD8+ T cells and na ̈ıve CD8+ T cells was classified as ‘unpredicted’ cells if they expressed CD4.
  • Predicted helper T cells (Th cells) and follicular helper T cells were classified as ‘unpredicted’ cells if they expressed CD8A

Top 10 marker genes for each predicted cell subtype were defined and visualized with pl.rank genes groups_matrixplot function within Scanpy Python-package

非监督聚类

使用Scanpy Python-package (v1.7.2)的scanpy.pp.normalize total将表达矩阵进行normalize,转为CPM,再利用scanpy.pp.log1p + scanpy.tl.pca进行log+PCA。neighborhood graph使用scanpy.pp.neighbors 构建,非监督聚类使用scanpy.tl.leiden

每群细胞的top10 marker使用pl.rank genes groups matrixplot 得到

鉴定高置信的T or B cells (hcT/B cells)

首先用Scirpy (v0.7.0)将V(D)J gene annotation + CDR3 sequences of each TCR/BCR加载进来。

接下来就是一系列比较严格的过滤:

  • only cells with both transcriptome and TCR/BCR information were retained
  • only cells with paired light/heavy chains (BCR) or /chains (TCR) were considered as valid T or B cells cells with extra, orphan, or unpaired (two chains with the same type) TCR/BCR chains were filtered out
  • all the single-cell immune profiling data displayed in database contained transcriptome information and strictly paired TCR/BCR chains for each cell.
  • Datasets with less than 30 cells were exclude

最后,753,385/1,198,179 cells were discarded and 444,794 hcT/B cells were displayed in huARdb

克隆型鉴定

  • 使用Scirpy包的pp.ir dist + tl.define clonotypes
  • nucleotide sequences of CDR3 were used to define clonotypes
  • Only cells with the same CDR3 nucleotide sequences in both VJ and VDJ chains were characterized as an identical clonotype.

数据库搭建

  • 前端:HTML5 and CSS3,可视化使用 Javascript using D3.js framework
  • 后端:数据包含细胞、克隆型、表型信息,使用 PostgreSQL database management system (v2.6.0)获取;

Python3 (v3.7.9) and Javascript 用来前后端交互

数据库放在Nginx web server (v1.14.1) on a Linux CentOS (v8.3.2011)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-02-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 单细胞天地 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 摘要
  • 数据库概况
  • 数据处理方法
    • 预处理
    • 质控过滤
    • 细胞亚型预测
    • 非监督聚类
    • 鉴定高置信的T or B cells (hcT/B cells)
    • 克隆型鉴定
  • 数据库搭建
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档