学员交流群有小伙伴提问他看到了他们隔壁课题组的一个食管癌单细胞文章可能数据处理有问题, 文献标题是:《Collagen 1-mediated CXCL1 secretion in tumor cells activates fibroblasts to promote radioresistance of esophageal cancer》:
其中肿瘤病人的多组学数据(肿瘤外显子以及转录组)目前管理很严格,所以是没办法公开获取的,但是文献里面的The single-cell RNA sequencing data of 6 PDX mice 是可以公开的:https://ngdc.cncb.ac.cn/gsa/browse/CRA010501 ,确实是可以看到这个PDX小鼠模型的单细胞样品定量是选择的人类参考基因组:
这个时候如果大家的生物学背景知识不够,确实是容易有这个误解。其实本文的研究者们仅仅是定量拿到了PDX小鼠模型里面的人类肿瘤细胞,所以明明是 6 PDX mice 的单细胞转录组也就是拿到了三千多个细胞而已。然后做了降维聚类分群,接着选择了CXCL1含量最高的C1单细胞亚群去看它在NR和R组的差异而已:
PDX(Patient-Derived Xenograft)小鼠模型是一种将来自癌症患者的肿瘤细胞或组织片段移植到免疫缺陷小鼠体内的方法,用于癌症研究。在PDX模型中,肿瘤细胞保持了原始肿瘤的许多特征,包括异质性和微环境相互作用,这使得它们成为研究肿瘤生物学和评估抗癌疗法的有效模型。在进行单细胞测序分析时,PDX模型的样品可能包含人类肿瘤细胞和鼠源性细胞(如基质细胞、免疫细胞等)。因此,选择适当的参考基因组对于准确分析和解释数据至关重要。
下载这个CRA010501数据集里面的单细胞转录组样品的fq文件,然后走cellranger定量流程,选择人类以及小鼠参考基因组,各自走一遍定量流程,然后两个表达量矩阵分开做一下降维聚类分群哈, 看看背后是否有一些被忽略的生物学现象。这个数据集详情:
标题: Collagen 1-mediated CXCL1 secretion in tumor cells activates fibroblasts to promote radioresistance of esophageal cancer
项目编号: PRJCA016013 /
发布日期: 2023-04-09
文件个数: 12
文件大小: 158.47 GB
可以看到它是可以公开获取的,链接在:https://download.cncb.ac.cn/gsa2/CRA010501/
Name Update Date Size
CRR727434 2023-04-09 09:58:00
CRR727435 2023-04-09 10:00:00
CRR727436 2023-04-09 10:02:00
CRR727437 2023-04-09 10:04:00
CRR727438 2023-04-09 10:06:00
CRR727439 2023-04-09 10:08:00
md5sum.txt 2023-04-09 10:20:00 876
很容易解析里面的文件下载地址;
https://download.cncb.ac.cn/gsa2/CRA010501/CRR727434/CRR727434_f1.fq.gz
https://download.cncb.ac.cn/gsa2/CRA010501/CRR727434/CRR727434_r2.fq.gz
。。。。
https://download.cncb.ac.cn/gsa2/CRA010501/CRR727439/CRR727439_f1.fq.gz
https://download.cncb.ac.cn/gsa2/CRA010501/CRR727439/CRR727439_r2.fq.gz
值得注意的是有时候,一些文件后缀是fastq.gz有一些是fq.gz,估计是作者自己不统一。。。。我们先统一下载,这个时候不需要conda了,仅仅是服务器有 axel 即可,如果没有axel可以求助管理员或者自己使用自己的conda安装axel :
for i in {34..39};do ( axel -n 20 https://download.cncb.ac.cn/gsa2/CRA010501/CRR7274${i}/CRR7274${i}_f1.fq.gz );done
for i in {34..39};do ( axel -n 20 https://download.cncb.ac.cn/gsa2/CRA010501/CRR7274${i}/CRR7274${i}_r2.fq.gz );done
基本上也就是等一个晚上就下载完毕, 然后可以看看数据文件大小情况:
ls -lh |cut -d" " -f 5-
接下来就完完全全参考 小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码),走cellranger流程即可。首先呢,上面的这些fastq文件名字是需要改名的。。。。如果你熟悉10x单细胞转录组数据,就知道:
mkdir ../clean
ls *gz|cut -d"_" -f1 |sort -u | while read id ;do
ln -s $PWD/${id}_f1*.gz ../clean/${id}_S1_L001_R1_001.fastq.gz;
ln -s $PWD/${id}_r2*.gz ../clean/${id}_S1_L001_R2_001.fastq.gz;
done
简单的修改名字后就完完全全参考 小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码),走cellranger流程即可。