我在练习上游数据处理的过程中遇到了一个奇怪的数据https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE181454,可以看到这里是两个样本的矩阵。
点开SRA RUN selector我发现两个样本的双端测序居然出现了4个fastq文件和4个SRA文件。
限于内存,我只下载了4个fastq文件
#为了不在处理过程中发生意外,损坏原文件,将文件软链接到新的文件夹内
mkdir sftl/
ln -s SRR*.fastq.gz sftl/
ls sftl
通过在SRA网站查看,可以确定的是32、33属于一个样本,34、35属于一个样本,但是无法通过fastq文件内容确定R1与R2。33中有一段比较规则20几个碱基的内容,我怀疑他是R1中的barcode。所以第一次尝试把33与35全部命名为R1,32和34作为R2
将文件名改为cell ranger要求的格式做第一次尝试
mv SRR15343232.fastq.gz SRR15343232_S1_L001_R2_001.fastq.gz
mv SRR15343233.fastq.gz SRR15343232_S1_L001_R1_001.fastq.gz
mv SRR15343234.fastq.gz SRR15343234_S1_L001_R2_001.fastq.gz
mv SRR15343235.fastq.gz SRR15343234_S1_L001_R1_001.fastq.gz
接下来开始安装cellranger
mamba create -n cellranger
mamba acrivate cellranger
wget -O cellranger-8.0.1.tar.gz "https://cf.10xgenomics.com/releases/cell-exp/cellranger-8.0.1.tar.gz?Expires=1720405689&Key-Pair-Id=APKAI7S6A5RYOXBWRPDA&Signature=MuvX~Acx7cJVFQGo4EuFKvujoD6qgGEv1aIG6VmDSBFbDVtlJITKoZ3ko-18LiO~qCUl~0V57Mqh1SkaDnVXm0E6VBO1BCGIl5PGKzaM5Eztoi~Z92BbvroSbPClvwXEiZZdgSHmYNayFfNe7pjABjqoQD9wltKcGqDSi2gwogq4ydj16MxjCDCZ53vczrasO9VdvdN6VAwHeUgRDGnp6N~~O0g9O9k-EvN6zaSckeBtrQGnYfN3uoOd-zxswiJfqz1Ut3ZpFiwZK2n-OT8X6LQNowZzyM6h9EovjiLw9M8zWKZj9vULBHUPHXgKBrzP-8QuCSUBZpxHTlRtfiOwpg__"
tar -xzvf cellranger-8.0.1.tar.gz
cd cellranger-8.0.1
export PATH=/home/data/t060441/ARHL/MultiSet/cellranger-8.0.1:$PATH
cd ..
cellranger -h
为了实时查看日志,这次不在后台运行,cellranger-8.0.1版本create-bam是必须要写的
cellranger count --id=SRR15343232 \
--fastqs=/home/data/t060441/ARHL/MultiSet/upstream_download/tmpstore \
--sample=SRR15343232 \
--transcriptome=/home/data/t060441/ARHL/MultiSet/refdata-gex-mm10-2020-A \
--localcores=10 \
--create-bam=true
折腾了一天,问题还是没有解决- -
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。