有个生信入门课程学员在群里提出一个问题,他发现自己使用Read10x函数读取 CellRanger 标准输出文件报错,明明是非常标准的三个文件,为什么还会报错呢?
当前目录下是有barcode,但是一直报错:
仔细看了一下他目录中的文件:
发现了一些细微差异,read10x函数接受gz格式结尾的,但是他目录中的没有gz结尾,可能问题就出现在这里。但是我很好奇,这三个文件也明明是10x官方提供的数据,没有理由给我三个文件还需要自己压缩一下读取吧!
我看了下这个read10x函数,发现差异原来在这里:
原来 早期的cellranger 三个标准文件是 barcodes.tsv, genes.tsv, and matrix.mtx,没有gz压缩。
后来的升级版本中为:barcodes.tsv.gz, features.tsv.gz, and matrix.mtx.gz
除了变成gz格式外,genes.tsv还变成了features.tsv!
Cell Ranger是10x Genomics公司提供的一款用于处理单细胞RNA测序数据的软件,它定量后输出的三个标准文件组合成为了单细胞表达量矩阵:barcodes.tsv
、genes.tsv
和matrix.mtx
,分别包含了以下信息:
这些文件的格式标准使得它们可以被广泛用于下游分析,如基因表达差异分析、聚类、降维等。Cell Ranger输出的这些文件为单细胞数据分析提供了一个标准化的起点,使得研究人员可以方便地将数据输入到各种生物信息学分析工具和流程中。 早期的Cell Ranger版本使用的文件格式与后来的版本之间的变化,主要是由于对数据存储效率、处理速度和用户体验的优化。以下是对这两个版本文件格式变化的详细解释: 早期版本的文件格式
在早期版本中,这些文件是以未压缩的格式存储的,方便快速读取和处理,但在数据量较大时,存储和传输效率较低。 后来的升级版本
genes.tsv
,包含基因或特征的信息,通常包括基因ID和名称。变化的原因
.gz
)已成为一种标准做法。这使得不同工具和软件之间的数据交换更加方便。features.tsv
文件的引入,使得文件结构更加灵活,能够支持更多的特征类型(如基因、转录本等),这为后续的分析和功能扩展提供了便利。所以,以后读取这几个文件,可能得稍微注意一下。当然,现在基本上都是cellranger3.0版本以后的数据了,可能只有在早期单细胞文献中才能遇到以前的古董数据吧!