有同学问要怎么把自己的数据读入 R,由于 tidyverse 工具套件的简单高效,是我们数据处理的优先选择。因此这里介绍tidyverse里的两个包:readr、 readxl,一个读取文本文件,一个读取 Excel 文件,这两种文件是平时用得最多的。
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。
就会发现,matrix.mtx文件里面的33694、2049、1878957数值,分别是细胞数量,基因数量,以及有表达量的值的数量(全部的值应该是33694X2049接近7000万,但是有值的仅仅是不到200万,所以单细胞矩阵里面只有3%左右的值大于0 )。每个10X样本都是走流程拿到10x单细胞转录组数据的3个文件的表达矩阵。
其中最常见的就是使用Read10X读取3个文件,但是Read10X读取3个文件还得注意版本,而且必须保证3个文件名字完全一样,要么是
进行数据可视化的第一步是需要获取数据,可以使用 JS 提供的 File API 读取用户在表单 <input type="file"> 中主动导入的本地文件,或者通过发送网络请求获取在线数据。
它虽然说是多样品,但是被作者整理成为了一个10x的样品的3文件格式, 所以很容易读取。接下来我们演示真正的Seurat的v5来读取多个10x的单细胞转录组矩阵。数据集在 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE162616 可以看到作者给出来的矩阵还算是10X文件的3个标准文件,但是在每个样品下面都是3个文件,就是需要合理的修改文件名字而已:
但是Read10X读取3个文件还得注意版本,而且必须保证3个文件名字完全一样,如果是最新版,应该是如下所示的:
主要的分析就是第一层次降维聚类分群,然后大概认识一下有什么亚群,以及比例差异情况,最后就是把每个亚群都细分一下做同样的分析即可。
值得注意的是10x的空间单细胞使用的是Space Ranger,软件下载以及数据库文件压缩包下载:
导读:本文要介绍的这些技法,会用Python读入各种格式的数据,并存入关系数据库或NoSQL数据库。
在单细胞转录组分析中,偶尔会出现电脑内存有限等情况,无法直接读取所有数据,这种时候可以考虑分析部分数据。
数据采集、整理、可视化、统计分析……一直到深度学习,都有相应的 Python 包支持。
我们可以利用head命令检查数据三个表格的内容。 Barcodes通俗来讲就是每个细胞的代码,组成就是ATCG四个碱基排列组合成的不同的14个碱基组合; Gene.tsv或者features.tsv一般是基因的ensembl ID 和symbol matrix.mtx说白了就是每个细胞不同基因的表达矩阵,我们利用分别检查文件的开头和结尾:
文章标题:《Multidimensional single-cell analysis of human peripheral blood reveals characteristic features of the immune system landscape in aging and frailty》
文章标题:《Single-Cell RNA Sequencing of Peripheral Blood Reveals Immune Cell Signatures in Alzheimer’s Disease》
MySQL Shell诊断实用程序能够分析MySQL服务器的性能,并能够生成运行状况、性能和单个查询的诊断报告。注意,这是MySQL Shell在8.0.31提供的新功能,用户必须使用8.0.31之后的版本。
这样的例子,就是作者不提供cellranger 的三个结果文件,matrix.mtx,barcodes.tsv 和 genes.tsv,不过大部分其它数据集,比如 GSE128033 和 GSE135893,你随便下载其中一个,就能看到每个样本都是走流程拿到10x单细胞转录组数据的3个文件的表达矩阵。
本教程演示的数据来源于发表在2017年10月的NC文章:Differentiation dynamics of mammary epithelial cells revealed by single-cell RNA sequencing 用10X单细胞转录组测序来探索小鼠的乳腺发育情况,包括了4个发育阶段: nulliparous (NP) 未怀孕时期 day 14.5 gestation (G) 妊娠期第14.5天 day 6 lactation (L) 哺乳期第6天 11 days post nat
如果是10x的单细胞公共数据,比如 GSE128033 和 GSE135893,就是10x数据集,随便下载其中一个,就能看到每个样本都是走流程拿到10x单细胞转录组数据的3个文件的表达矩阵。
在我们平时的研究工作中,经常使用的是逗号分隔文件(.csv文件)、制表符分隔文件(.tsv文件)和空格分隔文件(.txt文件)。当然对于一些基因组文件或者其它格式的文件,各自有各自的特点,原则上R语言可以读取任何格式的文件,只需掌握基本的读取文件方法后按照不同特点调整参数即可。
在HPC上启动任务以local模式运行自定义spark,可以自由选择spark、python版本组合来处理数据;起多个任务并行处理独立分区数据,只要处理资源足够,限制速度的只是磁盘io。本地集群处理需要2周的数据,2个小时就处理好了。HPC通常没有数据库,进一步BI展示或者处理需要拉回本地集群,这时候需要把数据块(比如一天)的数据保存为tsv.gz拉回本地集群。pyspark dataframe 提供write的save方法,可以写tsv.gz,spark默认是并行写,所以在提供outpath目录下写多个文件。这个时候,需要顺序拼接多个tsv文件并压缩为gz格式。
目前10x的单细胞转录组技术给出来的表达量矩阵,主要是Market Exchange Format (MEX)格式,每个样品都会有一个filtered_feature_bc_matrix文件夹,里面会有3个文件,如下所示:
但是留下来了一个悬念, 就是如果我们的单细胞转录组并不是10x的标准3文件,而是tsv或者csv或者txt等文本文件表达量矩阵信息,就有点麻烦了。接下来我们以2020的文章:《Single-Cell Transcriptome Analysis Reveals Dynamic Cell Populations and Differential Gene Expression Patterns in Control and Aneurysmal Human Aortic Tissue》举例说明,它的数据集是 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE155468
比如2021-GSE158328-肠道发育的,自己下载 GSM4797916_A1.tar.gz ,然后解压可以看到它每个样品其实有两个文件夹 :
进行重新加载编译。实际就是将浏览器不认识的语法编译成浏览器认识的语法。比如less编译成css,ES6 语法 转成 ES5等等。
软件支持多种方式的数据读入,可以直接读入 10x genomics 官方软件 Cell Ranger 的结果,也可以使用 Seurat 质控过后的结果,还可以单独读入矩阵,细胞信息,基因信息文件。还可以处理一些较大类型的稀疏矩阵对象。
但是我看到了一个比较狡猾的数据集(GSE133283),它官网给出来了的文件如下所示:
现在rio包支持读取multi object的文件例如(Excel workbook, .Rdata file, zip directory, or HTML file)
上期推文【scATAC-seq3:常用工具—SnapATAC简介】当中,我们主要对SnapATAC这一个工具的特点进行了简单的介绍。在本期推文当中,我们将继续上一次的话题,简单介绍scATAC-seq的上游分析流程,即最常用的Cellranger和用于SnapATAC分析的上游分析软件snaptools。
答案当然不是!!!!今天我们学习的是一个python中用来用于数据分析,操作和可视化的全功能数据分析库pandas~~~先来学习如何读取表格数据文件使用pandas,接下来开始吧:
注:同方法二,如果没有 “all.datatable.txt” 的文件,也可忽略此步骤。这里只是提供多种情况下的读入方法。(想尝试的话,方法一有生成 “all.datatable.txt” 的代码,不过要注意路径。)
交流群里面小伙伴发了一个小鼠的肝脏单细胞转录组数据文章,说不会读取作者给出来的矩阵,文章是2019的:《Single-Cell Transcriptomics Uncovers Zonation of
比如SRR7722939数据集里面,文件barcodes.tsv 和 genes.tsv,就是表达矩阵的行名和列名:
文章标题:《Resolving the difference between left-sided and right-sided colorectal cancer by single-cell sequencing》
单细胞专题 | 1.单细胞测序(10×genomics技术)的原理 单细胞专题 | 2.如何开始单细胞RNASeq数据分析 单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ 单细胞专题 | 4.单细胞转录组的上游分析-从SRA到FASTQ 单细胞专题 | 5.单细胞转录组的上游分析-从FASTQ到count矩阵
以项目的方式管理R代码和文件,可以很大程度规避 1)工作路径不对,2)找不到文件 ,3)代码和文件不对应 ,等常见的问题。
文章标题:《Entinostat decreases immune suppression to promote anti-tumor responses in a HER2+ breast tumor microenvironment》
文章标题:《Single-cell RNA transcriptome analysis of CNS immune cells reveals CXCL16/CXCR6 as maintenance factors for tissue-resident T cells that drive synapse elimination》
我们以Nov 2020的文献:《VEGF-B Promotes Endocardium-Derived Coronary Vessel Development and Cardiac Regeneration》为例,链接是:https://www.ahajournals.org/doi/10.1161/CIRCULATIONAHA.120.050635
Hello小伙伴们大家好,我是生信技能树的小学徒”我才不吃蛋黄“。接下来的一段时间里,将由我开启一个新的学徒分享系列,给大家系统整理单细胞测序的代码。此系列包括但不限于以下内容:数据下载与读取;质控和去批次;降维聚类;分群注释;差异分析;富集分析;拟时序分析;细胞通讯;CopyKAT。
文章标题:《Single-cell atlas of diverse immune populations in the advanced biliary tract cancer microenvironment》
Alevin 是一个专为单细胞RNA测序(scRNA-seq)数据设计的软件工具,它是Salmon软件的一个组成部分,由Rob Patro及其研究团队开发。其具有以下特性
2.依据RobotFramework2.6.3版本翻译,由于水平有限,时间仓促,难免有错误,请大家不吝指出。
虽然说我们安装了Seurat的V5版本,但是初次使用的时候加载就报错了,如下所示:
这个文章标题短小精悍:《Choroid plexus mast cells drive tumor-associated hydrocephalus》,相关数据在:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE207546
在基因表达定量后,需要将这些数据导入到 R 中,以生成用于执行 QC(质控)。下面将讨论定量数据的格式,以及如何将其导入 R,以便可以继续工作流程中的 QC 步骤。
常规需求是文本文件交互,比如 文件打开、文件写入、文件内容刷新等等,如果默认的文件没有规则仅仅是里面有内容,就需要使用比较底层的函数:
文章标题:《Regulation of heterotopic ossification by monocytes in a mouse model of aberrant wound healing》
作者:聋言瞎面 审核:Listenlii 本文主要解决的问题: 1、QIIME2做完PICRUSt2后,只输出pathway id,如何比对得到pathway description? 2、PICRU
领取专属 10元无门槛券
手把手带您无忧上云