上个帖子简单介绍了scVI和scANVI,以及其python环境部署,并尝试运行了一个示例数据,详见:
随着单细胞相关研究成果的井喷式爆发,单细胞领域已进入百万级甚至千万级细胞量的时代。因此有不少R语言党(包括我)开始学习Python,使用Scanpy流程。但是,由于习惯了Seurat流程,有些时候需要把Anndata对象的单细胞数据转为Seurat对象,然后使用R语言进行一些分析。而最大的问题在于,如何丝滑的将Anndata对象的h5ad格式与Seurat对象相互转换。本文基于一个百万级的单细胞测试数据,对多种互转软件进行测评并总结。希望能够帮助到大家~
科学研究的过程可重复性可以说是一件不言而喻的事情:如果你提出一观点或发现一个现象,在别人那里完全重复不出来,谁知道是不是臆想呢?但是有时候重复人家的研究结论又会显得不可理喻:分析的环境,软件的版本,试剂的保质期,甚至是历史条件都会成为不可重复的原因。然而,我们仍然做着这样的努力,至少我们看到数据科学家在做着这样的努力。
其中,我委婉的指出来了,那个文章对两个两个样本的10X单细胞转录组数据的整合是有问题的,不过他们文章发表期刊是 Immunity影响因子很高,二十多分,其实单细胞对他的生物学故事来说是锦上添花,可有可无,所以我也不想去追究 他们了。
提高下载安装包的速度。如下分别为bioconductor与CRAN选择了清华的镜像源
这个时候,你无需理会你的服务器的R语言版本或者R包啦,因为你每次都会 conda activate r 激活你自己的R语言环境哦。我们在这个环境里面安装了 bioconductor的 singlecelltk和singlecellsignalr,因为它们本身就会依赖大量的其它R语言包,所以理论上这个时候你的这个 conda activate r 小环境,已经是比较好的可以用来做单细胞转录组数据分析的啦!
做单细胞数据分析的时候,我们经常会从公共数据库,或者从别人那里得到一个seurat对象,有些人可能想从这个seurat对象中提取原始的表达矩阵,自己再从头分析一遍。那么今天小编就讲讲怎么实现,我们以SeuratData这个包里面自带的pbmc3k这套数据为例。
主要是因为我们依赖于这个V4的版本的Seurat流程做出来了大量的公共数据集的单细胞转录组降维聚类分群流程,100多个公共单细胞数据集全部的处理,链接:https://pan.baidu.com/s/1MzfqW07P9ZqEA_URQ6rLbA?pwd=3heo,而且也有海量的配套视频教程在b站,视频号等渠道,基本上大家能看到的中文笔记都是我们分享的。。。。
以上只是R语言中一些简单的基础函数例子,R语言提供了丰富的函数和包,涵盖了数据处理、统计分析、图形绘制等各个方面。这些简单的函数是R语言中的基础,对于数据处理和分析非常重要,可以方便地完成许多常见的任务。
关于空间转录组分析的学习,我推荐先学习单细胞转录组分析,熟练掌握单细胞的数据读入,常规分析,整合去批次,以及部分高级分析(例如拟时序、转录因子和细胞通讯分析),在这个基础上,理解和学习单细胞空间转录组就非常快了,Seurat官方文档(https://satijalab.org/seurat/articles/spatial_vignette.html)就是一个很好的入门教程。
目前的单细胞转录组学从样本量、分析方法和湿实验等方面都已经卷到了一定程度,另一个趋势则是引入单细胞多组学(如scATAC-seq等)以及空间维度,包括空间转录组、空间代谢组、空间蛋白组、空间ATAC等等。
因为这个Seurat的V5版本还是有一些优势的,比如可以轻轻松松拿捏这130万单细胞的数据集,需要参考Seurat官网的3个资料:
单细胞代码解析-妇科癌症单细胞转录组及染色质可及性分析1:https://cloud.tencent.com/developer/article/2055573
要先安装R,注意直接下载太慢,用镜像会好一点,注意要先安装R,不要更改安装目录,不要更改安装目录,不要更改安装目录,重要的事情多说几遍,之后安装rstudio。简单介绍一下R,R是一种编程语言,也是统计计算和绘图的环境,它汇集了许多函数,能够提供强大的功能。R语言软件界面简陋,通常不直接使用,而是用图形界面的Rstudio。这个要注意设置权限为完全控制(R的Library,R.exe,还有rstudio)。
首先要下载所需要的示例数据,下载地址:https://storage.googleapis.com/linnarsson-lab-www-blobs/blobs/cortex/expression_mRNA_17-Aug-2014.txt
我看了看朋友们秀出来的跟ChatGPT的生物信息学相关对话,起初还以为是很高大上。比如:
尤为重要的是随着单细胞转录组的流行,它附带的大量数据的探索和展示也开始需要独立的网页工具,也就是说一篇单细胞文章就得开发一个网页工具。而网页工具的开发其实是一门比较专业的技术,底层三剑客包括:html, js, css, 超出了咱们生信工程师的技能范畴。但是R语言的shiny框架能让你在起步的时候突破网页工具的开发技术限制,简单的几句R代码,一个活灵活现的网页工具就出现在你眼前。
作为一个刚刚开始进行单细胞转录组分析的菜鸟,R语言底子没有,有时候除了会copy外,如果你让我写个for循环,我只能cross my fingers。。。。
很多时候,我们其实并不需要动R本身的版本,可能只是想修改某个R包版本,比如单细胞领域最火的 Seurat 包, 就有这个问题:
专业生物信息学家也懂大家的痛,这不,单细胞测序数据兴起的时代,大佬们就在推出应对单细胞测序数据的在线工具 (Granatum),方便你我他。
咱们在上一个课程中进行了GO圈图绘画,但是我富集分析并不只是有GO,kegg通路的富集分析可以看到基因发挥的作用,在生物体中的重要性。
可以看到,每个单细胞亚群都有自己的差异分析火山图,会议上有人提问这个分析如何做。其实主要是大家可能是初次接触生物信息学就是单细胞数据处理,所以基础知识有点欠缺。它就是普通的表达量矩阵分析而已,我七八年前就写过系列笔记,公众号推文在:
单细胞测序技术的产生对于生命科学研究无疑是个里程碑式的突破,不同于传统测序,单细胞测序是基于单个细胞的测序技术,而细胞是生命体发挥功能的最小单位,得益于单细胞极高的分辨率,研究者们可以精确识别每个细胞或细胞群所具有的特征,能够揭示单个细胞的基因结构和基因表达状态,反映细胞间的异质性。
基金首页 - 科学网 - 基金 - 构建全球华人科学社区(http://fund.sciencenet.cn/) 以“单细胞”作为关键词查询2009-2019之间的项目,总计449项, 累计金额:39285 万元。
之前我有测试过很多整合去批次的算法,例如CCA,RPCA,harmony,LIGER等:
LIGER(Linked Inference of Genomic Experimental Relationships,基因实验关系的链接推断)是一个用于整合和分析多个单细胞数据集的软件包,由Macosko实验室开发,并由Welch实验室维护和扩展。它依赖于整合的非负矩阵分解技术来识别共享的和数据集特定的因子。
2019年11月14日,北京大学白凡研究员团队与广州医科大学附属广州市妇女儿童医疗中心儿科研究所张玉霞研究员,国家临床重点专科儿科消化团队(杨敏、耿岚岚及龚四堂主任医师)合作在《Cell》以长文形式发表了题为“Mucosal profiling of pediatric-onset colitis and IBD reveals common pathogenic and therapeutic pathways”的研究论文,报道了这一儿童疾病研究领域的重大进展。
同样的单细胞天地的基础视频课程学员提问:想知道参考文献的下面的条形图如何绘制,因为没有给原文,不知道作者定义的pseudotime bins是什么,不过在monocle官网教程,有一个state的概念,所以可以大致绘制出下面的图形:
需要安装一下缺的包。而且你这个电脑用户名里面有中文,也是一个麻烦的事情,如果搞不定就联系助教哦
在单细胞分析中,我们读取多个单细胞数据集时通常会用到lapply()函数,循环读取多个数据集
在进行单细胞的数据分析之前,相信每个小伙伴都经历过在Linux服务器或者自己本地化的电脑上装包到抓狂的过程,我就是其中的一个。
RStudio Server是网页版的RStudio,部署在服务器上后,能够在从Web浏览器访问的Linux服务器上运行RStudio,可随时随地完成R语言的工作,并且能很方便的完成R项目的部署调试。使将RStudio IDE的强大功能和工作效率带到基于服务器的集中式环境中。
因为我自己能力限制,单细胞多组学,单细胞表观,单细胞免疫组库,空间单细胞这些比较新颖的技术在2023年8月份之前我是不可能去整理它们数据分析流程,所以如果不是普通的单细胞转录组数据,请绕行哈, 放过我吧。
我简单读了一下文章,其实就降维聚类分群后,每个单细胞亚群在两个分组简单的做一下差异分析,有多少个单细胞亚群就做多少次差异分析,差异分析的上下调基因数量就是umap图里面的每个细胞的颜色情况。
本杂志开源(GitHub: ShixiangWang/weekly[1]),欢迎提交 issue,投稿或推荐生信相关内容。
单细胞测序技术是近年最大的生命科学突破之一,相关文章频繁发表于各大顶级期刊,然而单细胞数据的分析依然是大家普遍面临的障碍。本专题将针对10X Genomics单细胞转录组数据演示各种主流分析,包括基于Seurat的基础分析、以及基于clusterProfiler、Monocle、SingleR等R包的延伸分析。不足之处请大家批评指正,欢迎添加Kinesin微信交流探讨!
近年来,深度学习领域的迅速进步对蛋白质设计产生了显著影响。最近,深度学习方法在蛋白质结构预测方面取得了重大突破,使我们能够得到数百万种蛋白质的高质量模型。结合用于生成建模和序列分析的新型架构,这些方法在过去几年里极大改变了蛋白质设计领域,提高了识别新蛋白质序列和结构的准确性和能力。深度神经网络现在能够学习和提取蛋白质结构的基本特征,预测它们与其他生物分子的相互作用,并且有潜力创造用于治疗疾病的新型药物。
我们依赖于这个V4的版本的Seurat流程做出来了大量的公共数据集的单细胞转录组降维聚类分群流程,100多个公共单细胞数据集全部的处理,链接:https://pan.baidu.com/s/1MzfqW07P9ZqEA_URQ6rLbA?pwd=3heo
从 2016 年开始,scRNA-tools 数据库(https://www.scrna-tools.org/)不断收集单细胞转录组数据分析软件。截止2021年,已经收集了超过 1000 个工具,从这些工具中,能够感受到单细胞转录组测序技术的可用性和兴趣的增长趋势。
最近在刷bioconductor包,无意中跳转到了一个文章, 标题是:《Software for the Integration of Multiomics Experiments in Bioconductor》,文章链接是:https://cancerres.aacrjournals.org/content/77/21/e39
我都是这样教导学生完成单细胞学习的,基础课程学完后需要完成作业:https://mp.weixin.qq.com/s/lpoHhZqi-_ASUaIfpnX96w
randomcoloR和paletteer的使用方式类似,都提供了直观的函数来生成和应用颜色方案。randomcoloR 包可以生成随机的颜色方案,非常适合当你需要快速创建一个颜色方案时使用。
科学技术的进步促进了我们世界奥秘更为深入的理解。在生命科学研究领域,过去20年中对现代生物学和医学研究产生巨大影响的技术莫过于二代测序技术的逐渐成熟、推广和相关下游技术的开发。二代测序技术打开了从基因组水平去开展疾病诊断、基因鉴定和功能研究的大门。
单细胞初级8讲和高级分析8讲 单细胞分析十八般武艺1:harmony 单细胞分析十八般武艺2:LIGER 重温seurat官方教程
现在回过头来看,很多教程已然过时,当然并不是说的知识点过时,其实linux基本上几十年都没有怎么变动过基础知识的,哪怕你现在搜索到十几年前的linux教学视频,也不会觉得尴尬。主要是其中一些资源链接,一些小技巧都过时了,比如R语言安装包,需求切换适合的镜像,或者某些配套书籍课程的URL肯定也会成为死链啦,所以非常有必要系统性整理一下,最新生信分析人员如何系统入门R
能看这本书的都是对单细胞测序有所需求或这有这个意愿去学习相关知识的。这本书主要是整合目前常见的单细胞分析流程并尽可能详细的解释这些流程的每一个步骤,包括原理,所使用的工具以及给出栗子。所以可以根据自己的实际需求取选取合适自己的workflow与其中的步骤。
单细胞测序技术有助于刻画细胞层面的异质性,为进一步探索细胞功能和内在作用机制等奠定了基础。在单细胞转录组测序数据的分析过程中,细胞类型鉴定是必须且重要的一步。常规的细胞类型鉴定依赖于细胞类型标记基因,这种方法费时费力且不稳定,可重复性差,易导致不同实验室的鉴定结果不可比较。随着单细胞测序技术的迅猛发展,众多科学家联名在2017年提出人类细胞图谱计划(The Human Cell Atlas【1】),于2020年提出了人类癌症图谱计划(The Human Tumor Atlas【2】),海量的已标注细胞类型的单细胞转录组测序数据越来越多,利用这些数据作为参考数据集(reference)来鉴定新测序的细胞(single cell assignment against the reference),正成为一种细胞注释的新思路。
拷贝数变异(CNV)在癌症的发生和发展中起着重要作用。随着单细胞测序数据的日渐增长,如何从单细胞转录组数据鉴定CNV 并进一步区分肿瘤细胞也成为了大家感兴趣的课题,今天我们介绍一款基于scRNA-seq数据鉴定CNV的R包。
ShinyCell包是由杜克-新加坡国立大学医学院的John F. Ouyang团队开发的单细胞分析工具包,实现基于shiny网页交互式展示单细胞数据;于2021年3月发表于Bioinformatics杂志。如文章中介绍,ShinyCell相比同类工具具有多个优势,例如直观的side-by-side的降维可视化方式,hdf5格式保存表达矩阵从而读取快速,支持pdf/png保存图片,支持多种常见单细胞数据类型等。参考其教程文档,学习记录如下。
领取专属 10元无门槛券
手把手带您无忧上云