大规模的癌症基因组计划,比如The cancer genome atlas(TCGA) and the International cancer genome consortium(ICGC),正在从多技术平台产生更多的癌症基因组数据。这使得这些数据的整合,探索和分析越来越具有挑战性,尤其是对于没有计算机背景知识的科学家来说。cBioPortal是专门设计来降低对这些复杂数据的接近门槛,因此,促进基因组数据向新的生物学视野,治疗和临床特征的转变。
因为TCGA是一个史无前例的癌症研究项目,值得介绍的东西太多,不能在下载这个基础环境耽误太多的功夫,下载渠道再多,也只需要一个好用的即可!
生存分析很重要,如何高效地对两万多个基因批量做生存分析?今天,猎豹师兄带领大家,正确姿势做生存分析,快速锁定目标基因。
各位科研芝士的朋友,大家好,又见面了,今天我们的主题是利用cBioportal及UCSC-XENA数据库在线下载TCGA_SNP数据
TCGA是研究肿瘤相关机制的重要资源。在线数据库更新改版都比较快,使用时需要参照最新的线上数据教程。不过癌症相关的数据库操作起来也都比较类似,输入一个或多个关注的目的基因,查看基因的功能注释,基因在哪些样品中存在突变,突变位点的分布,共表达网络,生存分析等。
前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计二十篇左右的笔记
各位科研芝士的朋友,大家好,TCGA_SNP的下载我们已经连续分享了4个帖子,分别是官网直接下载,Tcgabiolinks下载、UCSC-XENA下载以及cBioportal工具下载,今天我们分享SNP数据下载的最后一讲Fire Browse工具。
原文链接: Application of weighted gene co-expression network analysis to identify key modules and hub genes in oral squamous cell carcinoma tumorigenesis
最近做培训时整理的一部分TCGA相关数据库的使用总结。在线数据库更新改版都比较快,使用时需要参照最新的线上数据教程。不过癌症相关的数据库操作起来也都比较类似,输入一个或多个关注的目的基因,查看基因的功能注释,基因在哪些样品中存在突变,突变位点的分布,共表达网络,生存分析等。 本文包括了TCGA本站中数据的浏览、下载,尤其是TCGA改版后的功能介绍(增加了OncoGrid展示),然后是cBioPortal,TCGA数据在线提供的分析类型最多的一个平台,再是FIREBROWSE,比较不错的在线展示和方便的数据下
TCGA数据挖掘真的是绵绵不绝,这里就不再赘述了,从基因集到ceRNA,到可变剪切,肿瘤免疫, 再到现在的m6A和自噬基因, 马上缺氧,代谢应该是也要出来了,每次一个策略就是33篇数据挖掘文章。真的是很不走心,比如最近有学徒一直咨询我的m6A,我发现仅仅是ccRCC的就有4篇,有一个很简陋的文章,完全是6个网页工具图表拼凑的,再加上一点点多组学。
全部流程在R里面运行,maftools提供了直接读取maf文件的接口,而且存储为S4对象,非常方便进行一系列可视化操作。
cBioPortal网站目前存储DNA拷贝数数据(每个基因的假定,离散值,例如“深度缺失”或“扩增”,以及log2水平),mRNA和microRNA表达数据,非同义突变,蛋白质水平和磷蛋白水平(RPPA)数据,DNA甲基化数据和有限的临床数据等,可以快速获取大规模癌症基因组学项目的分子谱和临床预后相关性,并将这些丰富的数据集转化为可视化数据以用于临床。
cBioPortal数据库是探索肿瘤的基因组学特征,是从DNA水平进行的,是对机制的进一步研究。基因差异表达、生存分析和免疫浸润分析,上述分析严格意义上讲均属于表型。免疫浸润分析属于交叉,算是表型式的解释,就是用现象解释现象,但其实并没有涉及具体的机制。
TCGA是一个综合性的多组学肿瘤基因组数据库,除包含DNA测序之外,还包含了RNA测序、拷贝数、蛋白谱、甲基化等多个组学的数据,但是在TCGA的官方网站GDC Data Portal (https://portal.gdc.cancer.gov/)
TCGA年度(共4年)研讨会PPT官网是: http://www.genome.gov/17516564
很多新手朋友对PyCharm的使用无从下手,于是花费了一点时间整理这份PyCharm操作手册,
大家应该是都知道,TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达)
其中MSKCC的就是cBioPortal,主页在:https://www.cbioportal.org/
生存分析(Survival Analysis)是研究生存现象和响应时间数据及其统计规律的一种统计学方法,是关联表型与患者预后的重要手段。今天,我们带领大家,看看如何用R语言做生存分析,快速锁定目标基因。
根据我们的整理,差异分析是基础,生存分析和相关性分析是表型,免疫浸润分析是对表型的阐释,兼有表型和机制两种作用,但并不是真正意义上的机制探究。通常意义上的机制一般涉及信号通路,是一系列分子的级联反应。
对于大型的肿瘤公共测序数据集而言,其中最出名的肯定还是 TCGA 数据了。对于 TCGA 数据我们之前也做过基本的介绍。
那里的参数可以看下面这个网站https://bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html然后下载你要的数据
这是我们分享多次的论文,其中涉及基因组学的生信分析,就是用cBioPortal数据库进行机制探究。比较简单,但是在进行基因组学探究时,这些分析有时就足够了。
在芒果学习的生信论文中,第28篇生信文章是cBioPortal数据库使用最多,也是用的最好的。
在差异分析的前提下,表型分析成为重点内容,也是可以玩出花样的地方。生存分析是非常常见的表型分析。与生存分析相比,相关性分析是另外一个常见的表型分析。相关性包括表达与病理分期、治疗手段、年龄、种族、吸烟、突变、性别、共表达等因素的相关情况,通常用相关系数R表示,其差异也是用p值判断。严谨的生信论文还对分析结果做出ROC曲线,以提高数据的可信度和说服力。
十一假期飞快的过去了,小伙伴们都度过了一个难忘的假期了吧?是不是感觉十一美美的不想上班学习呢?不管假期如何,工作/学习还是要继续的。今天小编就带给大家一个美美的棒棒糖图,让你的科研结果也能美美的展示!
上一期的教程给大家讲解了批量对TCGA中的基因进行生存分析的第一步。主要内容为:如何通过cBioportal去下载TCGA中的数据和患者的表型数据,然后通过R语言做了一个生存分析的KM图。本期,带领大家认识一下一次性进行成百上千个基因生存分析的黑科技。
步骤2:在Manifest.xml中注册服务 步骤3:在Activity中开启Service服务
有了MAF格式的突变数据,比如TCGA里面的乳腺癌的1000个左右的样本的突变信息,就很容易走maftool这个包,进行绘图,代码如下:
cBioPortal整合了来自TCGA,CCLE以及几个独立的大型肿瘤研究项目的数据,构建了一个易于使用的网站,不需要有深厚的计算机功底,也可以通过该网站查询,分析,可视化肿瘤的相关结果。
各位科研芝士的朋友,今天继续和大家分享一篇Aging的文章,这篇文章不再是讲signature了,作者在题目中就告诉大家本篇的重要研究分子-RBM8A,不再是茫茫人海遇知己,而是已经知道知己,开始编写该分子的浪漫爱情故事。整篇文章丝毫不涉及到编程,几乎全部是点点鼠标便能实现的操作。
看自己感兴趣的基因在自己研究的癌症的预后相关性是高频需求,其实就是拿到基因在癌症病人的表达信息,然后就可以根据表达量高低对病人进行分组,最后这个分组是否统计学显著的把病人的生存情况区分开来。
内网就是你自己的网络环境,就你自己能访问,比如你本地测试进行的localhost;
之前我们在介绍GEPIA的时候,说这个数据库只能用于TCGA表达数据的一些分析。但是对于TCGA数据而言,里面包括相同样本的表达、突变、拷贝数、甲基化以及临床信息等数据,所以我们其实可以利用TCGA数据库来进行多组学之间的交叉分析。今天我们就介绍一个TCGA多组学分析的经典数据库:
前段时间,我们介绍了两篇在OncoImmunology发表的简单的生信+实验的文章。最近又发现一个杂志(Genomics, IF = 6.205)也发表一些生信相关的文章。里面有些文章简单的令人发指。今天就来介绍一个基本上全部都是用在线数据库做出数据的文章。
一、log4j2 1. log4j使用教程详解(怎么使用log4j2) 2.Log4j2的基本使用 二、log4j 1.【转】最详细的Log4J使用教程 2.最详细的Log4j使用教程 3.log4j.properties 详解与配置步骤总结 4.Log4j.properties配置详解 3.易百教程——Log4j教程 4.Log4j使用教程
我们知道一般基因启动子区域的超甲基化会导致下游基因转录受到抑制,从而使表达量下调。也就是一般启动子区域的甲基化水平跟下游基因的表达是成负相关的。
生存分析是非常常见的表型分析。与生存分析相比,相关性分析是另外一个常见的表型分析。相关性包括表达与病理分期、治疗手段、年龄、种族、吸烟、突变、性别、共表达等因素的相关情况,通常用相关系数R表示,其差异也是用p值判断。
EndNote X8.2是一款在学术界比较主流的文献管理软件,可以进行文献批量下载和管理、写作论文时添加索引、分析某篇文献的引文索引、分析某领域或者学术课题的经典文献地位等,功能强大。
领取专属 10元无门槛券
手把手带您无忧上云