关于miRNA的基础知识可参考文章:医学科研实验基础知识笔记(十一):非编码RNA。
最近小编在看单基因的分析文章,这些文章共通点多是利用公共数据库进行单基因数据挖掘。小编认为这个对于想发表文章,但是又苦无很好的生信基础的小伙伴是个很好的思路。同时也揭示出一个简单的却容易被忽视的真理-肿瘤数据库掌握得好,分析绘图“一锅烩”,徒手挖文章就不再是遥不可及的梦!
HCMDB(人类癌症转移数据库)是一个集成数据库,可以存储和分析癌症转移的大规模表达数据。该数据库从GEO和TCGA中收集了124个先前公开的转录组数据集,用于比较转录组以检查转移相关基因的表达,在目前版本的HCMDB中,它包含来自四百多个实验的29种癌症类型。为了注释那些可能与转移相关的基因,数据库基于7,000多种已发表的文献,总共筛选了2183个基因(1901个蛋白质编码基因,24个长非编码RNA和203个miRNA)。
简单地讲,基因芯片就是一系列微小特征序列的(通常是DNA探针,也可能是蛋白质)的集合,它们可以被用于定性或者定量检查样品内特异分子的成份。比如说,基因芯片可以检测几十个gene marker在细胞样品中的表达量。现在最常见的是用于整个基因组的表达量分析。它的雏形来自于同位素杂交技术,又如Southern blots或者dot blots。在上世纪九十年代,2维的具有现代意义的基因芯片才在实验室里诞生。基因芯片自问世以来,已经有超过23年(至2014年)了。现在,世界上主流的芯片制造商有4家,分别是Affymetrix,Agilent,Nimblegen以及Illumina。下图为历年来提交至Gene Expression Omnibus数据库的主流芯片厂商的芯片数据统计分布图(数据截止日期为2014年3月1日)。从下图中可以看出,Affymetrix制造的基因芯片在2008年以前占据了市场的主流,在2008年,因为illumina BeadArray的推广,它的市场份额有较大的攀升,但是2年以后就下降至与Affymetrix公司类似的份额。而Agilent却在2010年以后成为芯片市场份额最大的一家。市场份额的变化有价格的因素,质量的因素,使用习惯的因素,也有受到第二代测序技术冲击的因素。
肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型从最开始的多形性成胶质细胞瘤(GBM)到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件,当然其项目也将于2017年接近尾声。
GEO 数据库全称是 Gene Expression Omnibus,是由美国国立生物技术信息中心NCBI 创建并维护的基因表达数据库。它收录了世界各国研究机构提交的高通量基因表达数据,目前已经发表的论文中涉及到的基因表达检测的数据可以通过这个数据库中找到,并且免费提供下载,对科研人来说真是非常友好的存在。
生物信息数据分析教程视频——13-3种R包(DESeq2、edgeR和limma)进行RNAseq的差异表达分析与比较
因为TCGA是一个史无前例的癌症研究项目,值得介绍的东西太多,不能在下载这个基础环境耽误太多的功夫,下载渠道再多,也只需要一个好用的即可!
TCGA数据挖掘真的是绵绵不绝,这里就不再赘述了,从基因集到ceRNA,到可变剪切,肿瘤免疫, 再到现在的m6A和自噬基因, 马上缺氧,代谢应该是也要出来了,每次一个策略就是33篇数据挖掘文章。真的是很不走心,比如最近有学徒一直咨询我的m6A,我发现仅仅是ccRCC的就有4篇,有一个很简陋的文章,完全是6个网页工具图表拼凑的,再加上一点点多组学。
为了分析不同类型、组织起源肿瘤的共性、差异以及新课题。TCGA于2012年10月26日-27日在圣克鲁兹,加州举行的会议中发起了泛癌计划。参考:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6000284/ 为此我也录制了系列视频教程在:TCGA知识图谱视频教程(B站和YouTube直达)
大家应该是都知道,TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
PanCanSurvPlot (https://smuonco.shinyapps.io/PanCanSurvPlot/)
有了MAF格式的突变数据,比如TCGA里面的乳腺癌的1000个左右的样本的突变信息,就很容易走maftool这个包,进行绘图,代码如下:
TCGA年度(共4年)研讨会PPT官网是: http://www.genome.gov/17516564
http://www.chrislifescience.club:3838/R/AnnoE2/
大规模的癌症基因组计划,比如The cancer genome atlas(TCGA) and the International cancer genome consortium(ICGC),正在从多技术平台产生更多的癌症基因组数据。这使得这些数据的整合,探索和分析越来越具有挑战性,尤其是对于没有计算机背景知识的科学家来说。cBioPortal是专门设计来降低对这些复杂数据的接近门槛,因此,促进基因组数据向新的生物学视野,治疗和临床特征的转变。
就是一篇文章并没有使用TCGA数据库的指定癌症的生存信息去看自己感兴趣的基因的生存效应,反而舍近求远去下载BMC Cancer. 2011 文章数据,所以我怀疑TCGA应该是该基因在该癌症里面的生存效果不显著!
关于差异分析的文章中【一文就会TCGA数据库基因表达差异分析】其实有推送过,这篇文章目前为止,有近千人付费学习。
在进行差异分析、生存分析等下游分析时,有很多粉丝朋友对到底使用哪种类型的数据非常纠结,所以我们今天比较一下counts、tpm、fpkm、vst、cpm的表达量差异,让大家对这些数据类型有一个直观的感受。
GISTIC软件的使用有两个难点,一是在linux下面安装matlab工作环境,二是如何制作输入文件。
那里的参数可以看下面这个网站https://bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html然后下载你要的数据
各位科研芝士的朋友,大家好,又见面了,今天我们的主题是利用cBioportal及UCSC-XENA数据库在线下载TCGA_SNP数据
肿瘤突变负荷(TMB, tumor mutation burden)在生信数据挖掘领域是很古老的东西了,没想到还有人在用它进行各种分析...
生物信息数据分析教程视频——10-TCGA数据库:mi NA的表达探索
前面关于TCGA的教程我介绍很多,包括数据下载和一些简单的分析以及数据的处理,这里介绍还是介绍数据的下载,前面介绍过从网页下载后直接整理,或者利用R包下载,这里介绍基于TCGA数据开发的一些工具——UCSC。从UCSC下载TCGA数据比较简单。
只想用生信分析注释个基因,找找lncRNA,做个火山图图来展示结果,还不想学习写代码,怎么办?
3、依靠这样的公式,我们可以很轻松的提出国家自然科学基金的科学假说,也能屡清楚课题中的关键点。
TCGAbiolinks -一个用于TCGA数据综合分析的R/BioConductor软件包,能够通过GDC Application Programming Interface (API)访问 National Cancer Institute (NCI) Genomic Data Commons (GDC) ,来搜索、下载和准备相关数据,以便在R中进行分析。
GTEx数据库(https://gtexportal.org/home/datasets)中有人体各个器官和组织的转录组。之前的有关ACE2教程,都是用这个数据库中的数据完成的。当然数据是开放下载的,Xena研究机构提供了标准化以后的数据(下载链接是https://toil.xenahubs.net/download/gtex_RSEM_gene_tpm.gz, https://toil.xenahubs.net/download/GTEX_phenotype.gz )这个数据下载解压以后有大小有3G+,一般笔记本是无法打开的,用内存大一点的服务器读入也需要一段时间。这个也成为很多小伙伴使用这个数据库的痛点。看过下面这些画图教程的小伙伴应知道:
TCGA是研究肿瘤相关机制的重要资源。在线数据库更新改版都比较快,使用时需要参照最新的线上数据教程。不过癌症相关的数据库操作起来也都比较类似,输入一个或多个关注的目的基因,查看基因的功能注释,基因在哪些样品中存在突变,突变位点的分布,共表达网络,生存分析等。
但是TCGA数据库这2年就更新了两次,有些以前的教程可能就不在适用,我也写了一篇文章来介绍了最新版的内容:2024年TCGA数据库改版后的数据下载问题,为了下载数据方便,以及我后续分析数据方便,我正在把以前的代码渐渐封装成一个R包,让一些常规分析变得更加方便快捷,这个R包在慢慢的开发中,包的内容比较杂,没有一个好的名字,我就用我公众号ID(MedBioInfoCloud)作为包名:
Motivation: 目前一些计算方法都是基于2011年的那个ceRNAs假设,研究lncRNAs和miRNA靶mRNAs之间的竞争关系。但是,当mRNAs脱离miRNAs的控制之后,海绵lncRNAs如何影响这些mRNAs的表达水平还不是很清楚。
这里我们可以发现,miRNA的前体可能对应多个成熟的miRNA,比如hsa-let-7a-1,有两个对应的成熟体,MIMAT0000062(hsa-let-7a-5p)和MIMAT0004481(hsa-let-7a-3p)。这里的值是对所有成熟体miRNA求和的结果。
但是,一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。
这天,接到了生信技能树创始人jimmy老师的一个任务,要重复一篇CELL文章中的一个图示:
前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计28篇教程!
最近做培训时整理的一部分TCGA相关数据库的使用总结。在线数据库更新改版都比较快,使用时需要参照最新的线上数据教程。不过癌症相关的数据库操作起来也都比较类似,输入一个或多个关注的目的基因,查看基因的功能注释,基因在哪些样品中存在突变,突变位点的分布,共表达网络,生存分析等。 本文包括了TCGA本站中数据的浏览、下载,尤其是TCGA改版后的功能介绍(增加了OncoGrid展示),然后是cBioPortal,TCGA数据在线提供的分析类型最多的一个平台,再是FIREBROWSE,比较不错的在线展示和方便的数据下
各位朋友,大家好,今天,我们分享TCGA数据的最后一个R包,RTCGAToolbox。TCGA数据量庞大,数据种类丰富,分析方法复杂,对于大部分研究人员来说,从如此海量的原始测序数据开始分析是不可行也是不必要的。
领取专属 10元无门槛券
手把手带您无忧上云