首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

tcga数据库的使用教程

The Cancer Genome Atlas (TCGA)数据库是一个由美国国家癌症研究所(NCI)和美国国家人类基因组研究所(NHGRI)于2005年启动的公共项目,旨在通过系统性地研究多种癌症的基因组学、表观基因组学和临床数据,以加深对癌症发生、发展和治疗机制的理解。以下是关于TCGA数据库的相关信息:

数据库简介

  • 目标:通过全面分析癌症的基因组学数据,揭示癌症的分子基础,为癌症研究提供资源。
  • 数据类型:包括基因组测序数据、转录组数据、表观基因组数据、蛋白质组数据等。

数据库类型

  • 基因组数据:包括全基因组测序和外显子组测序。
  • 转录组数据:主要是RNA测序数据。
  • 表观基因组数据:包括DNA甲基化数据。
  • 临床数据:涵盖患者的诊断、治疗和预后信息。

应用场景

  • 临床研究:分析不同癌症类型的临床特征,预测患者生存率,评估治疗效果。
  • 基因组学研究:研究癌症发生机制,寻找与肿瘤相关的基因变异。
  • 药物研发:筛选和评估潜在的抗癌药物靶点。
  • 个体化治疗:帮助医生制定基于患者基因组信息的个体化治疗方案。

优势

  • 数据规模庞大:包含数千个样本的数据,涵盖多种癌症类型。
  • 数据类型丰富:提供基因组学、转录组学、表观遗传学等多维度数据。
  • 临床信息全面:与基因组学数据相结合,有助于探索癌症的临床特征和治疗反应。
  • 开放共享:任何研究人员都可以免费获取和使用数据,促进科学研究的合作和创新。
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

TCGA的28篇教程-GTEx数据库-TCGA数据挖掘的好帮手

通常我们在挖掘TCGA数据库的时候,会发现该项目纳入的正常组织测序结果是非常少的,也就是说很多病人都不会有他的正常组织的转录组测序结果,比如说乳腺癌吧,1200个左右的转录组数据,其中1100左右都是肿瘤组织的测序数据...这个时候我们就需要想办法加大正常组织测序样本量,既然TCGA数据库没有,我们就从其他数据库着手。...更多的是关于这个数据库的网页使用介绍,我们生信工程师通常不需要,就不赘述了。...注意一下 数据库的版本信息: The current release is V7 including 11,688 samples, 53 tissues and 714 donors 首先看数据库的注释信息...如果真的要把GTEx数据库的转录组表达矩阵和TCGA的进行比较,还需要一定程度的去除批次效应。 我以前在生信技能树多次讲解,这里也不再赘述。

9.6K62

TCGA数据库在线使用

最近做培训时整理的一部分TCGA相关数据库的使用总结。在线数据库更新改版都比较快,使用时需要参照最新的线上数据教程。...不过癌症相关的数据库操作起来也都比较类似,输入一个或多个关注的目的基因,查看基因的功能注释,基因在哪些样品中存在突变,突变位点的分布,共表达网络,生存分析等。...本文包括了TCGA本站中数据的浏览、下载,尤其是TCGA改版后的功能介绍(增加了OncoGrid展示),然后是cBioPortal,TCGA数据在线提供的分析类型最多的一个平台,再是FIREBROWSE...TCGA主站 ? TCGA分析了11,000个病人的33种肿瘤的7个不同层面的数据,共获得2.5 PB数据。 ? 意在解析癌症发生的分子接触、肿瘤的亚型和治疗靶点等。 ?...TCGA网站主要提供的是数据的浏览和下载功能,可以根据项目、个体、数据类型、肿瘤类型等筛选需要的数据,使用TCGA提供的工具下载,进一步分析。 ? ? ? ? ? ? ? ? ? ?

4.1K2016
  • TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据

    前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计二十篇左右的笔记 ——jimmy 往期目录如下: 使用R语言的...正文 TCGA数据源 众所周知,TCGA数据库是目前最综合全面的癌症病人相关组学数据库,包括的测序数据有: DNA Sequencing miRNA Sequencing Protein Expression...RTCGA.CNV RTCGA.methylation 这里就介绍如何使用R语言的RTCGA包来获取任意TCGA数据吧。...img 细心的同学可以发现,本教程其实里面含有大量的外链,因为微信自身的限制没办法跳转,大家可以去生信技能树论坛查看,谢谢合作哦。...生信技能树GATK4系列教程 GATK4的gvcf流程 你以为的可能不是你以为的 新鲜出炉的GATK4培训教材全套PPT,赶快下载学习吧 曾老湿最新私已:GATK4实战教程 GATK4的CNV流程

    9.2K52

    TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据

    前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计28篇教程!...——jimmy 往期目录如下: 使用R语言的cgdsr包获取TCGA数据 TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 ?...第二篇目录 TCGA数据源 背景知识 了解并获取FireBrowse的数据 了解从FireBrowse下载到的S4对象 5大分析方法 优缺点分析 众所周知,TCGA数据库是目前最综合全面的癌症病人相关组学数据库...Expression DNA Methylation Copy Number 知名的肿瘤研究机构都有着自己的TCGA数据库探索工具,比如: Broad Institute FireBrowse portal...而第二个不同的时间,指的是TCGA数据库在发展过程中样本量的增加, 而FireBrowse是按照时间来定期运行程序处理数据的,所以一般来说用最新版的结果,就会涵盖TCGA里面的所有的样本了。

    2.8K31

    TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析

    长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox...包获取TCGA数据 (FireBrowse portal)TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)TCGA的28篇教程- 数据下载就到此为止吧 TCGA的28篇教程...- 指定癌症查看感兴趣基因的表达量 本教程目录: 首先使用cgdsr获取表达数据集临床信息 临床资料解读 简单的KM生存分析 有分类的KM生存分析 根据基因表达量对样本进行分组做生存分析 cox生存分析...只需要记住和熟练使用三个函数: Surv:用于创建生存数据对象 survfit:创建KM生存曲线或是Cox调整生存曲线 survdiff:用于不同组的统计检验 首先使用cgdsr获取表达数据集临床信息...既然是要说明如何对任意癌症的任意基因做生存分析,那么我们首先需要理解cgdsr下载TCGA任意数据的用法(见之前的教程),下面的例子是获取TCGA数据库的乳腺癌的BRCA1和BRCA2基因的表达,以及涉及到的病人的临床资料

    47.3K1613

    使用curatedTCGAData下载TCGA数据库信息好用吗

    好久没有写TCGA数据库教程了,因为TCGA计划早在2017年就陆陆续续停止了,我那个时候写了几百个教程并且录制了视频。...请先通读文档后再发问 我这边备份的TCGA数据来源于xena,ucsc的,都在,https://share.weiyun.com/5zLnKmO 安装和加载R包相信已经无需我多说了: BiocManager...联网下载数据 可以使用 dry.run 控制是否真的下载,因为如果是下载甲基化信号值矩阵或者表达量矩阵,会耗时很长。...//accmae_sampleMap.csv" 实战 比如提取TCGA数据库的BRCA数据集的TNBC亚型的表达量矩阵。 前面我们提到过,如果是下载甲基化信号值矩阵或者表达量矩阵,会耗时很长。...写在后面 写完教程才发现居然是没有图片,所以我就借用了2019年3月的这个文章《TACCO, a Database Connecting Transcriptome Alterations, Pathway

    97020

    TCGA数据库简介

    Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。...该数据库的网址如下 https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga 数据类型包括以下几种...同时还有很多的第三方工具,比如 cBioPortal ForeBrowse UCSC Xena 官方的工具主要功能是查看和下载数据,只有非常简单的分析功能,而第三方工具则侧重于基于TCGA的数据进行分析...目前针对TCGA的数据,常用的分析包括以下几种 生存分析 肿瘤患者和正常人的差异分析 组学数据和临床数据的相关性 基于TCGA等公共数据库的挖掘是目前研究的一个热点,在文章中也经常会使用TCGA的数据来和自己实际的数据相互映证...了解和掌握TCGA数据的用法势在必行,在后续文章中会详细介绍。

    5.6K40

    TCGA蛋白分析数据库

    功能蛋白质组学是对蛋白质在功能活性水平(例如表达和修饰)的大规模研究。对诸如癌症等复杂疾病的研究表明,遗传改变并不能说明该疾病的所有原因。...该网站结合了反向蛋白质阵列(RPPA)和TCGA的蛋白质组数据库,可以后续结合TCGA的临床数据进行分析。 ?...每个体系都包括4个方面,基本操作一致,我们这里以肿瘤样本为例简要介绍一下该数据库的使用。 点击View details。 ? 进入,可以发现具体包含4个在线分析工具: ?...My Protein 蛋白在所有癌症的分布。下表显示了蛋白质的详细信息,包括相应的基因、验证方式和抗体来源等。 ?...下面是小编随意点的几张结果图片来具体展示。大家需要的时候,输入自己想要查询的蛋白即可。 ? ? ? ?

    4.1K30

    使用TCGAbiolinks下载TCGA的数据

    TCGAbiolinks是一个分析处理TCGA数据的R包,通过GDC API来查询和下载TCGA的数据,同时提供了差异分析,生存分析,富集分析等常见的分析功能,网址如下 http://bioconductor.org...Query 和在线查询类似,只不过是将网页上的各种可选的属性变成了对应的参数,基本用法如下所示 ?...这里分成了两个步骤,第一步从GDC下载原始数据,可以使用API或者gdc-clinet进行下载, API的速度相对快一点;第二步对原始数据的结果进行整理,从GDC下载的原始数据是每个文件单独分开的,需要先对结果进行整理...以表达谱数据为例,需要进行样本的合并,样本ID的转换等,所有这些都可以通过GDCprepare完成。 整理好的结果存放在data对象中, 样本的信息可以通过如下方式进行查看 ? 结果示意如下 ?...表达量矩阵的信息查看方式如下 ? 结果示意如下 ? 数据下载并整理好之后,就可以进行分析了。不同类型的数据对应的分析方法也不同,具体的分析方法请参考官方文档。

    1.4K21

    TCGA数据库:生存分析

    options(stringsAsFactors = F) #加载表达数据 load("F:/TCGA/HTSeq-FPKM/Rdata/data/TCGA-COAD-Exp.Rdata") #加载临床数据...load("K:/TCGA/clinicalData/tidyAllCancerData/TCGA-COAD -Clindata.Rdata") 表达数据和临床数据,我之前已经上传到网盘 之前处理后的数据进行简单的处理...因为原来表达矩阵中病人的barcode长,"TCGA-AA-3662-11A-01R-1723-07",而临床数据中的只有前3段。...然后我们将表达矩阵与临床数据融合,因为不是每个病人的数据都是一一对应的,简单说,就是病人有表达数据,但他的临床数据就不全,我们也删除了缺失值的病人的临床数据,所以我们只需要具有临床数据又有表达数据的病人的数据...尽管本文是介绍基因表达量的生存分析,但其他的也是一样,就看你怎么分组,比如我们前面介绍SNP的数据处理后,能否做某基因突变与野生型的生存分析呢?其实都是一样的道理,其他的也是一样。

    4.9K42

    TCGA数据库详细介绍

    背景 TCGA(The cancer genome atlas,癌症基因组图谱)由 National Cancer Institute(NCI,美国国家癌症研究所) 和 National...TCGA官网: 1. 数据等级和分类: TCGA存储的数据包括SNV、转录组分析、生物样本信息、原始测序数据、CNV、DNA甲基化、临床信息等。...(1)会把所有的Project全部列出,然后点击自己需要的ProjectID;(2)会列出所有的case,在左侧的导航栏可以选择自己需要的条件,然后点击自己需要的ProjectID;(3)可以直接搜索ProjectID...在网页上方会显示出勾选条件,如下图所示,选择条件是TCGA-LIHC中用MuTect2 call出的原始体细胞变异的SNV文件,文件数量是378个,然后我们可以通过购物车按钮单个添加或全部添加到我们的下载清单中...3.如何下载数据: TCGA中的数据分为controlled和open,controlled数据需要申请账号才可以下载,open数据不需要账号。

    17.4K63

    TCGA免疫浸润评价数据库

    前段时间随着肿瘤免疫的热度,也有人试着开始利用RNA-seq这样的数据来评价患者的免疫情况。 基本的过程也就是我们提供RNA-seq的数据。然后使用相对应的算法来评估每个样本的免疫浸润程度。 ?...但是TIMER算法的作者,最近把TCGA所有癌症的RNA-seq的基于不同算法的结果都进行了运算,同时也把结果放到了网站上,这样我们就可以查各个算法当中具体的免疫情况。...作者使用的是edgr来分析的差异表达结果。我们需要做的就是选择目标基因即可,结果是以箱式图的方式进行呈现的。 ? 2.基因在泛癌当中的预后情况。...自己数据集免疫情况评估 这个数据库除了可以分析TCGA的现有数据之外,也是可以对自己的数据集进行免疫浸润分析的。...值得注意的是,上传的数据是TPM归一化的数据库。 ? 写到最后 以上就是这个数据库的所有内容了。基本上如果想要做TCGA研究的免疫浸润的话,可以通过这个数据库来查看。

    1.8K30

    TCGA的28篇教程-早期泛癌研究

    长期更新列表: 使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox...包获取TCGA数据 (FireBrowse portal)TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)TCGA的28篇教程- 数据下载就到此为止吧TCGA的28篇教程-...指定癌症查看感兴趣基因的表达量TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析TCGA的28篇教程-整理GDC下载的xml格式的临床资料 TCGA的28篇教程-风险因子关联图-一个价值...1000但是迟到的答案 TCGA的28篇教程-数据挖掘三板斧之ceRNA TCGA的28篇教程-所有癌症的突变全景图 TCGA计划进行到现在,科学家们于2018年一次性发表了27篇泛癌症研究相关文章,...使用limma包的removeBatchEffect来处理。

    3.7K31

    TCGA体细胞突变系列教程--胃癌

    下载TCGA所有癌症的maf文件计算TMB 下载TCGA所有癌症的maf文件做signature分析 TCGA计划的4个找somatic mutation的软件使用体验 但是限于时间和知识背景,虽然代码方面问题不大...今天和大家一起探索TCGA数据中胃癌突变的情况。 今天的探索分为两个部分: 1.Mutation 1)数据下载 目前TCGA突变分析的数据vcf格式数据是受限的,所以我们这应用maf文件进行分析。...直接去TCGA官网下载数据也不难,都很容易,并且工具都在添加一些新的功能,比如最近添加的CNV的分析,举一反三的看ICGC的应用方式几乎和TCGA的应用方式是一样的。...注意:TCGA直接下载的maf文件第16列即为样品名(例如:TCGA-FP-A4BE-11A-11D-A24F-08),但是直接下载的临床数据的样本名(例:TCGA-FP-A4BE)是不同的,此处需要整理成一致后读入...渴望探索的小伙伴可以去TCGA的官网试试一样可以绘制出此图,点选即可。

    9.7K41

    生物信息数据分析教程视频——07-TCGA数据库:基因的表达探索

    参考文章: 【0代码】单基因泛癌分析教程 视频中的代码: # setwd("H:/MedBioInfoCloud/analysis/TCGA/new/conventionalAnalysis") options...") ###TCGA数据库中33中癌症类型 project <- getGDCprojects()$project_id project TCGA-",project...)] # ###在TCGA中没有正常样本,但可以匹配GTEx数据库中的正常样本的癌症类型 # proj4 TCGA-ACC","TCGA-LGG","TCGA-OV","TCGA-SKCM...","TCGA-TGCT","TCGA-UCS" ) # ###在TCGA中正常样本大于0小于10,但可以匹配GTEx数据库中的正常样本的癌症类型 # proj5 TCGA-CESC","TCGA-GBM...","TCGA-PAAD") # # ###在TCGA中正常样本大于0小于10,在GTEx数据库中也没有正常样本的癌症类型 # proj6 TCGA-PCPG","TCGA-SARC","

    70520

    TCGA tRNA延伸片段数据库

    所以今天就给大家推荐一个已经利用TCGA数据库分析好的tRFs数据库:OncotRF[http://bioinformatics.zju.edu.cn/OncotRF/index.html]。...数据库分析流程 通过以上的介绍其实已经了解了这个数据库是怎么进行分析的。对于数据的获取,这个数据库使用TCGA当中miR-seq的bam数据来进行重新比对。进而就可以获得tRFs的表达情况。...数据库使用 数据库主要提供了四种使用的方式:tRFs基本检索;具体肿瘤类型所有结果预览;自定义分组比较以及预后分析 基本检索 假如我们有一个目标的tRF想要进行分析。就可以使用这个功能来进行定向检索。...这里绘图的设置也是可以进行不同cutoff的设置的。同时也可以选择不同的亚组进行分析。 数据库使用场景 以上就是这个数据库的主要功能了。比较可惜的是作者没有提供所有原始数据下载的功能。...不然的话,还可以下载所有的原始数据来进行自己的DIY分析。不过其实功能已经很全了。研究tRFs的或者在使用TCGA挖掘数据没有新的思路的同学可以考虑一下这个tRFs。

    63030

    TCGA数据库中癌症名称缩写

    Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督的一个项目,旨在应用高通量的基因组分析技术,以帮助人们对癌症有个更好的认知...,从而提高对于癌症的预防、诊断和治疗能力。...上图就是从TCGA官网截取的,显示目前一共有63个项目。可以点击箭头所指的Projects,获取具体63个癌症项目的名称,如下图所示。 ? 除了从官网直接下载以外,我们也可以用R代码来获取。...用到的还是我们前面用来获取临床信息的那个R包,TCGAbiolinks。TCGAbiolinks获取癌症临床信息 if (!...具体信息如下: id name 翻译 TCGA-SARC Sarcoma 肉瘤 TARGET-CCSK Clear Cell Sarcoma of the Kidney 肾脏的透明细胞肉瘤 TARGET-NBL

    4.7K30

    TCGA数据库临床资料官方大全

    因为TCGA计划跨时太长,纳入研究的病人数量太多, 或多或少有点资料继续错误或者不完整,所以TCGA团队下功夫在计划结束后(April 2018)完整的系统性的公布了权威的临床资料。...题外话:关于不同数据源的TCGA临床资料冲突的讨论 关于生存分析的冲突问题,我们多次讨论了: 集思广益-生存分析可以随心所欲根据表达量分组吗 寻找生存分析的最佳基因表达分组阈值 比如下面的代码比较两个数据源...在Xena的survival.tsv中定义的结局事件是死亡,在TCGA-CDR中,PFI.1定义的终点事件是疾病进展,包括死亡、复发、转移等。...具体到病人TCGA-BA-5151,他可能是在术后517天发现有肿瘤复发,第722天失访,那么在Xena的生存分析中是定义为722天截尾,但是在TCGA-CDR中是517天事件发生。...这一点在TCGA-CDR的表格文件中有解释 关于生存分析该选择哪个时间点 这不是一个选择题,既然人家TCGA组织整理了 four major clinical outcome endpoints.

    4.9K41
    领券