前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >TCGA数据库R包集大成者TCGAbiolinks

TCGA数据库R包集大成者TCGAbiolinks

作者头像
生信技能树
发布于 2022-07-26 02:08:07
发布于 2022-07-26 02:08:07
1K00
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

TCGA数据最权威的应该是GDC官网入口(https://portal.gdc.cancer.gov/)啦,但是我们前面的几个笔记都没有提到它,见:

主要是因为GDC官网虽然权威,但是太复杂了,不利于初学者。而且GDC官网是针对TCGA数据库的每个癌症的每个病人的不同数据分开存放,每次都是批量下载后,整理合并的。但是我们前面的在线接口,去cbioportal或者FireBrowse都是以癌症为单位下载不同数据集。包括后面分享的:

都是如此,以癌症为单位拿到数据集后,进而去筛选符合要求的病人。相当于是数据框取子集。但是GDC官网里面的数据信息存放单位是样品,每次都是根据要求下载指定的数据即可,无需取子集。

其实GDC官网也是有R包接口,就是TCGA数据库R包集大成者TCGAbiolinks,可以看到其教程非常丰富 https://www.bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html

    1. Introduction
    1. Searching GDC database
    1. Downloading and preparing files for analysis
    1. Clinical data
    1. Mutation data
    1. Compilation of TCGA molecular subtypes
    1. Analyzing and visualizing TCGA data
    1. Case Studies
    1. Graphical User Interface (GUI)
    1. Classifiers
    1. TCGAbiolinks_Extension

核心功能:指定数据下载

摸索这个TCGAbiolinks包的过程就是对TCGA数据库的从零开始学习过程,它介绍了TCGA数据库的癌症类型,每个癌症有哪些数据形式。这些都是使用TCGAbiolinks包时候所需要指定的参数:

数据形式

参数之详细,基本上很难背诵下来,只能说看着文档,边查询边使用了。https://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html

只需要摸索好了4个参数,就可以组合进行各式各样的数据下载。比如下载两种脑癌的甲基化数据:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
query <- GDCquery(
    project = c("TCGA-GBM", "TCGA-LGG"),
    data.category = "DNA Methylation",
    legacy = FALSE,
    platform = c("Illumina Human Methylation 450"),
    sample.type = "Recurrent Tumor"
)

如果是需要下载其它癌症的其它类型数据,变换里面的参数即可。

有了这样的 GDCquery 函数准备好的 query 变量,就可以后续使用GDCdownload函数从GDC官网下载,然后使用GDCprepare把下载的文件整理成为一个 SummarizedExperiment 格式的对象进行后续分析。

因为网络问题,我们没办法那甲基化数据距离,所以这里仍然是选择表达量矩阵,而且仅仅是挑选2个病人:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
query.exp.hg19 <- GDCquery(
  project = "TCGA-GBM",
  data.category = "Gene expression",
  data.type = "Gene expression quantification",
  platform = "Illumina HiSeq", 
  file.type  = "normalized_results",
  experimental.strategy = "RNA-Seq",
  barcode = c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01"),
  legacy = TRUE
)
GDCdownload(query.exp.hg19,method = "api")
data <- GDCprepare(query.exp.hg19)

还不到1Mb的文件,我下载了六次才成功,真的是伟大的中国长城啊:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
> GDCdownload(query.exp.hg19,method = "api")
Downloading data for project TCGA-GBM
GDCdownload will download 2 files. A total of 873.555 KB
Downloading as: Mon_Mar_28_12_51_16_2022.tar.gz
Downloading: 370 kB     


Starting to add information to samples
 => Add clinical information to samples
 => Adding TCGA molecular information from marker papers
 => Information will have prefix 'paper_' 
gbm subtype information from:doi:10.1016/j.cell.2015.12.028

得到了2个病人的接近2万个基因的表达量矩阵的一个对象,是 SummarizedExperiment 格式 :

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
> data
class: RangedSummarizedExperiment 
dim: 19947 2 
metadata(1): data_release
assays(1): normalized_count
rownames(19947): A1BG A2M ... TICAM2 SLC25A5-AS1
rowData names(3): gene_id entrezgene ensembl_gene_id
colnames(2): TCGA-14-0736-02A-01R-2005-01 TCGA-06-0211-02A-02R-2005-01
colData names(105): barcode patient ...
  paper_Telomere.length.estimate.in.blood.normal..Kb.
  paper_Telomere.length.estimate.in.tumor..Kb.

其它格式的数据下载,大同小异,这里就不再赘述。

突变信息

目前支持3种来源的突变信息,主要是基于hg38和hg19,以及最新的MC3计划整理的突变:

  1. Use GDCquery_Maf which will download MAF aligned against hg38
  2. Use GDCquery, GDCdownload and GDCpreprare to download MAF aligned against hg19
  3. Use getMC3MAF(), to download MC3 MAF from https://gdc.cancer.gov/about-data/publications/mc3-2017

多年前我就系统性的介绍过:TCGA的pan-caner资料大全(以后挖掘TCGA数据库就用它) 还专门指出了癌症的somatic突变的maf文件问题:TCGA数据库maf突变资料官方大全 。起初TCGA数据库的全部数据都是提供下载的,包括fastq,bam,vcf, 但是呢,后来因为保护病人隐私,就只开放maf格式的somatic突变数据下载。癌症的somatic突变概念需要自行搜索学习,如果你还不了解maf格式,请看:https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/,其实很多包都 提供类似的接口,比如TCGAmutations包整合了TCGA中全部样本的maf文件

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
  # devtools::install_github(repo = "PoisonAlien/TCGAmutations")
  library(TCGAmutations)
  tmp=as.data.frame(tcga_available())

感兴趣的可以去玩一下,我们现在要介绍的TCGA数据库R包集大成者TCGAbiolinks也是一句话代码下载全部的突变数据,本质上就是MC3计划提供的maf文件下载并且读取而已。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(SummarizedExperiment)
library(TCGAbiolinks)
maf <- getMC3MAF()

这个getMC3MAF函数会耗费很长时间下载一个比较大(718.4 MB)的文件:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
----------------------------------------------------------------------------------------------------
o Starting to download Public MAF from GDC
o More information at: https://gdc.cancer.gov/about-data/publications/mc3-2017
o Please, cite: Cell Systems. Volume 6 Issue 3: p271-281.e7, 28 March 2018 10.1016/j.cels.2018.03.002
试开URL’https://api.gdc.cancer.gov/data/1c8cfe5f-e52d-41ba-94da-f15ea1337efc'
Content type 'application/octet-stream' length 753339089 bytes (718.4 MB)

如果不是做泛癌研究,其实可以简简单单使用 GDCquery_Maf 即可,它支持我们指定癌症肿瘤,这样文件小很多,比如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(SummarizedExperiment)
library(TCGAbiolinks) 
library(maftools)
library(dplyr)
maf <- GDCquery_Maf("CHOL", pipelines = "muse") %>% read.maf 
plotmafSummary(maf = maf, rmOutlier = TRUE, addStat = 'median', dashboard = TRUE)
oncoplot(maf = maf, top = 10, removeNonMutated = TRUE)
titv = titv(maf = maf, plot = FALSE, useSyn = TRUE) 
plotTiTv(res = titv) 

一下子可以出很多图,感兴趣的可以去自行阅读maftools的文档,比如突变全景图,如下所示:

突变全景图

因为对肿瘤样品找somatic突变的数据分析流程很多,所以还有一个pipelines参数可以调整,供选择的是: muse, varscan2, somaticsniper, mutect.

癌症的somatic突变概念需要自行搜索学习,如果你还不了解maf格式,请看:https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/

癌症的分子分型

众所周知,TCGA数据库是目前最综合全面的癌症病人相关组学数据库,包括的多组学数据有:

  • DNA Sequencing (WGS/WES)
  • mRNA/miRNA Sequencing
  • Protein Expression Array
  • Array-based Expression
  • DNA Methylation Array
  • Copy Number Array

而TCGA数据库的全部的癌症列表如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
ACC - Adrenocortical carcinoma
BLCA - Bladder Urothelial Carcinoma
BRCA - Breast invasive carcinoma
CESC - Cervical and endocervical cancers
CHOL - Cholangiocarcinoma
COAD - Colon adenocarcinoma
COADREAD - Colorectal adenocarcinoma
DLBC - Diffuse Large B-cell Lymphoma
ESCA- Esophageal carcinoma
GBM - Glioblastoma multiforme
GBMLGG - GBMLGG-Glioma
HNSC - Head and Neck squamous cell carcinoma
KICH - Kidney Chromophobe
KIPAN - Pan-kidney cohort (KICH+KIRC+KIRP)
KIRC - Kidney renal clear cell carcinoma
KIRP - Kidney renal papillary cell carcinoma
LAML - Acute Myeloid Leukemia
LGG - Brain Lower Grade Glioma
LIHC - Liver hepatocellular carcinoma
LUAD - Lung adenocarcinoma
LUSC - Lung squamous cell carcinoma
MESO - Mesothelioma
OV - Ovarian serous cystadenocarcinoma
PAAD - Pancreatic adenocarcinoma
PCPG - Pheochromocytoma and Paraganglioma
PRAD - Prostate adenocarcinoma
READ - Rectum adenocarcinoma
SARC - Sarcoma
SKCM - Skin Cutaneous Melanoma
STAD - Stomach adenocarcinoma
STES - Stomach and Esophageal carcinoma
TGCT - Testicular Germ Cell Tumors
THCA - Thyroid carcinoma
THYM - Thymoma
UCEC - Uterine Corpus Endometrial Carcinoma
UCS - Uterine Carcinosarcoma
UVM - Uveal Melanoma

上面的分类是常规组织器官来源分类方式,其实癌症的异质性已经是广为人知了,基本上TCGA计划每次对一个癌症的多组学进行总结和整理的时候,就会依据表达量模式以及其它组学特性把成百上千个癌症病人划分为三五个有固定模式的分子分型

比如乳腺癌,你可以看lumA,lumB,basal,HER2 等亚型,其中TNBC可以继续细分为3~7种亚型,当然了,现在有了单细胞转录组数据的加持,细胞亚型会越来越清晰。如果要整合多组学数据,分类也会更加复杂。

再比如是胃癌,也是有4种分子分型,具体如下:

  • ①爱泼斯坦-巴尔(Epstein-Barr)病毒(EBV)阳性型肿瘤:约占胃癌的9%,表现为较高频率的PIK3CA基因突变和DNA极度超甲基化,以及JAK2、CD274(也称PD-L1)和PDCD1LG2(也称PD-L2)基因扩增。
  • 微卫星不稳定(MSI)型:约占22%,表现为重复DNA序列突变增加,包括编码靶向致癌信号蛋白的基因突变。
  • 基因稳定(GS)型:约占20%,其组织学变异弥漫且丰富,RHOA基因突变或RHO家族GTP酶活化蛋白基因融合现象多见。
  • 染色体不稳定(CIN)型:此类肿瘤占胃癌的比例近一半,表现为显著异倍体性及受体酪氨酸激酶的局部扩增。

这些分子分型信息,在TCGAbiolinks也有,使用PanCancerAtlas_subtypes可以获取全部的不同癌症的不同分子分型,使用TCGAquery_subtype可以获取指定癌症的分子分型信息。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
library(TCGAbiolinks)
library(SummarizedExperiment)
library(dplyr)
library(DT) 
subtypes <- PanCancerAtlas_subtypes() 
lgg.gbm.subtype <- TCGAquery_subtype(tumor = "lgg") 

这个 PanCancerAtlas_subtypes 函数,会对目前有定论的七千多个肿瘤样品(TCGA数据库有超一万的肿瘤样品哦)返回其分子分型信息。如果一个癌症没有达成统一共识,就会从点突变,拷贝数,mRNA表达量,miRNA表达量,甲基化等多个角度进行分子分型,选择相对流行的分子分型给大家。对乳腺癌这样的研究比较多的癌症, 就有共识了,只有PMA50分子分型,就是lumA,lumB,basal,HER2 等亚型。

而且 TCGAquery_subtype 是针对指定癌症,所以它里面的信息不一样,基本上是依据不同的肿瘤数据集对应的文献的分子分型整理。

分析流程

参考文档:https://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/analysis.html

数据分析函数:

数据分析的前提是有数据,而前面我们演示了可以使用TCGAbiolinks进行任意癌症的任意数据下载, 都是SummarizedExperiment 格式的对象,它无缝连接给TCGAbiolinks包里面的数据分析函数,主要是 差异分析和生存分析啦 :

它这个包的帮助文档里面列出来的函数超级多,不过官方文档里面仅仅是讲解了如下所示:

  • TCGAanalyze_Preprocessing: Preprocessing of Gene Expression data (IlluminaHiSeq_RNASeqV2)
  • TCGAanalyze_DEA & TCGAanalyze_LevelTab: Differential expression analysis (DEA)
  • TCGAanalyze_EAcomplete & TCGAvisualize_EAbarplot: Enrichment Analysis
  • TCGAanalyze_survival: Survival Analysis
  • TCGAanalyze_SurvivalKM: Correlating gene expression and Survival Analysis
  • TCGAanalyze_DMR: Differentially methylated regions Analysis

当然了,大家可以无需理会这些函数,因为本质上它也是处理一个转录组测序表达量矩阵或者是一个甲基化矩阵,我们针对常规的ngs组学其实是有自己的数据分析流程的,它这些包装好的函数跟我们自己的写是一回事。

一系列数据分析函数

这里面的函数每一个都是独立的知识点,后续我们的这个专辑会一一介绍,大家可以先看看里面的图表!目前简单的差异分析流程,基本上转录组测序技术和芯片技术拿到的表达量矩阵后续分析大同小异,公众号推文在:

我也在生信技能树多次分享过生存分析的细节;

可视化函数

它这个包的帮助文档里面列出来的函数超级多,不过官方文档里面仅仅是讲解了如下所示:

  • TCGAvisualize_Heatmap: Create heatmaps with cluster bars
  • TCGAvisualize_Volcano: Create volcano plot
  • TCGAvisualize_PCA: Principal Component Analysis plot for differentially expressed genes
  • TCGAvisualize_meanMethylation: Mean DNA Methylation Analysis
  • TCGAvisualize_starburst: Integration of gene expression and DNA methylation data

当然了,大家可以无需理会这些函数,绘图而已,它这些包装好的函数跟我们自己的写是一回事。

一系列绘图函数

只需要学会R基础,绘图都是慢工出细活。

4个案例

参考文档:https://www.bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/casestudy.html

  • Case study 1: Pan Cancer downstream analysis BRCA
  • Case study 2: Pan Cancer downstream analysis LGG
  • Case study 3: Integration of methylation and expression for ACC
  • Case study 4: Elmer pipeline - KIRC

这4个案例,相当于是把前面的指定基因或者癌症去下载TCGA数据库文件,以及各式各样的分析和可视化步骤串联起来了。

当然了,因为这个TCGAbiolinks包的出名,也有很多其它团队给出自己的实例,比如:https://cran.r-project.org/web/packages/GeoTcgaData/readme/README.html

扩展:分子分型模型的应用

可能是开发这个 TCGA数据库R包集大成者TCGAbiolinks 工具的团队背景是脑癌,我看它总是拿LGG和GBM举例,还专门开发一个 函数 gliomaClassifier,可以根据甲基化芯片数据,比如27K,450K,850K,对一个病人进行分子分型预测,包括下面的6个分型:

  • Mesenchymal-like
  • Classic-like
  • G-CIMP-high
  • G-CIMP-low
  • LGm6-GBM
  • Codel

这个模型参考文献是:“Molecular profiling reveals biologically discrete subsets and pathways of progression in diffuse glioma.” Cell 164.3 (2016): 550-563. (https://doi.org/10.1016/j.cell.2015.12.028)

我看了看它这个包的帮助文档,里面并没有其它癌症的其它组学的分子分型模型预测函数,不过道理是相通的。我们后续会讲解不同的预测模型及其R代码实现方式。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
玩转 TCGA 数据库 (一)
癌症基因组图谱计划(The Cancer Genome Atlas , TCGA),对超过 20,000 份涵盖 33 种癌症类型(https://www.cancer.gov/ccg/research/genome-sequencing/tcga/studied-cancers)的原发癌及配对正常样本进行了分子特征分析。,是一个由美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)联合发起的大规模研究项目。TCGA的主要目标是通过全面分析不同类型癌症的基因组变化,来提高对癌症的理解并推动诊断、治疗和预防的进步。TCGA现在的数据均收录在 GDC (Genomic Data Commons) 中,可以通过网页 GDC Data Portal (https://portal.gdc.cancer.gov/)获得TCGA数据。
生信菜鸟团
2025/05/06
4160
玩转 TCGA 数据库 (一)
TCGAbiolinks包帮助文档(英文版)
函数名称 描述 colDataPrepare Create samples information matrix for GDC samples gaiaCNVplot Creates a plo
DoubleHelix
2019/08/07
1.8K0
TCGAbiolinks包帮助文档(英文版)
TCGAbiolinks包下载TCGA数据进行表达差异分析-乳腺癌案例
TCGAbiolinks -一个用于TCGA数据综合分析的R/BioConductor软件包,能够通过GDC Application Programming Interface (API)访问 National Cancer Institute (NCI) Genomic Data Commons (GDC) ,来搜索、下载和准备相关数据,以便在R中进行分析。
DoubleHelix
2019/08/07
17.3K1
TCGAbiolinks包下载TCGA数据进行表达差异分析-乳腺癌案例
TCGA数据下载—TCGAbiolinks包参数详解
最近才开始使用TCGAbiolinks这个包从TCGA数据库官网下载数据,发现很多参数不知道去哪里找,所以就查找资料总结了一下。以下载肝脏肝细胞癌(LIHC)的count值为例,下载数据最主要的一个函数是GDCquery()。我们在R里运行:
生信技能树
2019/05/13
9.2K1
TCGA数据挖掘(一):TCGAbiolinks包介绍
肿瘤基因组图谱(TCGA)计划是由美国National Cancer Institute(NCI)和National Human Genome Research Institute(NHGRI)于2006年联合启动的项目,研究的癌症类型从最开始的多形性成胶质细胞瘤(GBM)到现在为止共有39种,涉及29种癌症器官,1万多个肿瘤样本,27万多份文件,当然其项目也将于2017年接近尾声。
DoubleHelix
2019/08/27
5.1K0
TCGA数据挖掘(一):TCGAbiolinks包介绍
必会的TCGA数据挖掘工具之TCGAbiolinks
TCGA数据库作为癌症研究的首选公共数据库,整合了各种癌症的多组学数据,今天小编给大家带来的正是一个功能强大的TCGA数据分析工具--TCGAbiolinks!
作图丫
2022/03/29
1.7K0
必会的TCGA数据挖掘工具之TCGAbiolinks
各种癌症都有自己的细分亚型(数据挖掘可以更进一步)
比如是乳腺癌,你可以看lumA,lumB,basal,HER2 等亚型,其中TNBC可以继续细分为3~7种亚型,当然了,现在有了单细胞转录组数据的加持,细胞亚型会越来越清晰。如果要整合多组学数据,分类也会更加复杂。
生信技能树
2021/11/25
2.6K0
R tips:使用TCGAbiolinks包下载TCGA数据
TCGA数据下载就易用性来说,RTCGA包应该更好用,且由于是已经下载好的数据,使用比较稳定。但是也由于是下载好的数据,不能保证数据都是全新的。TCGAbiolinks包是实时调用GDC的API,所以可以获取最新的数据。
生信菜鸟团
2022/02/17
3.6K0
R tips:使用TCGAbiolinks包下载TCGA数据
使用TCGAbiolinks包进行TCGA的somatic的突变信息下载整理有时候会失败
TCGAbiolinks 是一个 R 语言中用于处理和分析 The Cancer Genome Atlas (TCGA) 数据的生物信息学工具包。该包提供了访问 TCGA 数据的接口,使用户能够检索、下载和分析癌症基因组学数据。
生信技能树
2024/11/21
1410
使用TCGAbiolinks包进行TCGA的somatic的突变信息下载整理有时候会失败
虽然TCGA数据库有33种癌症
其实并不是每个癌症都有很好的数据,如果使用一个简单的标准,比如大于150个样品的癌症,过滤一下就剩下了22种癌症。参考文献:《Complex impact of DNA methylation on transcriptional dysregulation across 22 human cancer types》,如下所示:
生信技能树
2022/06/27
1.6K0
虽然TCGA数据库有33种癌症
TCGA数据库中癌症名称缩写
TCGA(The Cancer Genome Atlas, 癌症基因组图谱,https://portal.gdc.cancer.gov/)是美国国家癌症研究所(National Cancer Institute)和美国人类基因组研究所(National Human Genome Research Institute)共同监督的一个项目,旨在应用高通量的基因组分析技术,以帮助人们对癌症有个更好的认知,从而提高对于癌症的预防、诊断和治疗能力。
生信交流平台
2020/08/06
4.9K0
TCGA数据库中癌症名称缩写
新版TCGAbiolinks包学习:批量下载数据
TCGAbiolinks不仅是数据下载,它能访问、下载全部的TCGA数据(除了受限制的),用它下载的数据是最新最全的!这和直接去GDC官网,使用网页下载的方式是一样的。
医学和生信笔记
2022/11/15
2.1K0
数据挖掘:是时候更新一下TCGA的数据了
TCGA在去年更新之后提供了Count、TPM、FPKM三种格式的mRNA表达量数据,同时提供了ensembl gene ID、基因名、基因类型,因此有必要更新一下数据了。
生信探索
2023/02/25
5230
使用R语言下载TCGA数据库癌症基因表达数据小例子
上面遇到的问题今天找到了解决办法:可以使用SummarizedExperiment包中的函数assay()函数将表达矩阵提取出来;colData()函数好像是获得一些样本信息
用户7010445
2020/03/03
2.8K0
生信代码:数据预处理(TCGAbiolinks包)
引言:在前面我们了解了如何使用TCGAbiolinks检索并获取TCGA数据库的公开数据。今天小编就用前面涉及到的代码,下载今天数据准备需要用到的TCGA样本数据。
科研菌
2021/01/12
7.3K1
生信代码:数据预处理(TCGAbiolinks包)
手把手学习TCGA数据库:SNP突变分析第三期
各位科研芝士的朋友好,前两期我们讲解了SNP的基础知识和数据库使用,今天我们继续聊SNP数据的下载
百味科研芝士
2019/06/17
4.3K0
手把手学习TCGA数据库:SNP突变分析第三期
【TCGA】如何批量下载TCGA公开的转录组、miRNA转录组,蛋白表达谱、SNV、甲基化以及CNV数据
下面这个流程是下载这个网站公开数据的方法,使用到的工具是TCGAbiolinks(https://github.com/BioinformaticsFMRP/TCGAbiolinks),
Chris生命科学小站
2023/02/28
9150
【TCGA】如何批量下载TCGA公开的转录组、miRNA转录组,蛋白表达谱、SNV、甲基化以及CNV数据
【已更新】如何批量下载TCGA公开的转录组、miRNA转录组,蛋白表达谱、SNV、甲基化数据
下面这个流程是下载这个网站公开数据的方法,使用到的工具是TCGAbiolinks(https://github.com/BioinformaticsFMRP/TCGAbiolinks),
Chris生命科学小站
2023/02/28
4750
【已更新】如何批量下载TCGA公开的转录组、miRNA转录组,蛋白表达谱、SNV、甲基化数据
TCGAbiolinks数据下载
笔者认为,这些功能的好处在于能够比较方便的用简单几行代码做一些固定的分析,恰恰这也是它的缺点,这样的话包的灵活性就大打折扣了,不能够很好的整合用户的其它分析流程。考虑到这一点,我可能不会过多的使用它的其它分析功能
微点
2019/10/30
1.3K0
如何批量下载TCGA公开的转录组、SNV和甲基化数据
下面这个流程是下载这个网站公开数据的方法,使用到的工具是TCGAbiolinks(https://github.com/BioinformaticsFMRP/TCGAbiolinks),
Chris生命科学小站
2023/02/28
8940
如何批量下载TCGA公开的转录组、SNV和甲基化数据
推荐阅读
相关推荐
玩转 TCGA 数据库 (一)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验