但是TCGA数据库这2年就更新了两次,有些以前的教程可能就不在适用,我也写了一篇文章来介绍了最新版的内容:2024年TCGA数据库改版后的数据下载问题,为了下载数据方便,以及我后续分析数据方便,我正在把以前的代码渐渐封装成一个R包,让一些常规分析变得更加方便快捷,这个R包在慢慢的开发中,包的内容比较杂,没有一个好的名字,我就用我公众号ID(MedBioInfoCloud)作为包名:
if (!require("BiocManager", quietly = TRUE))
install.packages("BiocManager")
DependencyPackage <- c("edgeR","DESeq2","TCGAbiolinks")
BiocManager::install(DependencyPackage)
# install.packages("devtools")
devtools::install_github("BioInfoCloud/MedBioInfoCloud")
如果安装过程中报错,一般是提示你缺包,可以安装所缺的包后在安装。
下面是一些用于下载TCGA数据库中数据的函数
1.下载转录组数据
getTCGA_RNAseqData()返回一个list,包括count,tpm和fpkm 3个数据框。
STARdata <- getTCGA_RNAseqData("TCGA-LUAD",save = TRUE,folder = ".")
2.下载蛋白组数据
getTCGA_ProteinExp()返回一个数据框。
Proteome_data <- getTCGA_ProteinExp("TCGA-LUAD",save = TRUE,folder = ".")
3.下载SNV(simple nucleotide variation)数据
数据类型为:Masked Somatic Mutation。
snv.dat <- getTCGA_SNV_Masked_data("TCGA-LUAD",save = TRUE,folder = ".")
4.下载miRNA数据
参考文章:
https://mp.weixin.qq.com/s/__EjCrJFc08itoF3xqawNg
https://mp.weixin.qq.com/s/-FH0Vi4PaCjhPbEq4-lxbg
https://mp.weixin.qq.com/s/WxgMhwpMAJy_CKTqNdFj0g
(1)Isoform Expression Quantification
IsoformEQ <- getTCGA_miRNA_IsoformEQ("TCGA-LUAD",save = TRUE,folder = ".")
(2)miRNA Expression Quantification
miRNAEQ <- getTCGA_miRNAEQ("TCGA-LUAD",save = TRUE,folder = ".")
5. 下载甲基化数据
getTCGA_MethylationData 下载Methylation Beta Value数据。
MetData <- getTCGA_MethylationData("TCGA-LUAD",save = TRUE,folder = ".")
6.下载临床数据
cldat <- getTCGA_ClinicalData(project = "TCGA-LUAD",save = FALSE,folder = ".",trim = TRUE)
针对的癌症类型:
c("TCGA-READ","TCGA-COAD","TCGA-PAAD","TCGA-ESCA","TCGA-KIRP","TCGA-HNSC",
"TCGA-BLCA","TCGA-STAD","TCGA-CHOL","TCGA-SKCM","TCGA-LUAD","TCGA-LIHC",
"TCGA-KIRC","TCGA-KICH","TCGA-MESO","TCGA-LUSC","TCGA-GBM","TCGA-UVM",
"TCGA-BRCA","TCGA-TGCT","TCGA-THCA")
由于每种癌症类型的临床信息有差异,其他癌症类型,获取临床数据可能会报错,可以通过指定getClinicalData()中的trim = FALSE,返回原始未整理过的数据。
cldat <- getTCGA_ClinicalData(project = "TCGA-LUAD",save = FALSE,folder = ".",trim = FALSE)
7. 下载CNV(Copy Number Variation)数据
该函数目前可能会出现问题,但下载数据都是使用下面函数:
cnv.gl <- getTCGA_CNV.data("TCGA-LUAD",save = FALSE,folder = ".",data.type = "Gene Level Copy Number")
cnv.gls <- getTCGA_CNV.data("TCGA-LUAD",save = FALSE,folder = ".",data.type = "Gene Level Copy Number Scores")
由于包还在写开始写的阶段,目前写了几十个函数,有些可能还会有一些bug,欢迎留言告知。
如果想批量下载,我将自己下载的一些数据上传到了百度网盘,可以批量下载,以方便后续分析,下载的数据是Rdata数据格式:
RNAseq:【https://pan.baidu.com/s/1VWz8bIlgKaUKR0ncughBhg?pwd=e6wz】
蛋白组:【https://pan.baidu.com/s/1CrO2jIrXh-R1L9hfuO-ESQ?pwd=ogqx】
TCGA-miRNA_Isoform:【https://pan.baidu.com/s/1k8-ZTwbsjQRE49EgORWUxQ?pwd=mx43】
Survival和Phenotype数据(fromUCSC):【https://pan.baidu.com/s/1_VmOO_yyjiaEkLWlHxRYWg?pwd=04au】
临床数据:【https://pan.baidu.com/s/1KDO2gx-lnejeuInVZSEPFQ?pwd=0k83】
本文分享自 MedBioInfoCloud 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!