前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一行代码即可下载TGCA数据库的数据

一行代码即可下载TGCA数据库的数据

作者头像
DoubleHelix
发布2024-06-13 19:29:19
930
发布2024-06-13 19:29:19
举报
文章被收录于专栏:生物信息云生物信息云

但是TCGA数据库这2年就更新了两次,有些以前的教程可能就不在适用,我也写了一篇文章来介绍了最新版的内容:2024年TCGA数据库改版后的数据下载问题,为了下载数据方便,以及我后续分析数据方便,我正在把以前的代码渐渐封装成一个R包,让一些常规分析变得更加方便快捷,这个R包在慢慢的开发中,包的内容比较杂,没有一个好的名字,我就用我公众号ID(MedBioInfoCloud)作为包名:

代码语言:javascript
复制
if (!require("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
DependencyPackage <- c("edgeR","DESeq2","TCGAbiolinks")
BiocManager::install(DependencyPackage)
# install.packages("devtools")
devtools::install_github("BioInfoCloud/MedBioInfoCloud")

如果安装过程中报错,一般是提示你缺包,可以安装所缺的包后在安装。

下面是一些用于下载TCGA数据库中数据的函数

1.下载转录组数据

getTCGA_RNAseqData()返回一个list,包括count,tpm和fpkm 3个数据框。

代码语言:javascript
复制
STARdata <- getTCGA_RNAseqData("TCGA-LUAD",save = TRUE,folder = ".")

2.下载蛋白组数据

getTCGA_ProteinExp()返回一个数据框。

代码语言:javascript
复制
Proteome_data <- getTCGA_ProteinExp("TCGA-LUAD",save = TRUE,folder = ".")

3.下载SNV(simple nucleotide variation)数据

数据类型为:Masked Somatic Mutation。

代码语言:javascript
复制
snv.dat <- getTCGA_SNV_Masked_data("TCGA-LUAD",save = TRUE,folder = ".")

4.下载miRNA数据

参考文章:

https://mp.weixin.qq.com/s/__EjCrJFc08itoF3xqawNg

https://mp.weixin.qq.com/s/-FH0Vi4PaCjhPbEq4-lxbg

https://mp.weixin.qq.com/s/WxgMhwpMAJy_CKTqNdFj0g

(1)Isoform Expression Quantification

代码语言:javascript
复制
IsoformEQ <- getTCGA_miRNA_IsoformEQ("TCGA-LUAD",save = TRUE,folder = ".")

(2)miRNA Expression Quantification

代码语言:javascript
复制
miRNAEQ <- getTCGA_miRNAEQ("TCGA-LUAD",save = TRUE,folder = ".")

5. 下载甲基化数据

getTCGA_MethylationData 下载Methylation Beta Value数据。

代码语言:javascript
复制
MetData <- getTCGA_MethylationData("TCGA-LUAD",save = TRUE,folder = ".")

6.下载临床数据

代码语言:javascript
复制
cldat <- getTCGA_ClinicalData(project = "TCGA-LUAD",save = FALSE,folder = ".",trim = TRUE)

针对的癌症类型:

代码语言:javascript
复制
c("TCGA-READ","TCGA-COAD","TCGA-PAAD","TCGA-ESCA","TCGA-KIRP","TCGA-HNSC",
             "TCGA-BLCA","TCGA-STAD","TCGA-CHOL","TCGA-SKCM","TCGA-LUAD","TCGA-LIHC",
             "TCGA-KIRC","TCGA-KICH","TCGA-MESO","TCGA-LUSC","TCGA-GBM","TCGA-UVM",
             "TCGA-BRCA","TCGA-TGCT","TCGA-THCA")

由于每种癌症类型的临床信息有差异,其他癌症类型,获取临床数据可能会报错,可以通过指定getClinicalData()中的trim = FALSE,返回原始未整理过的数据。

代码语言:javascript
复制
cldat <- getTCGA_ClinicalData(project = "TCGA-LUAD",save = FALSE,folder = ".",trim = FALSE)

7. 下载CNV(Copy Number Variation)数据

该函数目前可能会出现问题,但下载数据都是使用下面函数:

代码语言:javascript
复制
cnv.gl <- getTCGA_CNV.data("TCGA-LUAD",save = FALSE,folder = ".",data.type = "Gene Level Copy Number")
代码语言:javascript
复制
cnv.gls <- getTCGA_CNV.data("TCGA-LUAD",save = FALSE,folder = ".",data.type = "Gene Level Copy Number Scores")

由于包还在写开始写的阶段,目前写了几十个函数,有些可能还会有一些bug,欢迎留言告知。

如果想批量下载,我将自己下载的一些数据上传到了百度网盘,可以批量下载,以方便后续分析,下载的数据是Rdata数据格式:

RNAseq:【https://pan.baidu.com/s/1VWz8bIlgKaUKR0ncughBhg?pwd=e6wz

蛋白组:【https://pan.baidu.com/s/1CrO2jIrXh-R1L9hfuO-ESQ?pwd=ogqx】

TCGA-miRNA_Isoform:【https://pan.baidu.com/s/1k8-ZTwbsjQRE49EgORWUxQ?pwd=mx43】

Survival和Phenotype数据(fromUCSC):【https://pan.baidu.com/s/1_VmOO_yyjiaEkLWlHxRYWg?pwd=04au】

临床数据:【https://pan.baidu.com/s/1KDO2gx-lnejeuInVZSEPFQ?pwd=0k83】

TCGA数据库基础的数据分析


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MedBioInfoCloud 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档