前面关于TCGA的教程我介绍很多,包括数据下载和一些简单的分析以及数据的处理,这里介绍还是介绍数据的下载,前面介绍过从网页下载后直接整理,或者利用R包下载,这里介绍基于TCGA数据开发的一些工具——UCSC。从UCSC下载TCGA数据比较简单。
UCSC主页:https://xenabrowser.net
更多数据库,阅读文章【【收藏】生物数据库大合集】
这是一个在线工具,可以在线分析数据,这里不介绍,只介绍下载数据。在首页左上角选择DATA SETS。我们就会看到该数据库的数据集。也可以直接通过下面链接直达:https://xenabrowser.net/datapages/
往下拉,就可以看见TCGA的数据集。
我随便选择一个, GDC TCGA Lung Adenocarcinoma (LUAD),我们进去就可以看到各种数据。
比如选择RNASeq是数据
就可以看见数据的详细信息,在download处的链接就可以下载数据了。这里的FPKM数据进行了log2(fpkm+1)转换,需要注意。你自己可以把他转换回来。就连counts的数据也进行了log2转换,按照数学公式转换会回去就不是整数了,许多包的分析是基于counts数的,需要整数,这点需要注意。当然,这些数据之间是可以转换的,可参考文章:
其他数据下载也是一样的,需要注意的是看描述信息,该数据库对数据进行了怎样的处理。还有就是时间,我们可以看到上面的数据是2019年7月份的,RNAseq数据,甲基化数据等时间上没有影响,因为这些就算TCGA数据库更新,它也不会变,重要的是临床数据,如果需要最新的临床数据,还是从官网下载临床数据。因为临床数据是不断变化的。
领取专属 10元无门槛券
私享最新 技术干货