可能是最适合初学者的TCGA官网下载和表达矩阵整理教程

医学和生信笔记

发布于 2022-11-15 12:49:25

2.3K0

文章被收录于专栏：医学和生信笔记医学和生信笔记

“医学和生信笔记，专注R语言在临床医学中的使用、R语言数据分析和可视化。主要分享R语言做医学统计学、临床研究设计、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。

这篇推文适合初学者看，大佬酌情阅读！不过这个方法确实挺不错的！

从打开网址开始教你一步一步的下载TCGA的数据，图文并茂，真的是详细的不能再详细了！

如果你看完了这篇还不会下载TCGA的数据，那不是你疯就是我疯！

对于初学者来说最难的部分不是下载，最难的主要有两个部分，第一个是下载时遇到的网络问题！其次是下载后的表达矩阵整理！

我为什么说最适合初学者，主要原因是：使用这个方法下载数据后，只要2行代码即可完成表达矩阵的整理，同时包括了count/fpkm/tmp 3种类型，自带gene symbol，并且自带详细的临床数据，不需要另外下载临床数据！

即使你的r语言不够熟练，依然能够顺利完成！

在下载TCGA数据之前，你可能需要一些背景知识，比如TCGA的33癌症简称和英文名，拷贝数变异、单核苷酸多态性、甲基化等的英文，建议自己百度下哦~

下面正式开始：

首先你要到这个网址：https://portal.gdc.cancer.gov/，进入下面这个界面，如果你打不开这个页面，那你的下载大概率也会有问题的，因为这个对网络有要求！

打开这个页面后，你需要选择你想要下载的东西，这个数据库下载东西逻辑是很清晰的，比如你想要下载TCGA的直肠癌的常规转录组的mRNA数据，首先你要点击Repository，下面箭头指的两个地方，任意点一个就行，都是一样的：

点完了之后会进入到这个界面:

这里你只要关注左侧这一栏的东西就好了，你现在的需求是下载TCGA的直肠癌的常规转录组的mRNA数据，所以你需要先找到TCGA的直肠癌，点击Cases。

重点来了！！！这里是决定你能不能用2行代码整理表达矩阵的关键！！

有的教程会让你在Primary Site中找到直肠癌，勾选它，像下图这样，但我建议你直接跳过这一步！！！

但是我建议你跳过上面这一步！！直接在Project里面选中TCGA-READ即可，不要在Primary Site中勾选任何东西！！

这样Cases这边的选项就选好了，其他东西就不用选了，比如Disease Type/Gender/Age at Diagnosis等等。

下一步就是到Files里面选择数据类型，你想要的转录组的的mRNA数据，所以先点击Files，然后在下面的Data Category里面选择transcriptome profiling，在Data Type里面选择Gene Expression Quantification：