前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >可能是最适合初学者的TCGA官网下载和表达矩阵整理教程

可能是最适合初学者的TCGA官网下载和表达矩阵整理教程

作者头像
医学和生信笔记
发布2022-11-15 12:49:25
1.2K0
发布2022-11-15 12:49:25
举报

医学和生信笔记,专注R语言在临床医学中的使用、R语言数据分析和可视化。主要分享R语言做医学统计学、临床研究设计、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等

这篇推文适合初学者看,大佬酌情阅读!不过这个方法确实挺不错的!

从打开网址开始教你一步一步的下载TCGA的数据,图文并茂,真的是详细的不能再详细了!

如果你看完了这篇还不会下载TCGA的数据,那不是你疯就是我疯!

对于初学者来说最难的部分不是下载,最难的主要有两个部分,第一个是下载时遇到的网络问题!其次是下载后的表达矩阵整理!

我为什么说最适合初学者,主要原因是:使用这个方法下载数据后,只要2行代码即可完成表达矩阵的整理,同时包括了count/fpkm/tmp 3种类型,自带gene symbol,并且自带详细的临床数据,不需要另外下载临床数据!

即使你的r语言不够熟练,依然能够顺利完成!

在下载TCGA数据之前,你可能需要一些背景知识,比如TCGA的33癌症简称和英文名,拷贝数变异、单核苷酸多态性、甲基化等的英文,建议自己百度下哦~

下面正式开始:

首先你要到这个网址:https://portal.gdc.cancer.gov/,进入下面这个界面,如果你打不开这个页面,那你的下载大概率也会有问题的,因为这个对网络有要求!

打开这个页面后,你需要选择你想要下载的东西,这个数据库下载东西逻辑是很清晰的,比如你想要下载TCGA的直肠癌的常规转录组的mRNA数据,首先你要点击Repository,下面箭头指的两个地方,任意点一个就行,都是一样的:

点完了之后会进入到这个界面:

这里你只要关注左侧这一栏的东西就好了,你现在的需求是下载TCGA的直肠癌的常规转录组的mRNA数据,所以你需要先找到TCGA的直肠癌,点击Cases

重点来了!!!这里是决定你能不能用2行代码整理表达矩阵的关键!!

有的教程会让你在Primary Site中找到直肠癌,勾选它,像下图这样,但我建议你直接跳过这一步!!!

但是我建议你跳过上面这一步!!直接在Project里面选中TCGA-READ即可,不要在Primary Site中勾选任何东西!!

这样Cases这边的选项就选好了,其他东西就不用选了,比如Disease Type/Gender/Age at Diagnosis等等

下一步就是到Files里面选择数据类型,你想要的转录组的的mRNA数据,所以先点击Files,然后在下面的Data Category里面选择transcriptome profiling,在Data Type里面选择Gene Expression Quantification

OK,到这里你就选择好你想要的数据了:TCGA的直肠癌的常规转录组的mRNA数据,其他的都不用选了,你可以看到一共177个文件!

下一步,把你的所有数据添加到购物车,也就是点击右侧Add All Files to Cart,点完之后你的右上角购物车会出现数字,就像下面这样:

加入购物车之后,点击Cart,进入下面的下载界面,这个界面内容很多,比如167个cases,177个files,747.58M,还有各种下载选项,都给你标出来了。

此时,你点击Download,下面会出现Manifest和Cart的选项。

你如果选择Cart,会下载一个压缩包,里面就是你选择好的177个文件。

点击Cart会下载下图中标号1的文件,解压后得到标号2的文件,把2继续解压,就得到标号为3的文件夹:

打开这个文件夹,里面就是你的178个文件,因为多了一个Manifest文件。

如果你的网络不错,直接下载Cart其实是非常简单的方法,比如我这里177个文件,700多M,不到10分钟就下载完了!

下载完成后你如果需要手扒代码(初学者不推荐)整理成表达矩阵,那你还需要点击Metadata,下载一个metadata文件!

这个metadata是json格式的,里面记录着文件名和样本名的对应关系,手扒代码整理成表达矩阵需要这个文件,而我介绍的黑科技方法不需要这个文件!

如果你选择了Manifest,那么会下载一个manifest文件(这个文件内容和上面通过cart方式下载得到的MANIFEST文件内容完全一样):

这个文件里面包含了你选择好的177个文件的信息,有了它,你就可以用GDC官方推荐的gdc client工具下载了,后面我们会说怎么用这个文件进行下载。

除此之外,你还可以在这个界面下载临床信息,点击Clinical,下载TSV格式的临床数据。我介绍的黑科技方法也不需要这一步!

其他的数据用处不大,可以不用下载。

下面说说如何用GDC官方推荐的gdc client工具进行下载。

首先,需要到gdc client的下载地址:https://gdc.cancer.gov/access-data/gdc-data-transfer-tool,下载这个软件,往下拉即可看到各个平台的版本:

左边的是命令行版本,右边是图形化界面,可以用鼠标点点点的那种!

我先给大家演示下点点点的版本,适合不会写代码的人!根据你的系统,下载合适的版本,比如我是Windows,我就下载了下面这个:

然后解压它,安装它,打开它,就会出现下面这个界面:

点击那个Select Manifest File,会让你选择你的manifest文件,也就是上一步下载的那个,选好之后会出现下面的界面:

稍等片刻,如果你的网络没问题就会变成下面这个界面,然后你点击右下角的Download就可以下载了(下载前你可以先设置下,见下一张图),下载过程会告诉你一共多少几个,下载中几个,失败几个,停止几个,完成几个等,非常清晰明了:

下载前可以先进行一些设置:比如更改你的保存路径,每次下载的大小,自动重连的次数等等,改好之后记得点击Save Settings

都设置好之后,点击Download即可愉快的下载了!

如果有失败的,会在下面显示,直接选中继续下载即可:

下载完之后也是177个文件:

这个方法本质上和命令行版本的gdc client没有区别!

这个点点点的图形化界面真的太香了,这不比命令行版本的gdc client香多了么!Windows下还要命令行下载那么复杂的东西干啥??

根据这个教程下载后,可以无缝衔接另一篇教程:只要2行代码即可整理成表达矩阵!

作为下载TCGA数据和提取表达矩阵之间的过渡,我建议你也看下这篇推文:TCGA官网下载的文件数量竟然和TCGAbiolinks不一致!

我觉得这个下载方法+表达矩阵提取方法对初学者是比较友好的,省掉了很多复杂的r语言操作!

TCGA的教程未完待续,后面我们也会说说怎么用gdc client的命令行进行下载,以及如何手扒代码整理成表达矩阵!

万里长城第一步,这才开始!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 医学和生信笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档