从我们生信技能树历年的几千个马拉松授课学员里面募集了一些优秀的创作者,某种意义来说是传承了我们生信技能树的知识整理和分享的思想!
今天的是学员一点一滴整理的授课知识点笔记哦,还有互动练习题哈,欢迎大家点击文末的阅读原文去关注我们学员的公众号哦!
在生物信息学研究中,TCGA(The Cancer Genome Atlas)是一个极为重要的数据资源库,提供了大量关于不同癌症类型的基因组、转录组、表观基因组等多种数据。如何高效地获取和处理这些数据呢?今天我们来聊聊一个非常实用的R包——TCGAbiolinks。
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("TCGAbiolinks")
library(TCGAbiolinks)
query <- GDCquery(project = "TCGA-LUAD", # 项目ID,例如肺腺癌
data.category = "Clinical",
file.type = "xml")
GDCdownload(query)
clinical.data <- GDCprepare_clinic(query, clinical.info = "patient")
好了,在这一步的时候,可能有些小伙伴在没开访问国外网站的情况下会感觉下载速度极慢,而且有些情况开了也会感觉好慢,那么,小编在这里有几个使用小技巧:第一种,
我们看到代理有3种模式,如果你开了第一种的话,有些时候不稳定的话,那么就会出现下面这种情况,花费的时间应该会接近一个小时甚至更长时间
那么我的解决办法就是你先等着,等他开始进行第一个文件下载的时候,你选择断一次VPN,那么后续下载的话就会很流畅,再出现的话,你就直接按前一次的方法应该就能成功。第二种,解决办法就是你直接选择代理里面的全局模式,下载速度就直接快起来了。第三种,大家可以把相应的文件下载到本地读取进去就好啦。那么就有小伙伴就会说了,你为啥不直接使用第二种方法,好了,我承认有些时候不交学费的话,有些东西还是搞不定的,哈哈,个人的经验~
query <- GDCquery(project = "TCGA-LUAD",
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - Counts")
GDCdownload(query)
expression.data <- GDCprepare(query)
总结
TCGAbiolinksR包提供了丰富的功能,帮助研究人员高效地获取、处理和分析TCGA数据。希望今天的分享对你有所帮助,欢迎大家留言讨论更多使用技巧!
注:若对内容有疑惑或者发现有明确错误,请联系后台(希望多多交流)。