前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >批量下载geo上面的单细胞表达量矩阵

批量下载geo上面的单细胞表达量矩阵

作者头像
生信技能树
发布2024-03-29 14:31:11
4520
发布2024-03-29 14:31:11
举报
文章被收录于专栏:生信技能树

在 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE164522 看到了这个单细胞数据集附带的表达量矩阵比较大,而且文件比较多,所以想挂在后台,需要理解geo页面的每个gse数据集的主页的URL的规律。

其中,GSEXXXXXX 是该数据集的 accession number,是一个唯一标识符,用于在 GEO 数据库中检索该数据集的信息。可以通过构建类似这样的 URL,将 accession number 替换为任意感兴趣的 GSE 数据集的 accession number,以访问该数据集的主页。然后,就可以从主页中获取数据集的相关信息,包括表达量矩阵文件的下载链接等。

比如在 https://ftp.ncbi.nlm.nih.gov/geo/series/GSE164nnn/GSE164522/suppl/ 其实就可以看到全部的文件链接 :

代码语言:javascript
复制
GSE164522_CRLM_LN_expression.csv.gz   2021-01-10 10:11  657M  
GSE164522_CRLM_MN_expression.csv.gz   2021-01-10 10:13  841M  
GSE164522_CRLM_MT_expression.csv.gz   2021-01-10 10:14  582M  
GSE164522_CRLM_PBMC_expression.csv.gz 2021-01-10 10:15  667M  
GSE164522_CRLM_PN_expression.csv.gz   2021-01-10 10:16  444M  
GSE164522_CRLM_PT_expression.csv.gz   2021-01-10 10:17  599M  
GSE164522_CRLM_metadata.csv.gz        2021-01-10 16:20  5.6M  
GSE164522_vdj_final.csv.gz            2021-01-10 16:20  7.8M  

理论上就可以构建这些文件对应的全部的下载链接啦,就是加上上面的前缀即可 :https://ftp.ncbi.nlm.nih.gov/geo/series/GSE164nnn/GSE164522/suppl/

可以直接wget命令

wget命令在Linux操作系统很流行,是比较底层的下载器,在Windows电脑也可以通过安装git软件以及wget命令的方式来使用它:

代码语言:javascript
复制
wget -r -np -k -p -e robots=off https://ftp.ncbi.nlm.nih.gov/geo/series/GSE164nnn/GSE164522/suppl/

这个命令使用了几个选项:

  • -r:递归下载,意味着它会下载指定网页中的所有链接,包括子链接和相关资源。
  • -np:不追溯父链接,避免下载父链接中的内容。
  • -k:转换链接,使得下载的内容中的链接指向本地已下载的文件。
  • -p:下载页面中的所有资源(图片、样式表等)。
  • -e robots=off:忽略 robots.txt 文件,以允许下载被禁止的内容。

这个命令将下载指定 URL 中的所有内容,并保存到当前工作目录中。

也可以通过其它r包或者Python包

比如r里面的GEOquery就可以通过 getGEOSuppFiles() 函数可以直接下载指定数据集的所有附件文件

代码语言:javascript
复制
library(GEOquery) 
# 指定数据集的 accession number
accession_number <- "GSE164522" 

> getGEOSuppFiles(accession_number)
trying URL 'https://ftp.ncbi.nlm.nih.gov/geo/series/GSE164nnn/GSE164522/suppl//GSE164522_CRLM_LN_expression.csv.gz?tool=geoquery'
Content type 'application/x-gzip' length 688915844 bytes (657.0 MB)

在 Python 中,您可以使用 GEOparse 包来获取 GEO 数据库中的数据集及其附件文件,感兴趣可以自己去摸索啦!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 可以直接wget命令
  • 也可以通过其它r包或者Python包
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档