一个字“快”,真正的百兆宽带。下载NCBI原始文件SRA下行速度能够达到100M/s,一般SRA下载一个文件15-20分钟搞定。大大节省时间成本,对于云服务器使用来说,省时就是省钱。
前面我布置了一系列学徒作业, 终于开始陆陆续续收到答案啦!下面的教程来自于7月的数据挖掘学员,对应的题目是:仅提供bam文件的RNA-seq项目重新分析
我们通常用wget或curl下载文件,然而由于 NCBI 和 EBI 网站都在国外,有时候下载速度非常慢,如果文件特别大,就可能非常难受甚至是不可能完全的任务了,这时可用 aspera 进行高速下载。
ascp(Aspera Command Line Transfer)是一种用于高速数据传输的命令行工具,由 Aspera 开发,用于在网络上传输大型数据集和文件。它专为大容量、高速度和安全性而设计,适用于远程文件传输,特别是在需要高效传输大量数据的情况下。
理论知识学再好,能付诸实践灵活运用才行,所以我们常强调知行合一,实践出真知。实战演练这个栏目就是带大家从头到尾完整复现单细胞文献分析流程。好了,干货多,屁话少,我们来看实战流程。
Aspera是一项突破性传输协议,充分利用现有的 WAN 基础设施和通用硬件,传输速度比 FTP 和 HTTP 快达数百倍。
Aspera下载: http://downloads.asperasoft.com/connect2/。
之所以选取这个模块,是因为这部分包含了scRNAseq的上游实验部分,掌握好这部分能够更好帮助我们了解scRNAseq的结果文件,进行下游分析
第1选择--Aspera Connect 如果aspera connect不能下载,推荐sratoolkit的prefetch功能。尽量不要用wget或curl下载,速度慢,且有时下载不完全
ENA主页:https://www.ebi.ac.uk/ena/browser/home
NCBI的FTP下载链接:ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR507/SRR5077625/SRR5077625.sra
下载方式一:FTP下载https://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/
依据大家上传数据的习惯,绝大多数生物信息学数据都是可以从NCBI上下载到,当然也可以通过DDBJ,EBI去下载。另外,部分科研人员也将数据传到github等其他平台。
19年开学的时候是打算自学,偶然间发现生信技能树,然后在b站上看了生信技能树的视频,基础不够,看了一部分R语言的相关视频就没有继续看下去了。我在天津上学,一开始还想等生信技能树来天津然后报线下课,由于这次疫情的我,有机会上了线上班。我是第五期学员,现在已经是上完课的状态,虽然自己上完课了依旧很菜,但是至少让我有勇气,有底气觉得自己有一点点入门的希望,有可以让自己继续学下去的勇气。也把如此好的课程推荐给大家,生信技能树官方举办的学习班:
但是如果要下载成百上千个文件,最好是使用代码批量下载,而且现在单细胞技术的大行其道,使得表达量矩阵文件本身也会很巨大,比如:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE253013 ,可以看到如下所示9.3 Gb文件 :
执行上述脚本会通过「selenium」自动打开网页检索数据最终生成一个「SRP350862_download.sh」的脚本,之后在终端直接执行即可,当然也可以在脚本里面添加自动执行模块。如果使用中遇到报错大概是模块缺少,不建议继续耗费时间解决报错。
Aspera是IBM公司的一款高速传输软件,创造了新一代的传输技术(faspTM),不受文件大小、形态、传输距离、网络条件限制,以最高效的速度来协助用户迁移各地的数据。解决方案的核心是fasp传输专利技术,它是一项突破性传输协议,充分利用现有的WAN 基础设施和通用硬件,传输速度比FTP和 HTTP快达数百倍。
需要注意的是:什么,SRA测序数据要收费了,同样的,需要熟悉GEO和SRA数据库编号规则:
不过,最近几年我的教程都是conda和aspera高速下载啦,但即使是这样,仍然是很多人反馈下载失败,有一些是Linux命令不熟悉,自己把代码写错,有一些是数据库下载源的问题,部分数据缺失是数据库的责任,并不是你的错!还有一些是网络问题,甚至是玄学,比如前两天可以,今天就不可以,或者说前面奋战了两个星期都失败,但是今天却无缘无故下载成功了!
SRA(Sequence Read Archive) 与 ENA(European Nucleotide Archive) 数据库基本上保存了 90% 以上的测序原始数据。其中 SRA 数据库位于在美国,ENA 数据库在欧洲。所以,国内的研究人员想要从中下载数据,是一件棘手的事情。因此本文将介绍 3 种下载方式,让您免受数据下载之痛,赢在科研起跑线。
今天要上NCBI下载sra数据发现没有下载的链接,网上查发现都是老的方法,NCBI页面已经变更,于是看了NCBI的help,并且记录下来新版的sra数据下载方法,要用NCBI的工具SRA Tool
最近有粉丝求助,说自己已经耗费十多天了还没有把一个NT数据库下载下来,不得已充值会员费希望可以加速,但是效果也很惨淡,如下图:
kingfisher是由昆士兰科技大学微生物组研究中心的 Ben J. Woodcroft 教授开发的一款专门用于高通量测序数据下载的工具。
2.ncbi中SRA的ftp下载链接为: ftp://ftp.ncbi.nlm.nih.gov/sra/, SRA数据库的格式为:
按照这个流程我们可以发现更多与m6A相关的基因,除了文章中的FOXM1之外,当然还有很多基因可以做。
很多时候需要同时下载多个SRA文件,ascp命令提供参数--file-list,用于批量下载SRA文件。
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个lncRNA组装流程的软件的笔记教程 Aspera是IBM公司的一款高速传输软件,创造了新一代的传输技术(faspTM),并能不受文件大小、形态、传输距离、网络条件限制,以最高效的速度来协助用户迁移各地的数据。使用 fasp传输专利技术,充分利用现有的 WAN 基础设施和通用硬件,传输速度比 FTP 和 HTTP 快达数百倍
在经历了第一次做·RNA-seq的摸爬滚打之后,我大概对RNA-seq的流程和要使用的软件有了一些了解,并知道了它们的用法,于是便做了第二次的RNA-seq,然后想做一个总结笔记 1.原始数据下载软件Aspera Aspera用于下载sra原始数据 将Aspera connect安装在Linux上 代码如下
通过昨天下载的TSV文件,我们得到了对应fastq文件的下载链接。接下来在Linux服务器上部署aspera并批量下载。
由于课题需要下载single cell raw data 进行后续分析,但是NCBI SRA 文件分割后只有一个FASTQ文件,只能从ENA上下载BAM 文件,使用Cell ranger bamtofastq 转为fastq文件再进行比对。开启了慢慢长ERROR路
其实就是解析url规律,然后构建上面的命令,需要替换的仅仅是 SRR5907429
网址:https://www.ncbi.nlm.nih.gov/account/
高通量的原始数据通常情况下会上传到NCBI的SRA(Sequence Read Archive)数据库。当我们需要用到这些数据的时候,就需要合适的方法来下载。
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
由于是EBI数据库,用wget下载速度太慢,Jimmy大神强烈建议用aspera工具下载,于是参考生信技能树教程代码,首先需要熟悉GEO和SRA数据库:
NCBI 的分类数据库,包括大于 7 万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止到目前,各个物种的统计结果见下表。
生物数据的处理本质上有两条路线:其中一条是序列本身具有结构特征,那么就可以通过软件算法来实现,比如预测基因,非编码 RNA,重复序列的分析等;另一条路线是序列本身没有结构特征,只能通过与已有序列进行比对,根据已知信息来推测未知信息,比如基因功能注释,16SrRNA 物种鉴定等,常见的一个例子就是得到一条序列,需要判断序列来自于哪个物种,就只能与数据库进行比对。
在经过基因组组装或转录组差异基因表达量分析之后,对其结果进行注释是比较重要的一步,如何注释以及如何得到精确的注释结果?
SRA Toolkit 是由美国国家生物技术信息中心(NCBI)提供的一组工具,专门用于处理 Sequence Read Archive(SRA)中存储的高通量测序数据。这个工具包包含了一系列命令行工具,用于检索、转换、处理和分析来自 SRA 的数据。其具有以下特性:
接下来 使用conda安装aspera,新建download子环境,然后在该环境下面安装指定软件 ,就可以高速下载 不同 数据集的fastq文件 ,代码如下:
查看sra-tools版本是否最新版 可以重新安装最新版或建立新的环境安装最新,建议删除。
除了利用ascp命令从NCBI下载SRA文件外,SRAtoolkit也提供了prefetch命令用于下载SRA文件。
在生物信息学研究中,公共测序数据资源的获取对于科研项目的进展至关重要。虽然NCBI的SRA(Sequence Read Archive)数据库提供了大量的测序数据,但由于网络访问速度的限制,特别是从国内访问时,下载速度可能受到严重影响。为了克服这一困难,欧洲生物信息学研究所(EBI)的ENA(European Nucleotide Archive)数据库及其提供的下载工具成为了一个可行的替代方案。EBI的ENA数据库与NCBI的SRA数据库类似,存储了大量的测序数据,并且提供了多种下载方式。其中,enaBrowserTools结合Aspera的方式因其高效和便捷性而受到推荐。这种下载方式不仅速度快,而且操作简单,只需提供数据的accession号(如SRR号)即可。
首先,按照这个方法可以去查找文章和数据。共下载7个文件,我仿写了个代码,如下: 运行起来速度还是很好,平均5M/S.
在GEO下载测序数据,首先要找到GSE号,然后找到SRR号,最后prefetch就0K了!
原始数据来源于这篇文章https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE50177 这篇文章的数据适中,不仅可以用来做RNA-seq,后面我们
前几天看到基因课的东哥提了一下kingfisher,一个看起来就是极度便利的公共测序数据下载工具。我非常感兴趣,但也确实没时间折腾,于是继续丢给师弟去看看(事实上,他肯定也有类似需求....)。结果如下,感觉不错。帮大伙踩坑测试,与大伙分享。- CJ - 陈程杰
塔式服务器中Dell完胜其他~ 四、选什么样的配置? 使用云服务器做分析的时候,能使用的最高性能配置就是12核64G+8T的硬盘,至于其他比如显卡:等做深度学习的时候再配也来得及比如SSD:性价比超低,等价钱降下来了再配也来得及比如双路cpu:其实一个就够用了,只要板子有两个接口,以后再配也来得及比如光驱:随机附送,可有可无。等等都是次要的所以下面就是最后的配置塔式服务器机箱+主板:dell poweregde T630CPU:E5 2630V4(10核20线程)内存:64G硬盘:2x4T,dell工业级SAS硬盘列阵卡:H330(管理硬盘的东西)电源:495W dell热插拔电源(考虑发在家里电费问题,就选了个低功率的)其他:都是默认的 五、只有机箱吗?还需要买什么配件? 当然只有机箱,你需要配一个显示器,还有一套鼠标键盘。显示器不用特别好,站长选的是:Dell SP2318H 六、价格 其实,这套配置的议价空间真的不大,网上购买节省的就是因为销售渠道造成的加价,只要找到直销的店都能拿到最低上面那套配置,整机价格:19500元。 显示器赶上了促销价格:1000元。20k的价格,在预算之内,就这样,站长不仅花光了讲课赚的钱,还要还贷。哎~~~~~ 七、运行情况 1、系统选择:站长因为使用centos习惯了,强行让卖家安了个一个centos。没想到的是Centos也有图形界面了,欣慰一。2、转录组分析:云服务器上能做的这个服务器完全胜任,从下载到分析数据可视化,整个过程效率提高20%,欣慰二。3、远程操控与网络:这个对于站长是刚需,值班时候用手机简单操作一下什么是必须要实现的。站长家的宽带是所谓的100M电信光纤。然而,实际使用中下载峰值只有10M/s,没有云服务器使用的时候20M/s的峰值快,能到10M/s也知足了。然而,第一次使用的时候站长几近崩溃,用ascp高速下载峰值只有5M/s,更不爽的是只要下载一开始,全家都不要用网了,看个世界杯都卡死,在不断扎心中,站长绝对找找解决方案,如下:(1)从头找原因,一般电信小区光纤入户都是在一个大局域网下面,分到家里IP都是100.xxx.xxx.xxx这样的,用这个IP你是不能进行远端操作的。另外家里都用路由器,电脑上显示的IP都是192.168.xxx.xxx这样的地址,远程是无法操控的。站长联系了10000,得知电信可以把100局域网IP改成123公网IP,通过路由器设置定向转发,就可以在外网用ssh输入账号密码,登陆自己家里的服务器了。也就是像腾讯云服务器那样实现登陆。欣慰三。
CellRanger ARC 是10x Genomics 专为单细胞多组学数据分析设计,同时分析单细胞RNA测序(scRNA-seq)和单细胞ATAC测序(scATAC-seq)数据的一组分析pipline 。
领取专属 10元无门槛券
手把手带您无忧上云