前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >一文搞懂NCBI Blast本地数据库(NT/NR等)构建

一文搞懂NCBI Blast本地数据库(NT/NR等)构建

作者头像
简说基因
发布于 2020-11-19 08:17:00
发布于 2020-11-19 08:17:00
7.8K30
代码可运行
举报
文章被收录于专栏:简说基因简说基因
运行总次数:0
代码可运行

背景介绍

blast+:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/LATEST

blast db:ftp://ftp.ncbi.nlm.nih.gov/blast/db

README:ftp://ftp.ncbi.nlm.nih.gov/blast/db/README

通过查看 README,我们知道 nt 和 nr 库的内容:nr 是蛋白库(非冗余的),nt 是核酸库(部分非冗余的)。

下载 blast 库

BLAST+程序包中提供了一个脚本update_blastdb.pl可以方便地下载 blast 数据库

首先用以下命令查看有哪些数据库可供下载:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
perl update_blastdb.pl --showall

16S_ribosomal_RNA 18S_fungal_sequences 28S_fungal_sequences Betacoronavirus ITS_RefSeq_Fungi ITS_eukaryote_sequences LSU_eukaryote_rRNA LSU_prokaryote_rRNA SSU_eukaryote_rRNA cdd_delta env_nr env_nt human_genome landmark mouse_genome nr nt pataa patnt pdbaa pdbnt ref_euk_rep_genomes ref_prok_rep_genomes ref_viroids_rep_genomes ref_viruses_rep_genomes refseq_protein refseq_rna refseq_select_prot refseq_select_rna swissprot taxdb tsa_nr tsa_nt

如要下载 nt 库,用以下命令:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
nohup perl update_blastdb.pl --decompress nt &> update.log &

后台下载并自动解压,如果中途断网,重启下载支持断点续传,很方便。

可惜的是,如果网速不好,80 多 GB 的压缩文件,很难下载下来,最好用我们之前介绍过的 Aspera 软件高速下载,其安装方法见之前文章:Aspera:基因组数据高速下载利器,以 NCBI 和 EBI 数据下载为例

Aspera 下载 nt 库:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -l 100M -k 1 -T anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./

下载完毕,构建数据库索引:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
makeblastdb -dbtype nucl -in nt.fa -out nt.fa

测试

准备查询文件:test.fa

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
>chr1
CGATAATTCATCTGGCCGCCTTCCACACCCAGCGCGCGCAAAAAGTGGTGGCGGAAACGATCCGCACTGAAAATACCGTGGAGATAGGTTCCCATGATACGACCATCGGGC

测试命令:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
time blastn -query test.fa -db /path/to/nt.fa -num_threads 48 -max_target_seqs 5 -outfmt 6

结果如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
chr1    CP046720.1      100.000 111     0       0       1       111     1286985 1287095 1.92e-49        206
chr1    CP044338.1      100.000 111     0       0       1       111     1283638 1283748 1.92e-49        206
chr1    MK355143.1      100.000 111     0       0       1       111     76      186     1.92e-49        206
chr1    MK355138.1      100.000 111     0       0       1       111     76      186     1.92e-49        206
chr1    MK355136.1      100.000 111     0       0       1       111     76      186     1.92e-49        206

real    0m15.609s
user    1m17.647s
sys     0m31.350s

本地 NT 库构建成功。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 简说基因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
3 条评论
热度
最新
请问用aspera下载完成后,需要解压缩才能makeblastdb吗?如何解压缩呢?
请问用aspera下载完成后,需要解压缩才能makeblastdb吗?如何解压缩呢?
回复回复点赞举报
ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -l 100M -k 1 -T anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./请问这一行命令是什么意思呀 能不能后台运行呢
ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -l 100M -k 1 -T anonftp@ftp.ncbi.nlm.nih.gov:/blast/db/FASTA/nt.gz ./请问这一行命令是什么意思呀 能不能后台运行呢
11点赞举报
下载数据库,可以后台运行
下载数据库,可以后台运行
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
BLAST—序列相似性搜索必备神器
BLAST(Basic Local Alignment Search Tool) 是一款用于在蛋白质或 DNA 数据库中进行相似性搜索的分析工具。BLAST 程序能够快速比对查询序列与公开数据库中的序列,并计算相似性得分,以进行统计分析。
生信菜鸟团
2025/03/12
2380
BLAST—序列相似性搜索必备神器
Nr数据库子库构建
在经过基因组组装或转录组差异基因表达量分析之后,对其结果进行注释是比较重要的一步,如何注释以及如何得到精确的注释结果?
生信菜鸟团
2022/02/17
4K0
Nr数据库子库构建
2️⃣ 双序列比对(2):BLAST详细操作:web版和linux版
网址:https://blast.ncbi.nlm.nih.gov/Blast.cgi 运行方式:本地或web
Y大宽
2019/01/28
5.3K0
RNA-seq数据分析完全指北-04:创建本地blast库分析物种组成
啊~~~本来是半个月的专栏不知道到底过了多久才又和大家见面,其中经历不足为外人道也
生信菜鸟团
2021/04/13
1.9K0
RNA-seq数据分析完全指北-04:创建本地blast库分析物种组成
blast2go本地化-2017教程
通常我们上游分析得到的蛋白序列需要和主流的数据库进行比对,完成功能注释。常用数据库一共有以几种:
生信技能树
2018/09/21
3.9K0
blast2go本地化-2017教程
根据CCDS数据库信息拿到全部外显子坐标
也就是说我三五年前写的很多教程需要更新了,那个时候使用的还是 CCDS.20161208.txt 这样的文件,在文章可以看到CCDS数据库的一些最新动态:
生信技能树
2020/10/26
2.3K0
根据CCDS数据库信息拿到全部外显子坐标
从NT_NR数据库中提取子库
估计宿主污染至少80%左右,因而就想通过一些方法,例如kraken、bowtie等把宿主污染去除。
花落花相惜
2021/11/26
6950
RepeatMasker安装和使用
RepeatMasker是一款专门用于基因组重复序列识别注释,并分类统计的软件,几乎用于所有物种。是研究基因组、非编码RNA、转座子和着丝粒领等相关领域的必备软件。很多small RNA, lncRNA与Repeat区有密切关系。 之前我在2013在PLOB发布过《RepeatMasker安装方法与使用 》,阅读近7000次。相关百度云中Repbase也被下载几千次。但目前软件和数据库均更新很多次,旧版在主流系统安装也会出一些问题,重复序列发现种类也已经翻倍,故重发新版软件安装和使用方法。 软件安装与配置
生信宝典
2018/02/05
3.4K0
速来围观!——三种NCBI常见数据库
在微生物测序分析中,常常需要对未知的核酸或蛋白序列进行物种,功能或类别注释。注释方法种类较多,其中最常用的是与一些标准数据库进行相似性搜索,也就是序列比对。因此,数据库的优劣对注释结果至关重要。本期小编为大家带来的是NCBI上的三个重要的数据库—NR/NT,Taxonomy和RefSeq。 NR/NT 数据库 NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列
企鹅号小编
2018/02/05
2.9K0
速来围观!——三种NCBI常见数据库
建立本地的Blast数据库
Blast(basic local alignment search tool) 局部序列比对基本检索工具,是NCBI开发的一款基于序列相似性的数据库搜索程序。主要的BLAST程序有以下几种: BLAST的在线版https://blast.ncbi.nlm.nih.gov/Blast.cgi可以方便的进行单一的同源性序列搜索,但是不方便进行大批量的数据操作,也不能建立自己的数据库。接下来小编就要教大家如何建立本地的BLAST数据库。 基于BLAST优秀的算法,BLAST程序可以轻松的在普通的个人电脑中运
企鹅号小编
2018/01/24
6.9K0
建立本地的Blast数据库
blast的应用
当拿到一条未知序列时,可以直接与 ncbi nt 库或者 nr 库进行 blast 比对,鉴定未知序列。
生信喵实验柴
2022/10/25
1.7K0
宏基因组分析环境搭建
NCBI 的分类数据库,包括大于 7 万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止到目前,各个物种的统计结果见下表。
生信喵实验柴
2023/02/24
1.3K0
宏基因组分析环境搭建
鉴定lncRNA流程全套代码整理
前两期周更我们通过一篇文章的复现整理了mRNA和lncRNA分析基本流程,但并没有涉及新lncRNA的鉴定,本周的推文本质上是我个人学习鉴定lncRNA的全套流程笔记,整合了我们公众号往期的资源,对代码进行了勘误更新,内容非常详实。
生信菜鸟团
2023/08/23
3.6K1
鉴定lncRNA流程全套代码整理
什么!!!超70G的NT数据库文件一个小时搞定?
最近有粉丝求助,说自己已经耗费十多天了还没有把一个NT数据库下载下来,不得已充值会员费希望可以加速,但是效果也很惨淡,如下图:
生信技能树
2020/07/02
5.2K0
什么!!!超70G的NT数据库文件一个小时搞定?
lncRNA组装流程的软件介绍本地化NR数据库|按物种拆分
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
生信技能树
2021/07/06
1.5K0
比对NR库看看物种分布【直播】我的基因组88
前面我提前了我的基因组测序数据里面的未成功比对到人类基因组上面的那些fastq序列,也用了软件把它们组装成fasta序列,这些序列的功能是未知的,可以通过比对到NCBI的NT/NR库来给他们注释一下。 NR库是Non-redundant protein sequences from GenPept, Swissprot, PIR, PDF, PDB, and NCBI RefSeq,得去ftp://ftp.ncbi.nih.gov/blast/db/ 下载所有gz结尾的文件,并且解压到同一个目录即可。 最终
生信技能树
2018/03/09
2.7K1
NCBI Refseq有重要更新!
https://www.ncbi.nlm.nih.gov/genome/browse
SYSU星空
2022/05/05
1.3K0
NCBI Refseq有重要更新!
三大基础公共数据库介绍
美国的国家生物技术信息中心(National Center forBiotechnology Information,NCBI,https://www.ncbi.nlm.nih.gov/)是1988年美国国家健康研究所(National Institutesof Health,NIH)和国家医学图书馆(United StatesNational Library of Medicine,NLM)联合发起成立的分子生物学、生物化学、遗传学知识储备和文献整理平台,并逐步演变为大规模生物医药数据存储、分类与管理,生物分子序列、结构与功能分析,分子生物软件开发、发布与维护,生物医学文献收集与整理,全球范围数据提交与专家注释于一体的世界生物医学信息与技术资源数据库。NCBI采用著名的Entrez搜索和信息检索系统,可以进行在线资源检索,同时构建FTP数据资源下载平台(https://www.ncbi.nlm.nih.gov/guide/all/#downloads),方便用户批量下载数据。
SYSU星空
2022/05/05
7.2K0
三大基础公共数据库介绍
blast+本地化中blastp操作(基于PDB库)—linux[通俗易懂]
blast+本地化的构建对于流程化处理大量数据序列很方便,blast+是将blast模块化,分为了蛋白质序列比对蛋白数据库(blastp)、核酸序列比对核酸数据库(blastn)、核酸序列比对蛋白质数据库(blastx)、蛋白质比对翻译后的核酸数据库(tblastn)、
全栈程序员站长
2022/09/21
3.6K1
blast比对
序列比对是整个生物信息的核心,因为几乎每个生物信息分析过程都需要用到序列比对。判断两个基因或两段基因组片段是否相似是序列分析的基本工作。从序列数据库搜索,序列拼接到基因蛋白质功能注释,以及进化树构建等,都依赖于分子序列相似性的比较,也就是序列比对。
生信喵实验柴
2022/10/25
2.6K0
blast比对
相关推荐
BLAST—序列相似性搜索必备神器
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验