Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >gget,一个能高效进行各式各样网络数据库查询的工具

gget,一个能高效进行各式各样网络数据库查询的工具

作者头像
生信技能树
发布于 2022-06-27 12:49:45
发布于 2022-06-27 12:49:45
1.3K00
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

希望所有的学徒,实习生以及马拉松授课学员都可以在咱们《生信技能树》的舞台上大放异彩。前面有粉丝自告奋勇希望可以把他自己在简书等平台的生物信息学笔记分享在我们《生信技能树》公众号,在专业的舞台上跟大家切磋!非常欢迎,他前面的分享是:

下面继续 :

BLAST、基因富集、序列比对

最近在bioRxiv上发布的一篇文献介绍了gget——能高效进行基因组数据库查询的工具。使用gget能够以命令行的形式查询或下载基因组数据库的相关信息,甚至能进行BLAST、基因富集、序列比对等等操作,再也不用费心去各种网页中一级级辛苦查找啦。下面学习一下其具体使用方法。

文献地址:

Efficient querying of genomic databases for single-cell RNA-seq with gget | bioRxiv

github地址: https://github.com/pachterlab/gget

以下资料参考自gget官方手册:

GitHub - pachterlab/gget_examples: Examples for gget


1. 基本介绍

gget是一个免费的开源命令行工具和Python包,支持对基因组数据库的高效查询。gget由一组独立但可互操作的模块组成,每个模块都用于在一行代码中实现一种类型的数据库查询。目前由以下9个模块组成:gget refgget searchgget searchgget infogget seqgget blastgget blatgget musclegget enrichrgget archs4


2. 安装

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install gget
# 或用conda进行安装:
conda install -c bioconda gget
# For use in Jupyter Lab / Google Colab:
import gget

3. 各模块功能与使用示例

① gget ref

  • 从Ensembl中按物种获取参考基因组与注释文件的FTPs地址 。Fetch File Transfer Protocols (FTPs) and metadata for reference genomes and annotations from Ensembl by species.
  • 返回格式: dictionary/json
  • 参数:
  • 使用示例:获取特定版本和特定物种的参考基因组与注释文件的FTP下载地址

# 获取最新的人的所有参考基因组和注释(DNA、cDNA、cds、gtf等)的FTP地址gget ref -s homo_sapiens# 获取特定版本的人的参考基因组与注释的FTP地址gget ref -s homo_sapiens -w gtf dna -r 103


② gget search

  • 从Ensembl中按自由搜索的形式获取基因和转录本信息。Fetch genes and transcripts from Ensembl using free-form search terms.
  • 返回格式:data frame
  • 参数:
  • 使用示例:在Ensembl中搜索关键词 gaba gamma-aminobutyric,获取人的基因相关信息并保存为csv文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget search -sw gaba gamma-aminobutyric -s homo_sapiens  -o results.csv

③ gget info

  • 使用Ensembl id从Ensembl, UniProt和NCBI获取基因或转录本信息。Fetch extensive gene and transcript metadata from Ensembl, UniProt, and NCBI using Ensembl IDs.
  • 返回格式:data frame
  • 参数:
  • 使用示例:根据Ensembl id获取基因信息(-e 参数能获取扩展信息,对于基因添加所有已知转录本的信息,对于转录本添加所有已知翻译和外显子的信息),并保存为csv文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget info -id ENSG00000034713 ENSG00000104853 ENSG00000170296 -e -o results.csv

④ gget seq

  • 分别从Ensembl和UniProt中获取基因或转录本的核苷酸或氨基酸序列。Fetch nucleotide or amino acid sequences of genes or transcripts from Ensembl or UniProt, respectively.
  • 返回格式: FASTA
  • 参数:
  • 使用示例:根据Ensembl id获取基因序列信息,并保存为fa文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget seq -id ENSG00000034713 ENSG00000104853 ENSG00000170296 -o results.fa

⑤ gget blast

  • BLAST一个核苷酸或氨基酸序列到任何BLAST数据库。BLAST a nucleotide or amino acid sequence to any BLAST database.
  • 返回格式:data frame
  • 参数:
  • 使用示例:对特定序列(直接输出或已存进文件)进行BLAST,并保存为csv文件(注意,需要提前用conda安装lxml,否则会报错)

先下载lxml

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
conda install -y lxml
gget blast -seq MKWMFKEDHSLEHRCVESAKIRAKYPDRVPVIVEKVSGSQIVDIDKRKYLVPSDITVAQFMWIIRKRIQLPSEKAIFLFVDKTVPQSR -o results.csv

用fa或txt文件进行BLAST

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget blast -seq fasta.fa -o results.csv

⑥ gget blat

  • 使用BLAT找出核苷酸或氨基酸序列的基因组位置。Find the genomic location of a nucleotide or amino acid sequence using BLAT.
  • 返回格式:data frame
  • 参数:
  • 使用示例:搜索斑马鱼中特定氨基酸序列所在的基因组位置,并保存为csv文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget blat -seq MKWMFKEDHSLEHRCVESAKIRAKYPDRVPVIVEKVSGSQIVDIDKRKYLVPSDITVAQFMWIIRKRIQLPSEKAIFLFVDKTVPQSR -a taeGut2 -o results.csv

⑦ gget muscle

  • 使用Muscle5将多个核苷酸或氨基酸序列进行序列比对。Align multiple nucleotide or amino acid sequences to each other using Muscle5.
  • 返回格式:ClustalW formatted standard out or aligned FASTA.
  • 参数:
  • 使用示例:对fasta.fa文件中多条核苷酸序列进行比对,并保存为afa文件(一般还是使用软件比较方便,因此就没尝试了哈)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget muscle -fa fasta.fa -o results.afa

⑧ gget enrichr

  • 使用Enrichr对基因列表进行富集分析。Perform an enrichment analysis on a list of genes using Enrichr.
  • 返回格式:data frame
  • 参数:
  • 使用示例:对基因ACE2 AGT AGTR1进行GO富集分析,保存为csv文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget enrichr -g ACE2 AGT AGTR1 -db ontology -o rich.csv

⑨ gget archs4

  • 使用ARCHS4查找与感兴趣基因最相关的基因,或者查找该基因的组织表达图谱。Find the most correlated genes to a gene of interest or find the gene's tissue expression atlas using ARCHS4.
  • 返回格式:data frame
  • 参数:
  • 使用示例:查找与基因ACE2最相关的基因、查找ACE2的组织表达图谱,保存为csv文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
查找与基因ACE2最相关的基因
gget archs4 -g ACE2  -o  ACE2.csv
查找基因ACE2的组织表达图谱
gget archs4 -g ACE2 -w tissue  -o  ACE2_tissue.csv

通过以上学习实践可以发现,gget整合了我们常用的查询基因组数据库的各项功能,能够以简单易学的命令行形式进行多种多样的操作,对于熟悉命令行操作的使用人员可以说是很棒的一个辅助工具了。

最后感谢生信技能树Jimmy老师,让我了解学习到了gget工具的使用( ̄▽ ̄)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
gget:一款强大的基因组参考数据库的高效查询工具
开源 Python 和命令行程序 gget 可以高效、轻松地以编程方式访问存储在各种大型公共基因组参考数据库中的信息。 gget 与可获取用户生成的测序数据的现有工具一起使用 ,以取代在基因组数据分析过程中效率低下、可能容易出错的手动网络查询。虽然 gget 模块的灵感来自于繁琐的单细胞 RNA-seq 数据分析任务),但我们预计它们可用于广泛的生物信息学任务。
毅硕科技
2023/01/06
6200
gget:一款强大的基因组参考数据库的高效查询工具
软件介绍之BLAST
BLAST (Basic Local Alignment Search Tool) 是我们常用的短序列比对工具,直接输入fastq格式的序列文件就可进行比对。
生信技能树
2021/07/06
1.7K0
解锁生物信息学必备!核心数据库使用指南
生物信息学研究离不开数据支撑,这些数据库能让你事半功倍! 本文详解常用数据库的检索下载技巧,并提供可直接复用的代码模板。
天意生信云
2025/02/08
3120
解锁生物信息学必备!核心数据库使用指南
NGS基础 - GTF/GFF文件格式解读和转换
GFF 文件 GFF全称为general feature format,这种格式主要是用来注释基因组。 从 Ensembl 导出的GFF文件示例: X Ensembl Repeat 2419108 2419128 42 . . hid=trf; hstart=1; hend=21 X Ensembl Repeat 2419108 2419410 2502 - . hid=AluSx; hstart=1; hend
生信宝典
2018/02/05
11.8K0
NGS基础 - GTF/GFF文件格式解读和转换
新冠病毒的基因序列分析(3):文章分析重现part1
经过上一期的文章的介绍,我们了解了新冠病毒和SRAS病毒还有其它病毒的相似性。我们对新冠病毒的认识又有了进一步的认识。下面我们就尝试对一些已经发表的文章,进行一些分析重现。
生信菜鸟团
2020/05/26
2.1K0
手把手学习TCGA数据库:SNP突变分析第一期
SNP(single nucleotide polymorphism),单核苷酸多态性,在基因组上由单个核苷酸变异形成的遗传标记,一般指变异频率大于1%的单核苷酸变异。
百味科研芝士
2019/06/17
8.9K0
手把手学习TCGA数据库:SNP突变分析第一期
基因组相似性计算:ANI
FastANI(https://github.com/ParBLiSS/FastANI)是一个快速计算全基因组ANI的工具,其支持一对一、一对多、多对多基因组之间的两两比较。他将查询序列分割为短序列片段,使用基于MinHash的序列映射引擎Mashmap来计算同源映射并估计一致性。由于它使用了非比对的方法,因此计算速度大幅提升,但准确性与基于blast的方法相差不大。
SYSU星空
2022/05/05
2.3K0
基因组相似性计算:ANI
Python每日一谈|No.26.实例.7-Bioinfor.1-Blast-Python调用
Blast ,全称:Basic Local Alignment Search Tool,“基于局部比对算法的搜索工具”,是生物信息学常用的工具软件,可将输入的核酸或蛋白质序列与数据库中的已知序列进行比对,获得序列相似度等信息,从而判断序列的来源或进化关系。
DrugScience
2021/03/29
1.7K0
Python每日一谈|No.26.实例.7-Bioinfor.1-Blast-Python调用
一文读懂 UniProt 数据库(2023 最新版)
Uniprot (Universal Protein )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics Institute),SIB(the Swiss Institute of Bioinformatics),PIR(Protein Information Resource)三大数据库的资源。
白墨石
2023/02/01
5.1K0
一文学会从测序数据到构建系统发育树:超全面的详细步骤与软件指南
在科研工作里,构建与美化进化树是必须掌握的技能之一。这篇文章汇总和整理了之前的相关内容,依照文章中的脉络,基本上能够在大多数情形下满足构建进化树的需求。本文将从测序数据到构建系统发育树需要经过这4个步骤进行阐述:①数据收集与预处理②多序列比对③选择适合的建树方法④系统发育树的评估与美化。
简说基因
2025/01/22
6080
一文学会从测序数据到构建系统发育树:超全面的详细步骤与软件指南
少即是多:精心构造的小数据也可以产生与大数据相当的洞察力
去年的这个时候,欧密克戎变异体已经成为主要的严重急性呼吸综合征冠状病毒2型(SARS-CoV-2)变异体。
磐创AI
2023/11/03
2020
少即是多:精心构造的小数据也可以产生与大数据相当的洞察力
三大基础公共数据库介绍
美国的国家生物技术信息中心(National Center forBiotechnology Information,NCBI,https://www.ncbi.nlm.nih.gov/)是1988年美国国家健康研究所(National Institutesof Health,NIH)和国家医学图书馆(United StatesNational Library of Medicine,NLM)联合发起成立的分子生物学、生物化学、遗传学知识储备和文献整理平台,并逐步演变为大规模生物医药数据存储、分类与管理,生物分子序列、结构与功能分析,分子生物软件开发、发布与维护,生物医学文献收集与整理,全球范围数据提交与专家注释于一体的世界生物医学信息与技术资源数据库。NCBI采用著名的Entrez搜索和信息检索系统,可以进行在线资源检索,同时构建FTP数据资源下载平台(https://www.ncbi.nlm.nih.gov/guide/all/#downloads),方便用户批量下载数据。
SYSU星空
2022/05/05
7.2K0
三大基础公共数据库介绍
PHASTEST:噬菌体注释工具使用指南
大家好,今天我们来分享一个强大的生物信息学工具——PHASTEST,用于噬菌体注释的在线工具,它可以帮助我们快速识别和分析噬菌体基因。下面,就让我们一起探索PHASTEST的使用方法吧!
用户1075469
2024/11/25
4840
PHASTEST:噬菌体注释工具使用指南
生物信息学软件之网页工具和在线数据库
生物信息学领域有许多在线工具和资源,这些工具提供了各种分析和可视化功能,无需用户进行大量的本地安装和配置。而且绝大部分都是大机构开发和维护,知名度比较好的大机构包括:
生信技能树
2023/11/24
8070
生物信息学软件之网页工具和在线数据库
fasta格式文件介绍与处理
拼接完基因组之后最重要的事就是对拼接结果进行统计,一般很难一次就得到满意的结果。而是需要进行多次拼接,尝试不同的软件,不同的选项参数,得到多个拼接结果。然后从中选择一个合适的结果。这就需要对每个结果进行统计。包括拼接出基因组的大小,条数,最长长度,最短长度等。
生信喵实验柴
2022/05/23
3.8K0
超精华生信ID总结,想踏入生信大门的你-值得拥有
要想成为一名合格的生物信息工程师,首要条件就是能在各大生信数据库中自由翱翔。目前的生信数据库大体可以分为三类:
生信技能树
2018/10/25
6.4K0
超精华生信ID总结,想踏入生信大门的你-值得拥有
宏转录组学习笔记--另一个教程
这项工作已获得Creative Commons Attribution-ShareAlike 4.0 International协议的许可。这意味着您可以复制,共享和修改作品,只要结果以相同的许可证分发即可。本教程由Mobolaji Adeolu(adeolum@mcmaster.ca),John Parkinson(john.parkinson@utoronto.ca)和Xuejian Xiong(xuejian@sickkids.ca)制作。
用户1075469
2020/03/31
3K0
宏转录组学习笔记--另一个教程
KEGG数据库不会下载?了解下API!
KEGG数据库(http://www.kegg.jp/)也即京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes),是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。KEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包含其氨基酸序列、到PDB数据库的链接等。
SYSU星空
2022/05/05
2.1K1
KEGG数据库不会下载?了解下API!
基因家族分析之获取全部cDNA碱基序列构建进化树
现在让我们看第一个教程,以趋化因子基因家族为背景来获取序列进行多序列比对后绘制系统发育树。
生信技能树
2019/10/09
1.7K0
基因家族分析之获取全部cDNA碱基序列构建进化树
如何简单快捷进行SNP分析与可视化
细菌流行病学研究中,SNP数量差异常表征克隆传播,不同细菌对SNP差异的阈值不同,这需要大数据分析来确定。今天给大家介绍的Snipit, 是一款专注于微生物基因组变异检测的工具,特别适用于病原体基因组变异分析。通过比较不同样本之间的单核苷酸多态性(SNPs),Snipit 可以帮助我们追踪病原体的传播路径,识别可能的传播链。此外,Snipit 还广泛应用于比较基因组学、进化生物学、疾病研究和农业生物技术等多个领域。
简说基因
2025/01/07
3270
如何简单快捷进行SNP分析与可视化
推荐阅读
相关推荐
gget:一款强大的基因组参考数据库的高效查询工具
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验