前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >gget,一个能高效进行各式各样网络数据库查询的工具

gget,一个能高效进行各式各样网络数据库查询的工具

作者头像
生信技能树
发布于 2022-06-27 12:49:45
发布于 2022-06-27 12:49:45
1.3K00
代码可运行
举报
文章被收录于专栏:生信技能树生信技能树
运行总次数:0
代码可运行

希望所有的学徒,实习生以及马拉松授课学员都可以在咱们《生信技能树》的舞台上大放异彩。前面有粉丝自告奋勇希望可以把他自己在简书等平台的生物信息学笔记分享在我们《生信技能树》公众号,在专业的舞台上跟大家切磋!非常欢迎,他前面的分享是:

下面继续 :

BLAST、基因富集、序列比对

最近在bioRxiv上发布的一篇文献介绍了gget——能高效进行基因组数据库查询的工具。使用gget能够以命令行的形式查询或下载基因组数据库的相关信息,甚至能进行BLAST、基因富集、序列比对等等操作,再也不用费心去各种网页中一级级辛苦查找啦。下面学习一下其具体使用方法。

文献地址:

Efficient querying of genomic databases for single-cell RNA-seq with gget | bioRxiv

github地址: https://github.com/pachterlab/gget

以下资料参考自gget官方手册:

GitHub - pachterlab/gget_examples: Examples for gget


1. 基本介绍

gget是一个免费的开源命令行工具Python包,支持对基因组数据库的高效查询。gget由一组独立但可互操作的模块组成,每个模块都用于在一行代码中实现一种类型的数据库查询。目前由以下9个模块组成:gget refgget searchgget searchgget infogget seqgget blastgget blatgget musclegget enrichrgget archs4


2. 安装

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install gget
# 或用conda进行安装:
conda install -c bioconda gget
# For use in Jupyter Lab / Google Colab:
import gget

3. 各模块功能与使用示例

① gget ref

  • 从Ensembl中按物种获取参考基因组与注释文件的FTPs地址 。Fetch File Transfer Protocols (FTPs) and metadata for reference genomes and annotations from Ensembl by species.
  • 返回格式: dictionary/json
  • 参数:
  • 使用示例:获取特定版本和特定物种的参考基因组与注释文件的FTP下载地址

# 获取最新的人的所有参考基因组和注释(DNA、cDNA、cds、gtf等)的FTP地址gget ref -s homo_sapiens# 获取特定版本的人的参考基因组与注释的FTP地址gget ref -s homo_sapiens -w gtf dna -r 103


② gget search

  • 从Ensembl中按自由搜索的形式获取基因和转录本信息。Fetch genes and transcripts from Ensembl using free-form search terms.
  • 返回格式:data frame
  • 参数:
  • 使用示例:在Ensembl中搜索关键词 gaba gamma-aminobutyric,获取人的基因相关信息并保存为csv文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget search -sw gaba gamma-aminobutyric -s homo_sapiens  -o results.csv

③ gget info

  • 使用Ensembl id从Ensembl, UniProt和NCBI获取基因或转录本信息。Fetch extensive gene and transcript metadata from Ensembl, UniProt, and NCBI using Ensembl IDs.
  • 返回格式:data frame
  • 参数:
  • 使用示例:根据Ensembl id获取基因信息(-e 参数能获取扩展信息,对于基因添加所有已知转录本的信息,对于转录本添加所有已知翻译和外显子的信息),并保存为csv文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget info -id ENSG00000034713 ENSG00000104853 ENSG00000170296 -e -o results.csv

④ gget seq

  • 分别从Ensembl和UniProt中获取基因或转录本的核苷酸或氨基酸序列。Fetch nucleotide or amino acid sequences of genes or transcripts from Ensembl or UniProt, respectively.
  • 返回格式: FASTA
  • 参数:
  • 使用示例:根据Ensembl id获取基因序列信息,并保存为fa文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget seq -id ENSG00000034713 ENSG00000104853 ENSG00000170296 -o results.fa

⑤ gget blast

  • BLAST一个核苷酸或氨基酸序列到任何BLAST数据库。BLAST a nucleotide or amino acid sequence to any BLAST database.
  • 返回格式:data frame
  • 参数:
  • 使用示例:对特定序列(直接输出或已存进文件)进行BLAST,并保存为csv文件(注意,需要提前用conda安装lxml,否则会报错)

先下载lxml

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
conda install -y lxml
gget blast -seq MKWMFKEDHSLEHRCVESAKIRAKYPDRVPVIVEKVSGSQIVDIDKRKYLVPSDITVAQFMWIIRKRIQLPSEKAIFLFVDKTVPQSR -o results.csv

用fa或txt文件进行BLAST

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget blast -seq fasta.fa -o results.csv

⑥ gget blat

  • 使用BLAT找出核苷酸或氨基酸序列的基因组位置。Find the genomic location of a nucleotide or amino acid sequence using BLAT.
  • 返回格式:data frame
  • 参数:
  • 使用示例:搜索斑马鱼中特定氨基酸序列所在的基因组位置,并保存为csv文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget blat -seq MKWMFKEDHSLEHRCVESAKIRAKYPDRVPVIVEKVSGSQIVDIDKRKYLVPSDITVAQFMWIIRKRIQLPSEKAIFLFVDKTVPQSR -a taeGut2 -o results.csv

⑦ gget muscle

  • 使用Muscle5将多个核苷酸或氨基酸序列进行序列比对。Align multiple nucleotide or amino acid sequences to each other using Muscle5.
  • 返回格式:ClustalW formatted standard out or aligned FASTA.
  • 参数:
  • 使用示例:对fasta.fa文件中多条核苷酸序列进行比对,并保存为afa文件(一般还是使用软件比较方便,因此就没尝试了哈)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget muscle -fa fasta.fa -o results.afa

⑧ gget enrichr

  • 使用Enrichr对基因列表进行富集分析。Perform an enrichment analysis on a list of genes using Enrichr.
  • 返回格式:data frame
  • 参数:
  • 使用示例:对基因ACE2 AGT AGTR1进行GO富集分析,保存为csv文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gget enrichr -g ACE2 AGT AGTR1 -db ontology -o rich.csv

⑨ gget archs4

  • 使用ARCHS4查找与感兴趣基因最相关的基因,或者查找该基因的组织表达图谱。Find the most correlated genes to a gene of interest or find the gene's tissue expression atlas using ARCHS4.
  • 返回格式:data frame
  • 参数:
  • 使用示例:查找与基因ACE2最相关的基因、查找ACE2的组织表达图谱,保存为csv文件
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
查找与基因ACE2最相关的基因
gget archs4 -g ACE2  -o  ACE2.csv
查找基因ACE2的组织表达图谱
gget archs4 -g ACE2 -w tissue  -o  ACE2_tissue.csv

通过以上学习实践可以发现,gget整合了我们常用的查询基因组数据库的各项功能,能够以简单易学的命令行形式进行多种多样的操作,对于熟悉命令行操作的使用人员可以说是很棒的一个辅助工具了。

最后感谢生信技能树Jimmy老师,让我了解学习到了gget工具的使用( ̄▽ ̄)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
gget:一款强大的基因组参考数据库的高效查询工具
开源 Python 和命令行程序 gget 可以高效、轻松地以编程方式访问存储在各种大型公共基因组参考数据库中的信息。 gget 与可获取用户生成的测序数据的现有工具一起使用 ,以取代在基因组数据分析过程中效率低下、可能容易出错的手动网络查询。虽然 gget 模块的灵感来自于繁琐的单细胞 RNA-seq 数据分析任务),但我们预计它们可用于广泛的生物信息学任务。
毅硕科技
2023/01/06
6200
gget:一款强大的基因组参考数据库的高效查询工具
手把手学习TCGA数据库:SNP突变分析第一期
SNP(single nucleotide polymorphism),单核苷酸多态性,在基因组上由单个核苷酸变异形成的遗传标记,一般指变异频率大于1%的单核苷酸变异。
百味科研芝士
2019/06/17
9K0
手把手学习TCGA数据库:SNP突变分析第一期
10X Genomics单细胞免疫组库VDJ分析必知必会
我们生活着的世界并非只有我们自己,而是有很多小于或大于我们的生物不断与我们交互着,有的让我们开心,有的使我们伤心。这就关系到一个本质的问题:
生信技能树jimmy
2020/05/29
7.7K0
10X Genomics单细胞免疫组库VDJ分析必知必会
手把手学习TCGA数据库:SNP突变分析第二期
各位芝士的朋友好,今天我们继续聊我们的SNP话题,前面两讲我们分享了SNP发生的位置,发生的类型以及SNP的命名,并且特意提到了SNP的两个数据库,今天我们来学习一下这两个数据库的使用。
百味科研芝士
2019/06/17
4.4K0
手把手学习TCGA数据库:SNP突变分析第二期
tcR包:T细胞受体和免疫球蛋白数据进行高级分析和可视化(一)
免疫球蛋白(IG)和T细胞受体(TR)在适应性免疫应答过程中起着关键的抗原识别作用。今天小编为大家介绍一款分析T细胞受体库的R包:tcR包,可以对TR序列进行多样性评估、共享T细胞受体序列识别、基因usage统计计算等。
作图丫
2022/03/29
2.6K0
tcR包:T细胞受体和免疫球蛋白数据进行高级分析和可视化(一)
tcR包:T细胞受体和免疫球蛋白数据进行高级分析和可视化(二)
免疫球蛋白(IG)和T细胞受体(TR)在适应性免疫应答过程中起着关键的抗原识别作用。上一次我们介绍到tcR包:T细胞受体和免疫球蛋白数据进行高级分析和可视化(一)。今天小编继续为大家介绍分析T细胞受体库的R包:tcR包,可以对TR序列进行多样性评估、共享T细胞受体序列识别、基因usage统计计算等。
作图丫
2022/03/29
3.3K0
tcR包:T细胞受体和免疫球蛋白数据进行高级分析和可视化(二)
KEGG数据库不会下载?了解下API!
KEGG数据库(http://www.kegg.jp/)也即京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes),是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。KEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包含其氨基酸序列、到PDB数据库的链接等。
SYSU星空
2022/05/05
2.2K1
KEGG数据库不会下载?了解下API!
一文学会从测序数据到构建系统发育树:超全面的详细步骤与软件指南
在科研工作里,构建与美化进化树是必须掌握的技能之一。这篇文章汇总和整理了之前的相关内容,依照文章中的脉络,基本上能够在大多数情形下满足构建进化树的需求。本文将从测序数据到构建系统发育树需要经过这4个步骤进行阐述:①数据收集与预处理②多序列比对③选择适合的建树方法④系统发育树的评估与美化。
简说基因
2025/01/22
6530
一文学会从测序数据到构建系统发育树:超全面的详细步骤与软件指南
如何简单快捷进行SNP分析与可视化
细菌流行病学研究中,SNP数量差异常表征克隆传播,不同细菌对SNP差异的阈值不同,这需要大数据分析来确定。今天给大家介绍的Snipit, 是一款专注于微生物基因组变异检测的工具,特别适用于病原体基因组变异分析。通过比较不同样本之间的单核苷酸多态性(SNPs),Snipit 可以帮助我们追踪病原体的传播路径,识别可能的传播链。此外,Snipit 还广泛应用于比较基因组学、进化生物学、疾病研究和农业生物技术等多个领域。
简说基因
2025/01/07
3470
如何简单快捷进行SNP分析与可视化
vcf2maf—从VCF到MAF,解锁基因突变的秘密
vcf2maf 是由 Cyriac Kandoth 主导开发的一款用于将 VCF (Variant Call Format) 文件转换为 MAF (Mutation Annotation Format) 文件的生信分析工具。广泛应用于癌症基因组研究中的变异数据处理,其具有以下特性:
生信菜鸟团
2024/06/12
2.2K0
vcf2maf—从VCF到MAF,解锁基因突变的秘密
VEP — 高效的变异注释工具
Ensembl Variant Effect Predictor (VEP) 是由欧洲生物信息研究所(European Bioinformatics Institute, EMBL-EBI)开发的一个高效的基因变异注释工具。VEP是一个强大的工具,其具有以下特性:
生信菜鸟团
2024/04/11
2K0
VEP — 高效的变异注释工具
少即是多:精心构造的小数据也可以产生与大数据相当的洞察力
去年的这个时候,欧密克戎变异体已经成为主要的严重急性呼吸综合征冠状病毒2型(SARS-CoV-2)变异体。
磐创AI
2023/11/03
2040
少即是多:精心构造的小数据也可以产生与大数据相当的洞察力
生物信息学软件之网页工具和在线数据库
生物信息学领域有许多在线工具和资源,这些工具提供了各种分析和可视化功能,无需用户进行大量的本地安装和配置。而且绝大部分都是大机构开发和维护,知名度比较好的大机构包括:
生信技能树
2023/11/24
8210
生物信息学软件之网页工具和在线数据库
新冠病毒的基因序列分析(3):文章分析重现part1
经过上一期的文章的介绍,我们了解了新冠病毒和SRAS病毒还有其它病毒的相似性。我们对新冠病毒的认识又有了进一步的认识。下面我们就尝试对一些已经发表的文章,进行一些分析重现。
生信菜鸟团
2020/05/26
2.1K0
基因组相似性计算:ANI
FastANI(https://github.com/ParBLiSS/FastANI)是一个快速计算全基因组ANI的工具,其支持一对一、一对多、多对多基因组之间的两两比较。他将查询序列分割为短序列片段,使用基于MinHash的序列映射引擎Mashmap来计算同源映射并估计一致性。由于它使用了非比对的方法,因此计算速度大幅提升,但准确性与基于blast的方法相差不大。
SYSU星空
2022/05/05
2.3K0
基因组相似性计算:ANI
真核生物基因预测
真核生物的开放阅读框不仅含有编码蛋白的外显子,而且还有内含子,并且内含子将开放阅读框分割为若干个小片段。开放阅读框的长度变化范围非常大,因此真核生物的基因预测远比原核生物困难。但是,在真核生物的开放阅读框中,外显子与内含子之间的连接绝大部分情况下满足 GT-AG 规律:即内含子序列 5' 端的起始两个核苷酸总是 GT,并且其 3'端的最后两个核苷酸总是 AG,即:5'-GT ……AG-3',这个规律有助于真核生物开放阅读框的识别。因此真核生物的预测基因更加复杂。常用的软件包括 augustus,snap,GlimmerHMM,GENSCAN,genemarks 等工具。
生信喵实验柴
2022/10/25
8280
PHASTEST:噬菌体注释工具使用指南
大家好,今天我们来分享一个强大的生物信息学工具——PHASTEST,用于噬菌体注释的在线工具,它可以帮助我们快速识别和分析噬菌体基因。下面,就让我们一起探索PHASTEST的使用方法吧!
用户1075469
2024/11/25
5140
PHASTEST:噬菌体注释工具使用指南
一文读懂 UniProt 数据库(2023 最新版)
Uniprot (Universal Protein )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics Institute),SIB(the Swiss Institute of Bioinformatics),PIR(Protein Information Resource)三大数据库的资源。
白墨石
2023/02/01
5.1K0
完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析
如何找到somatic的突变信息的maf文件,仍然是从UCSC的XENA浏览器里面选择NSCLC的里面的LUAD数据集即可,这个是网页里面的鼠标点击操作。值得注意的是网页里面关于同一个癌症有两个跳转链接哦(其中一个带有GDC的前缀):
生信技能树
2023/12/28
3850
完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析
基因家族分析之获取全部cDNA碱基序列构建进化树
现在让我们看第一个教程,以趋化因子基因家族为背景来获取序列进行多序列比对后绘制系统发育树。
生信技能树
2019/10/09
1.7K0
基因家族分析之获取全部cDNA碱基序列构建进化树
推荐阅读
相关推荐
gget:一款强大的基因组参考数据库的高效查询工具
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验