Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >脚本分享—gbk文件中提取核苷酸序列以及注释信息

脚本分享—gbk文件中提取核苷酸序列以及注释信息

作者头像
用户1075469
发布于 2025-05-10 02:38:21
发布于 2025-05-10 02:38:21
7700
代码可运行
举报
文章被收录于专栏:科技记者科技记者
运行总次数:0
代码可运行

脚本简介

  • 提取特定类型的基因功能元件序列 脚本可从 GBK 格式的注释文件中提取三类常见的功能元件序列:
    • CDS(编码序列)
    • rRNA(核糖体RNA)
    • tRNA(转运RNA)
  • 自动读取并解析 GenBank 格式文件 使用 Biopython 库的 SeqIO 模块读取 GBK 文件,自动解析注释信息和序列内容,确保提取位置准确。
  • 构建带注释信息的 FASTA 格式输出 提取的每条序列会以 FASTA 格式输出,标题中包含 feature 的 locus_tagproduct 注释,便于后续分析和追踪来源。
  • 可灵活用于多种基因组注释处理场景 脚本适用于细菌、病毒、原核和部分真核生物的注释信息提取,广泛用于功能基因挖掘、rRNA/tRNA 分析、下游功能注释等生物信息学流程中。

安装biopython模块:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 使用pip安装
pip install biopython
# 使用conda安装
conda install -c bioconda biopython

查看脚本帮助文档:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
python Gbk_extea_nucleotide.py -h

脚本使用方法:

1)脚本准备文件如下图所示

图片
图片

2)注意事项

  • 若 GBK 文件中不包含完整的基因组序列(如部分注释文件),可通过参数 -f 提供一个对应的基因组 FASTA 文件,脚本会从中提取 feature 对应的核酸序列;
  • 程序依赖于biopython模块,需要提前安装好;

实战演习

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 提取CDS序列以及注释信息
python Gbk_extea_nucleotide.py -g NC_000913.gbk -t CDS -o NC_000913_cds.fnn
# 提取rRNA序列以及注释信息
python Gbk_extea_nucleotide.py -g NC_000913.gbk -t rRNA -o NC_000913_rRNA.fnn
# 提取tRNA序列以及注释信息
python Gbk_extea_nucleotide.py -g NC_000913.gbk -t tRNA -o NC_000913_tRNA.fnn

结果展示

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
脚本分享—gbk文件中提取蛋白质序列以及注释信息
本脚本用于从 GenBank(GBK)格式文件中提取蛋白质序列,并将结果输出为 FASTA 格式文件。主要功能包括:
用户1075469
2025/05/09
750
脚本分享—gbk文件中提取蛋白质序列以及注释信息
脚本分享—根据序列ID从fasta文件提取特定的序列
hello,hello!小伙伴们大家好,我是小编豆豆,今天小编继续来给小伙伴们分享免费好用的脚本。之前有公司将小编以前开发拿来贩卖,为了杜绝万恶的资本家
用户1075469
2025/05/21
500
脚本分享—根据序列ID从fasta文件提取特定的序列
脚本分享—从fasta格式文件中批量提取特定位置的序列
这个脚本主要用于从FASTA格式文件中批量提取指定位置的序列,可以应用在很多不同场景,比如:
用户1075469
2025/04/30
1030
脚本分享—从fasta格式文件中批量提取特定位置的序列
生物信息中的Python 05 | 从 Genbank 文件中提取 CDS 等其他特征序列
在基因结构分析或其他生物功能分析中会时常用到 CDS 序列,以及其他诸如 mRNA 序列,misc RNA序列等具有生物意义的序列片段。而NCBI 的基因库中已经包含有这些的信息,但是只有一部分是整理可下载的。而剩下的一部分可以通过 genbank给出的位点信息来提取,个人能力有限,这里只做抛转之用。下面以提取 CDS 为例,记录提取序列过程,其他特征序列类似。
白墨石
2021/01/13
5.1K0
生物信息中的Python 05 | 从 Genbank 文件中提取 CDS 等其他特征序列
mVISTA:在线程序展示叶绿体基因组相似性小实例
叶绿体基因组类的文章通常会有一幅图来展示叶绿体基因组的相似性(Sequence identity plot),出图的工具是mVISTA:mVISTA分为本地版和在线版两种。本文简要介绍使用在线版mVISTA获得Sequence identity plot的步骤。
用户7010445
2020/03/03
8.1K1
生物信息中的Python 02 | 用biopython解析序列
上一篇文章生物信息中的Python 01 | 从零开始处理基因序列自己造轮子实现了序列的基础操作,但是在Python的世界里,一项工作只要重复的次数多了,那么一定就会有大神来开发相应的包来解决,这个包名就是 Biopython 。接下来我们试着使用它来实现简单的序列处理。
白墨石
2021/01/13
1.9K0
生物信息中的Python 02 | 用biopython解析序列
gb格式注释文件转换成gff3注释文件格式
今天在NCBI下载了酵母的参考基因组,没有找到gff格式的基因组注释文件,只找到了genbank格式的基因组注释文件。应该会有现成的工具来实现常用的基因组注释文件不同格式之间的相互转换。比如gtf、gff、和genbank之间的相互转换。
用户7010445
2020/07/17
7.5K0
Python 自动化提取基因的 CDS
Python 开发环境:搭建 Python 高效开发环境: Pycharm + Anaconda
白墨石
2021/01/12
1.6K0
脚本分享—从GeneBank数据库批量下载序列
hello,hello!小伙伴们大家好,我是小编豆豆,好久没有给大家分享使用的脚本了,最近小编在一直在忙着16s整理数据库,需要下载大量物种的16s rRNA序列。
用户1075469
2024/03/26
7812
脚本分享—从GeneBank数据库批量下载序列
宏转录组学习笔记--另一个教程
这项工作已获得Creative Commons Attribution-ShareAlike 4.0 International协议的许可。这意味着您可以复制,共享和修改作品,只要结果以相同的许可证分发即可。本教程由Mobolaji Adeolu(adeolum@mcmaster.ca),John Parkinson(john.parkinson@utoronto.ca)和Xuejian Xiong(xuejian@sickkids.ca)制作。
用户1075469
2020/03/31
3.1K0
宏转录组学习笔记--另一个教程
基因组注释服务-完美解决gff文件缺失的难题
有了gff注释文件就可以愉快的开展各种组学的生信分析项目了,当然也可以愉快的进行数据库的挖掘从而降低同质化减少内卷。
R语言数据分析指南
2023/09/11
8060
基因组注释服务-完美解决gff文件缺失的难题
python脚本提取叶绿体基因组的大小单拷贝区、反向重复区
叶绿体基因组类的文章通常是我们自己做几个,然后结合已经发表的数据做分析。已经公布在NCBI的叶绿体基因组中通常没有反向重复区的信息。这个时候就需要我们自己重新注释。注释用到的是在线工具GeSeq https://chlorobox.mpimp-golm.mpg.de/geseq.html
用户7010445
2020/03/03
2K0
基因组注释服务-完美解决gff文件缺失的难题(火热进行中)
有了gff注释文件就可以愉快的开展各种组学的生信分析项目了,当然也可以愉快的进行数据库的挖掘从而降低同质化减少内卷。
R语言数据分析指南
2023/09/27
5581
基因组注释服务-完美解决gff文件缺失的难题(火热进行中)
使用biopython可视化染色体和基因元件
基因组结构元件的可视化有多种方式,比如IGV等基因组浏览器中以track为单位的展示形式,亦或以circos为代表的圈图形式,比如在细胞器基因组组装中,基因元件常用圈图形式展示,示例如下
生信修炼手册
2021/01/11
1.1K0
使用biopython可视化染色体和基因元件
如何快速从基因组中提取基因、转录本、蛋白、启动子、非编码序列?
NGS基础 - GTF/GFF文件格式解读和转换这篇文章有读者留言想要提取外显子,内含子,启动子,基因体,非编码区,编码区,TSS上游1500,TSS下游500的序列。下面我们就来示范如何提取这些序列。
生信宝典
2022/01/18
5.5K0
解锁生物信息学必备!核心数据库使用指南
生物信息学研究离不开数据支撑,这些数据库能让你事半功倍! 本文详解常用数据库的检索下载技巧,并提供可直接复用的代码模板。
天意生信云
2025/02/08
3320
解锁生物信息学必备!核心数据库使用指南
gget,一个能高效进行各式各样网络数据库查询的工具
希望所有的学徒,实习生以及马拉松授课学员都可以在咱们《生信技能树》的舞台上大放异彩。前面有粉丝自告奋勇希望可以把他自己在简书等平台的生物信息学笔记分享在我们《生信技能树》公众号,在专业的舞台上跟大家切磋!非常欢迎,他前面的分享是:
生信技能树
2022/06/27
1.3K0
gget,一个能高效进行各式各样网络数据库查询的工具
脚本分享——对fasta文件中的序列进行排序和重命名
hello,hello! 小伙伴们大家下午好,我是小编豆豆,时光飞逝,不知不觉来南京工作已经一年了,从2018年参加工作至今,今年是我工作最快乐的一年,遇到一群志同道合的小伙伴,使我感觉太美好了。
用户1075469
2023/01/11
6.1K1
RNA-seq 保姆教程:差异表达分析(一)
RNA-seq 目前是测量细胞反应的最突出的方法之一。RNA-seq 不仅能够分析样本之间基因表达的差异,还可以发现新的亚型并分析 SNP 变异。本教程[1]将涵盖处理和分析差异基因表达数据的基本工作流程,旨在提供设置环境和运行比对工具的通用方法。请注意,它并不适用于所有类型的分析,比对工具也不适用于所有分析。此外,本教程的重点是给出一般的分析流程。对于更大规模的研究,强烈建议使用集群来增加内存和计算能力。
数据科学工厂
2023/02/27
1.9K0
RNA-seq 保姆教程:差异表达分析(一)
非模式生物构建10x单细胞转录组CellRanger参考文件
10X单细胞上游定量标准流程运行Cellranger定量需要对应的参考基因组文件以及其配套的基因组注释信息文件,如果是人类和小鼠,官网即可下载构建好的文件压缩包,详见:https://www.10xgenomics.com/support/software/cell-ranger/downloads#reference-downloads
生信技能树
2024/04/19
6200
非模式生物构建10x单细胞转录组CellRanger参考文件
推荐阅读
相关推荐
脚本分享—gbk文件中提取蛋白质序列以及注释信息
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验