首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

脚本分享—快速统计基因组组装结果

我们小编欢乐豆有个压箱底的 perl 脚本,由于编程语言"洁癖",想要彻底抛弃 perl 语言转向 python,于是他使用 AI 辅助下进行了转换,由于脚本相对简单,转换竟然就成功了。...安装python模块 # 使用pip安装 pip install biopython 查看脚本参数 python N50Stat.py -h usage: N50Stat.py [-h] -i INPUT_FILE...函数: calc_n50(seq_lengths, percentile):计算给定序列长度列表和指定百分位数的 N50 长度。calc_median(arr):计算给定列表的中位数。...例如,要运行脚本:python script_name.py -i input.fasta -o output_statistics.txt此脚本计算各种统计信息,如总序列数、总碱基数、最小和最大序列长度...、平均和中位数序列长度,以及 N25、N50、N75、N90、N95 长度。

16410

测序数据拼接,首先需要了解这些概念!

,scaffold N50达到20Kb,单碱基错误率在十万分之一以下,一般采用小片段文库使用二代测序Hiseq完成。...精细图:指经生物信息学分析后,拼接得到的基因组覆盖度大于98%,基因区覆盖度达到99%以上,contig N50达到20Kb,scaffold N50达到300Kb,单碱基错误率低于十万分之一,gap数不超过...基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold,如下图所示: N50:Reads拼接后会获得一些不同长度的Contigs。...将Contigs按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50,可以作为基因组拼接的结果好坏的一个判断标准。...此概念很容易被误认为所有Contigs长度排名第50的序列长度,与之类似的有N90,N50与N90同样适用于Scaffolds。

1.4K20

生信工具 | 宏基因组测序数据的基因组组装方法基准测试

该基准测试涉及比较基本的contig统计信息,包括总组装长度(AL),基因组分数(GF),contig N50,NA50,归一化NGA50,错配和错误组装。...19种宏基因组组装工具的基准测试数据和工作流程 基准测试表明:长读长组装工具生成了高contig N50,但未能揭示一些中等和高质量的MAGs。...3)linked-read组装工具的contig N50显著高于短读长组装工具。...4)Athena在来自人类肠道微生物组的数据集中表现出比cloudSPAdes更高的contig N50,并且在所有组装器中生成了最高的#NC。...5)长读长组装工具表现出较高的contig N50,但生成的#MQ和#HQ较短读长和linked-read组装工具要小。 6)MetaFlye、Canu和Lathe比其他长读长组装工具表现更好。

56850

Pyfastx:一个快速随机读取基因组数据的Python模块

今天介绍一个同门师兄开发的 Python 模块:pyfastx,用于快速随机访问基因组序列文件。作品发表在生信顶刊上,必须强行安利一波。...Pyfastx: a robust python module for fast random access to sequences from plain and gzipped FASTA/Q file...一个接口同时满足 FASTA/Q 文件读写需求 轻量级、内存节约 随机访问压缩的 FASTA/Q 文件 逐条迭代读取 FASTA 文件 计算 FASTA 文件的 N50 和 L50 计算序列的 GC 含量和核酸组成...Fasta 文件类 Fastq 类,封装好的 Fastq 文件类 Sequence 类,提供 Fasta 记录的常用操作 Read 类,提供 Fastq 记录的常用操作 安装 目前,pyfastx 支持 Python...seq.name) >>> print(seq.seq) >>> print(seq.description) FASTA 类 FASTA 对象有许多属性和方法可供使用,如计算 GC 含量、计算 N50

1.7K40
领券