介绍
本文介绍了如何使用 Sentieon LongReads SV 从 PacBio HiFi 和 Oxford Nanopore 长读数中调用结构变异 (SV)。精确的长读数测序技术能够准确发现以前用短读数方法无法发现的大型 SV 事件。Sentieon LongReads SV 能够利用更长的读数长度,对 PacBio HiFi 和 Oxford Nanopore 长读数输入的大型 SV 事件进行快速准确的检测和基因分型。Sentieon LongReads SV 将已比对的 BAM 或 CRAM 文件作为输入,并以 VCF 格式输出变体。我们建议使用 Sentieon 的加速 Minimap2 和排序功能来执行高效准确的配准。目前,Sentieon LongReads SV 可检测大型 INDEL 事件并对其进行基因分型,同时输出高置信度共识 INDEL 碱基序列。未来版本将增加对其他 SV 事件类型的支持。如果您有任何其他问题,请联系 Sentieon 公司的技术支持,电子邮件:support@sentieon.com。
使用LongReads SV
要运行Sentieon LongReads SV,请运行以下命令:
sentieon driver -t NUMBER_THREADS -r REFERENCE -i INPUT_BAM \ --algo LongReadSV [--min_sv_size MIN_SV_SIZE] [--min_map_qual MIN_MAP_QUAL]\--model MODEL OUT_SV_VCF
运行该命令需要以下参数:
-t NUMBER_THREADS:计算过程中使用的计算机线程数。建议不超过系统中可用的计算核心数量。
-r REFERENCE:参考FASTA文件的位置。请确保参考文件与映射阶段使用的文件相同。
-i INPUT_BAM:输入比对文件应为经minimap2或pbmm2对PacBio HiFi或Oxford Nanopore读段进行比对的索引化BAM或CRAM文件。
--model MODEL:包含PacBio HiFi或Oxford Nanopore长读段编码预设配置的输入模型文件。您需要选择与输入比对文件平台相匹配的模型文件。请参考Sentieon的GitHub页面: https://github.com/Sentieon/sentieon-models下载最新的SV模型。
命令需要以下位置参数:
OUT_SV_VCF:带有.vcf或.vcf.gz扩展名的SV调用输出的位置和文件名。将创建相应的索引文件。该工具将为.gz扩展名的文件输出压缩文件。
以下参数为该命令的可选参数:
--min_sv_size MIN_SV_SIZE:输出的最小SV大小(以碱基对为单位)(默认值:40)
--min_map_qual MIN_MAP_QUAL:最小读段比对质量(默认值:20)
评估LongReads SV结果
Sentieon推荐使用Sentieon hap-eval来准确评估和比较基于组装单倍体的SV调用结果。Hap-eval是一个用于结构变异基准测试的开源VCF比较引擎。可以在https://github.com/Sentieon/hap-eval上下载该工具。
领取专属 10元无门槛券
私享最新 技术干货