前言:最近几年推出了不少新的ASV相关算法,本文也是其中一个。我没有测试过,具体使用问题别问我。
摘要:
最近几年开发的去噪方法能够处理扩增子数据的单核苷酸变异,但因为它们忽略了测序质量信息,它们仍然遗漏了低丰度序列,特别是那些接近更高频率的序列。
本研究开发了AmpliCI,一种无参考的基于模型的方法,用于快速解析大量Illumina扩增子数据集中的无错误序列的数目和丰度。AmpliCI考虑质量信息,并通过数据,而不是任意的阈值或外部参考数据库来驱动结论。AmpliCI估计了一个有限混合模型,使用贪婪算法逐步选择无错误序列和近似最大化的可能。AmpliCI的性能优于三种常用的去噪方法,计算时间和内存使用量均可接受。
Code: https://github.com/DormanLab/AmpliCI
OTUs是有问题的实体,缺乏生物和物理上的可解释性。它们只是大致近似的生物种、属或更高分类,并不能代表样本中真实的、无错误的序列。因此,基于OTUs的方法容易出现假阳性和假阴性,缺失真实的生物序列变异,如单核苷酸多态性。97%的经验阈值未能实现属级或种级分辨率。
研究已经发现了有超过16S rRNA 97%相似度的不同物种;和16S rRNA局部差异超过3%的菌株。
de novo单核苷酸分辨率的去噪方法努力识别样本中的所有独特序列,但这种去噪方法没有对分类学进行生物学判断,只是简单地去除或纠正序列错误,有时还会纠正PCR错误。去噪后的序列被称为扩增子序列变异(ASVs),sub-OTUs或zero-radius OTUs。它们更高的分辨率、更低的假阳性率和更大的样本间一致性使去噪方法成为生物标志物基因分析的推荐工具。
目前有三种广泛使用的去噪方法。UNOISE3和Deblur忽略质量信息,在错误率保守的情况下贪婪选择真实序列。DADA2使用基于概率误差模型的贪婪、分层分裂聚类算法,同时考虑平均质量评分信息。只有DADA2从数据中推断出错率,这是一个潜在的优势,因为实验条件会影响错误情况。
新开发的AmpliCI的统计模型是一个有限混合模型,为了计算的可行性,使用近似的贪婪模式最大化。和DADA2一样,AmpliCI也使用了一种模型来处理测序错误,但是它保留了更高的分辨率,因为它没有平均相同序列的质量分数。AmpliCI同时考虑了碱基的替换误差和indel误差,直接从样本中估计替换误差参数。在模拟、mock和真实数据集上测试该方法。AmpliCI比目前的算法表现出更好的性能,特别是在高度相关的序列上实现了更高的精度。
AmpliCI基本过程。方法部分略过。。都是公式
结果
对于模拟数据,从准确性上看,AmpliCI > UNOISE3 > DADA2 > Deblur > UPARSE。
对于Mock community, AmpliCI最优,DADA2次之,Deblur最差。
对于阴道样本,AmpliCI和Deblur最接近,然后是UNOISE3,DADA2。
注意不同数据得到的结论并不一致。
运行时间和内存也能接受