端午节安康
覆盖度(Coverage)这一概念最早是由现代计算机之父艾伦·图灵和他同事Good在二战期间为密码分析而提出的。
它是样本完整性的度量,计算群落中所有个体属于某样本中物种的比例。
举个例子,假设一个群落有50个种,种1相对丰度0.3,种2相对丰度0.1,种3-5相对丰度0.05,剩余45个物种相对丰度0.01。从中有放回的抽取20个个体,得到了丰度最高的12个种。那么覆盖度为0.3+0.1+0.05*3+0.01*7= 62%。
但是在实际应用中,必须从数据中估计样本的覆盖度。这就需要提前知道群落中所有物种的真正相对丰度。
不过研究表明只要样本相当大,仅使用样本本身包含的信息就可以非常准确和有效地估计样本覆盖度。
对于给定的大小为n的原始样本,通常使用的样本覆盖度估计量为1 -f1/n,其中f1为singleton的数量(即物种在样本中仅有一个个体)。
这个估计值最初也是由图灵及其同事Good提出来的。Robbins在1968年证明了图灵估计量的平均平方差小于1/n。如果n很大,这个结果就是相当准确的。
目前扩增子测序分析中的所谓goods coverage就是这个结果。
Chao等人于2010年提出了一种更好的覆盖度估计量,用f1和f2(doubleton)来计算。其结果比上面提高的图灵估计量有更小的平均平方差。
我自己测试了一下,对于测序量约2万的样本,两种计算方法的结果基本相同,差异只存在于小数点后六位。所以用图灵估计量就足够了。
Reference:
Anne Chao and Lou Jost. Coverage-based rarefaction and extrapolation: standardizing samples by completeness rather than size. Ecology,93(12), 2012, pp. 2533–2547.