今天给大家介绍一款新鲜出炉的基准测试类文章,于2025年1月发表在预印本biorxiv上,标题为:《Benchmarking of automated cancer cell annotation methods for scRNA-seq data reveals Consensus annotation as the preferred method》。
这篇文献的核心内容是关于 scRNA-seq 数据中癌细胞注释方法的基准测试研究。研究比较了基于参考数据(Reference-based)和基于拷贝数变异(CNV-based)的两种主要癌细胞注释方法,并提出了一种新的共识注释(Consensus annotation)方法,该方法结合了前两种方法的优势,能够更准确地识别肿瘤细胞。
Benchmarking pipeline
传统的手动注释方法依赖于先验知识和标记基因,存在主观性和不完整性。自动化的分类器方法虽然更一致和可扩展,但在癌症研究中区分复杂的肿瘤微环境方面存在挑战。
研究使用了20个癌症scRNA-seq数据集,涵盖9种癌症类型,共379个样本
主要使用精确度(Precision)作为评估指标,即正确注释为肿瘤细胞的真正肿瘤细胞与被错误注释为肿瘤细胞的正常细胞的比例。
散点图展示了在9种癌症类型中,基于参考数据的方法和基于CNV的方法的精确度评分。图中的每个点代表一个患者样本,位于上三角区域的点越多,表示基于参考数据的方法性能越高;而位于下三角区域的点越多,则表示基于CNV的方法性能越高。
性能差异:不同癌症类型中,两种主要方法的性能表现不同。例如,在头颈癌、乳腺癌、结直肠癌、肺癌和肾癌中,基于参考数据的方法表现更好;而在胰腺癌和肝癌中,基于拷贝数变异的方法表现更好。
Fig.2
共识注释方法在所有癌症类型中都表现出了最高的精确度,能够有效减少假阳性注释,同时准确区分正常上皮细胞和恶性上皮细胞。
CNV分析验证:共识注释方法识别的肿瘤细胞具有明确的CNV特征,与正常上皮细胞的二倍体CNV特征形成对比。这进一步证明了共识注释方法的有效性。
该代码可在GitLab上的MACE R包中获取:https://gitlab.com/genmab-public/mace/