在计算生物学和生物信息学领域,机器学习技术正迅速改变着我们对生物系统的研究方式。然而,随着模型复杂度的增加,如何解释这些模型的行为并从中提取生物学意义,成为了一个亟待解决的问题。
最近,卡内基梅隆大学的Jian Ma和Ameet Talwalkar团队在《Nature Methods》杂志上发表了一篇题为“Applying interpretable machine learning in computational biology—pitfalls, recommendations and opportunities for new developments”的综述文章,为我们提供了关于可解释机器学习(IML)在计算生物学中应用的全面视角。
机器学习模型,尤其是深度学习模型,因其强大的预测能力而被广泛应用于计算生物学,例如基因表达预测、蛋白质相互作用分析和生物医学图像处理等。然而,这些模型通常被视为“黑箱”,难以理解其决策过程。
可解释机器学习的出现,旨在通过解释模型的预测结果,帮助研究人员验证模型是否真正反映了生物学机制,从而为生物学研究提供更可靠的工具。
文章介绍了两类主要的IML方法:事后解释(Post hoc explanations) 和设计时解释(By-design explanations) 。
文章中介绍了两类主要的评估IML方法的指标:忠实度(Faithfulness)和 稳定性(Stability)。
忠实度(Faithfulness)
定义: 忠实度是评估IML方法生成的解释与底层机器学习模型真实机制之间一致性的度量。它反映了解释在多大程度上准确地揭示了模型的决策过程。
评估方法:
应用场景: 在计算生物学中,例如在分析转录因子结合位点的预测模型时,忠实度评估可以帮助研究人员确定IML方法是否能够准确识别出影响转录因子结合的关键序列模式。
稳定性(Stability)
定义: 稳定性是衡量IML方法生成的解释在面对输入数据的小扰动时的一致性。它回答了“对于相似的输入,解释是否一致?”的问题。
评估方法:
应用场景: 在细胞图像分类任务中,稳定性评估可以帮助研究人员确定IML方法是否能够一致地识别出与细胞表型相关的图像特征,即使在图像存在轻微噪声或变化的情况下。
IML方法在计算生物学中的应用非常广泛,涵盖了从DNA、RNA和蛋白质序列分析到生物医学图像处理的多个领域。例如,通过分析基因表达数据,IML可以帮助识别关键生物标志物;在序列分析中,IML能够揭示调控基因表达的重要序列模式;在图像分析中,IML可以突出显示细胞图像中与特定表型相关的区域。
然而,文章也指出了当前IML应用中常见的三个陷阱:
随着大语言模型(LLMs)在计算生物学中的应用不断增加,如何解释这些复杂模型的行为成为了一个新的挑战。文章提出了几个发展方向:
可解释机器学习在计算生物学中的应用前景广阔,但也面临着诸多挑战。文章不仅为我们提供了IML方法的全面概述,还指出了当前应用中的常见问题,并提出了未来发展的方向。对于计算生物学和生物信息学的研究人员来说,这篇文章无疑是一个宝贵的资源,它提醒我们在追求模型预测能力的同时,不要忽视对模型行为的深入理解和解释。 在这个快速发展的领域,我们期待更多的研究能够填补IML方法与生物学应用之间的差距,从而推动计算生物学迈向一个新的高度。
Chen, Valerie, et al. "Applying interpretable machine learning in computational biology—pitfalls, recommendations and opportunities for new developments." Nature methods 21.8 (2024): 1454-1461.