目前,迫切需要找到治疗新型冠状病毒疾病(COVID-19)的有效药物。研究人员提出了REDIAL-2020,一套机器学习模型可以预测活体病毒感染性、病毒进入和病毒复制的活动,特别是针对SARS-CoV-2。这一应用可以为科学界在确定体外筛选化合物的优先顺序时提供服务,并可能最终加速确定用于COVID-19治疗的新型候选药物。REDIAL-2020由11个独立训练的机器学习模型组成,包括一个相似性搜索模块,可以查询基础实验数据集的相似化合物。
这些模型是利用以下检测方法产生的实验数据开发的。SARS-CoV-2细胞病理学效应(CPE)检测及其宿主细胞细胞毒性反筛选,Spike-ACE2蛋白-蛋白相互作用检测及其TruHit反筛选, ACE2酶活性检测, 3CL蛋白酶活性检测。SARS-CoV假型颗粒进入检测及其反筛查、MERS-CoV假型颗粒进入检测及其反筛查,以及人类成纤维细胞毒性检测。此类检测代表了五个不同的类别。病毒进入、病毒复制、活病毒感染性、体外感染性。研究人员从NCATS COVID-19门户网站上检索了这些数据集。NCATS团队致力于进行一系列与COVID-19相关的病毒和宿主靶标检测,并对检测结果进行分析。
对于模型开发,采用了三种不同类型的描述符,并且通过采用各种机器学习算法为每种描述符类型开发了最佳模型。然后,使用投票方法将每种描述符类型的三个最佳模型进行组合,以得到一个整体模型。这些集成的机器学习模型已集成到一个用户友好的Web门户中,该门户允许使用三种不同格式进行输入:(1) 药品名称,既可以是国际非专有名称也可以是商品名; (2)PubChem化合物ID号 (PubChem CID) ;或 (3) SMILES格式编码的化学结构。不管输入格式如何,工作流程和输出都是相同的。
药物重新定位需要计算支持,数据驱动的决策提供了一种务实的方法来确定最佳候选药物,同时将失败的风险降到最低。由于分子特性和生物活性可以被描述为化学结构的函数,基于化学信息学的预测模型在药物发现和重新定位研究中变得越来越有用。具体来说,基于高通量数据的抗SARS-CoV-2模型可以作为计划实验时的优先步骤,特别是对于大型分子库,从而减少实验的数量,降低下游成本。REDIAL-2020可以达到这样的目的,帮助科学界减少抗SARS-CoV-2活性的实验测试前的分子数量。这套机器学习模型也可以通过命令行用于大规模虚拟筛选。随着新的数据集在公共领域的出现,研究人员计划进一步调整机器学习模型,增加基于SARS-CoV-2检测的额外模型,并在REDIAL-2020的未来版本中提供这些模型。
参考资料
KC, G.B., Bocci, G., Verma, S. et al. A machine learning platform to estimate anti-SARS-CoV-2 activities. Nat Mach Intell (2021).
https://doi.org/10.1038/s42256-021-00335-w