首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

牛津大学Deane研究小组JCIM论文:利用卷积神经网络构建个性化打分函数

蛋白结构具有多样性的特点导致了不同靶点在结合过程存在异质性(Heterogeneity),也就是说配体与某个靶点的相互作用对于其结合在另一个靶点而言并不是必要的。这对于那些试图用一个通用模型实现虚拟筛选的人们而言,是一个重大挑战。近年来,越来越多的研究工作显示靶向特定蛋白类型的个性化打分函数比通用打分函数的性能更加优异。最近,牛津大学的Deane研究小组利用卷积神经网络(Convolution neural network,CNN)和迁移学习方法(Transferlearning)构建了一个靶向蛋白家族的打分函数DenseFS,并在虚拟筛选测试中取得了不错的结果。相关工作发表在美国化学会出版社的J. Chem. Inf.Model杂志上(J. Chem. Inf. Model.2018, 58, 2319−2330)。

目前常见的机器学习打分函数主要是基于特征原理的打分函数,它们通过学习大量不同的特征(如描述符或者指纹)以获得优秀的预测性能,但同时也容易导致过拟合、丢失模型的可解释性以及令模型对特征的选择产生偏好性。因为复合物相互作用的空间构型是很重要的,因此,作者将确定结合模式的问题重新阐述为一个计算机视觉问题。他们采用了Rogaza提出的方法,对训练集样本(DUD-E)进行特征化。首先,作者选择用AutoDock Vina程序对训练集所有配体产生对接构象,然后将对接后的蛋白-配体复合物离散化为3D格点。如图1(a)所示,这个格点文件是一个以结合位点为中心,体积为24 Å3的正方体。它可分解为34个信息通道(图1(b)),分别代表了16种蛋白原子和18种配体原子。每个通道中的原子根据坐标和范德华半径表示成高斯分布。将所有的信息通道连接起来产生(34,48,48,48)四维张量,用于构建CNN模型。这种格点格式提供了代表单个对接复合物的全面信息,在空间特征之外采用了尽可能少的输入和有限的原子类型,可以减少对输入数据的特征化。

图1、PDB ID为3EML的输入特征例子示意图。(a)在格点中,配体的碳原子为青色,受体的碳原子为紫色,其他杂原子根据设定的标准颜色进行着色。(b)复合物图像可分解为34个信息通道。每个通道中储存一种原子类型在该复合物中所具有的高斯分布特征。

随后,作者应用了在计算机图像识别中具有优异表现的DenseNet架构构建CNN模型。如下图2所示,该架构属于紧密连接的卷积神经网络结构,每个密集区块(Dense block)都接受前面所有的连接层的输出作为输入,具有缓解梯度消失,特征重用,避免过拟合等优势,是一个可以有效训练深度学习模型的方法。值得关注的是,作者采取了系综平均分值的策略,即选择多个排名前列的构象训练模型,并对此做了较详细地探讨。结果表明当考虑排名前九的构象时,其模型的预测性能比单一考虑分数最优构象策略有明显地改善,AUC PRC值提高了7.6-14.4%,有效消除分子由于其个别构象分数高导致其排名也高的现象。

图2、CNN模型中使用的DenseNet架构的示意图

在整个训练集完成通用模型的构建后,作者接着将训练集按靶点家族进行分类(激酶、蛋白酶,核蛋白家族,GPCR家族以及其他),并选择了迁移学习中的微调技术(Finetuning)构建个性化模型DenseFS。在这里,微调是迁移学习中的一种技术,其思想是利用已有的模型作为新模型的初始化参数,在一个新的数据集中重新训练这个新的模型。随后,他们以Ragoza等人提出的CNN模型作为基准(以下简称基准CNN),与DenseFS模型进行性能比较。首先他们在DUD-E数据集中进行了3折交叉验证。结果显示,DenseFS模型在每个靶点中的平均表现为AUC ROC值为0.917,AUC PRC值为0.443。与基准CNN和Autodock Vina模型相比,DenseFS在AUC PRC值和0.5% ROC富集因子值均有明显的提高。

当具体到每个靶点的表现,我们观察到DenseFS比基准CNN模型的表现具有明显的优势。如下图3所示,对角线上方的点表示DenseFS的预测性能优于基准CNN模型。DenseFS在激酶和蛋白酶家族中有很好的预测能力;在核蛋白家族中的表现同样好于基准CNN模型。而在GPCR家族和其他剩余的靶点中,DenseFS的表现则相对逊色,但是仍然比随机表现要好。作者认为这可能是由于具有多样性的GPCR家族蛋白样本数量相对小导致的。

图3、DenseFS和基准CNN模型在DUD-E数据集每个靶点上交叉验证的AUC PRC结果

他们随后研究了训练集含激酶家族靶点的数量对个性化模型和通用模型性能的影响,结果如图4所示。绿色代表个性化模型,蓝色代表通用模型。随着样本量的增加,两类模型的预测能力也会得到改善。而且个性化模型的预测能力优于通用模型,即使训练集含有靶点数有限。

图4、训练集含激酶家族靶点数量对两类模型的影响结果。横坐标代表训练集含激酶靶点的数量,纵坐标代表模型在测试集中的AUC PRC评价结果。

最后作者选择了ChEMBL作为独立测试集评价模型性能。DenseFS模型的评价结果依然展示了明显的优势。其AUC PRC值比基准CNN模型提高了超过40%。在14个靶点中,其在13个靶点表现比基准CNN模型要好。综上所述,作者结合卷积神经网络和迁移学习方法,训练了针对特定靶标蛋白的个性化打分函数。与基准CNN相比,DenseFS在DUD-E和ChEMBL数据集的预测表现均有一定提高。

参考文献:Imrie, F.; Bradley, A.R.; Schaar, M.; Deane, C.M. Protein Family-Specific Models Using Deep Neural Networks and Transfer Learning ImproveVirtual Screening and Highlight the Need for More Data.J. Chem. Inf. Model.2018, 58, 2319−2330.

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181221G0FOL100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券