前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Brief Bioinform|GLDM:基于约束图潜在扩散模型的分子生成

Brief Bioinform|GLDM:基于约束图潜在扩散模型的分子生成

作者头像
智药邦
发布2024-05-28 16:44:45
1880
发布2024-05-28 16:44:45
举报
文章被收录于专栏:智药邦智药邦

2024年4月4日,新加坡南洋理工大学Conghao Wang等人在Briefings in Bioinformatics上发表文章GLDM: hit molecule generation with constrained graph latent diffusion model。

作者提出了图潜在扩散模型(graph latent diffusion model,GLDM),一种既保留了自编码器压缩复杂化学数据的有效性,又保留了扩散模型生成新分子的能力的潜在扩散模型。GLDM首先实现了一个自编码器,将分子数据编码为低维潜在表征,然后在潜在空间上训练扩散模型(DM),以产生由基因表达谱定义的诱导靶向生物活性的分子。在潜在空间而不是输入空间操作DM,避免了将分子分解和重建映射到扩散过程的复杂操作,从而提高了训练效率。实验表明,GLDM不仅在分子生成基准上取得了优异的性能,而且可以生成具有最佳化学性质和潜力的样品,以满足所需的生物活性。

背景

在计算机辅助药物发现中,定向发现具有所需生物活性的分子是一项有前途且意义深远的任务。近年来,基于深度学习的生成算法在文本和图像生成等领域取得了巨大成功,在化学领域,生成模型也可以通过识别化学空间的隐藏模式和定向寻找候选分子,来促进药物发现。

方法

如图1所示,GLDM模型由一个用于潜在空间建模的编码器、一个用于潜在表征制造的DM和一个用于分子重建的解码器组成。在GLDM中,分子用分子图表示。输入图可以通过编码器编码为潜在表示,这也是扩散过程的输入。GLDM使用FiLMConv层来构建编码器。FiLMConv是一种区分不同边(关系)类型的消息传递模式的关系图卷积网络(RGCN)。近年来,RGCN模型在分子建模中越来越受欢迎,因为在分子图中,边可以表示属于各种关系类型的化学键。

然后,根据去噪扩散概率模型设计扩散过程。给定原始数据分布,潜在表示通过在每个时间步长逐步向表示中加入高斯噪声,从而在T次迭代后将数据扩散到白噪声分布。在本研究中,选择T=1000。与扩散过程相反,去噪过程的目标是直接从标准正态分布中采样并进行去噪处理,由图解码器生成新的分子图样本。

图1 GLDM结构图

GLDM模型的训练包括两个阶段:(1)训练编码器和解码器学习潜在空间表示;(2)在潜在空间中训练DM。其中,编码器和解码器是通过结合变分自编码器(VAE)和对抗学习开发的。总的损失函数是重构损失和正则化损失的加和。重构损失函数可以表示为均匀选择某步的对数概率的期望。这确保了所有的生成步骤是相互独立的,并且可以并行训练。

编码器的目标是将分子图压缩成紧凑的低维潜在空间。与VAE中常用的Kullback-Leibler (KL)散度相比,使用对抗损失有助于捕获更多信息丰富的潜在空间。接下来,将U型自编码器(U-Net)作为DM的骨干网络,对DM进行训练以优化损失函数,这里将扩散过程的方差设为常数。由于真正的扩散后验是可处理的高斯分布,所以,可以使用重参数化技巧,来参数化去噪过程为高斯分布,因此损失项很容易用两个高斯分布的KL散度来计算。

然而,GAN引入的典型对抗损失有时不能适当地正则化潜在分布以符合先验分布。Wasserstein自动编码器(WAE)解决了这个问题,并平衡了重建和正则化损失。与GAN损失相比,本文采用的WAE损失上附加了一个梯度惩罚项,也就是引入一个额外的鉴别器从输入数据中识别编码的潜在表示,并将其梯度的变化作为优化的一个约束。作者在实验中利用案例分析对比了利用WAE损失作为正则化损失和利用GAN损失作为正则化损失的模型,表明WAE尽管性能略输于GAN,但却具有更好的鲁棒性。

当以基因表达谱为条件指导生成时,DM不仅能够生成高质量的样本,还可以通过条件生成进行扩展。将多头交叉注意力机制整合到U-Net骨干网的中间层中,调节具有基因表达差异的分子潜在表示。具体来说,可将潜在表示作为注意力模块的查询,将基因表达谱作为键和值。当在无约束生成任务上训练GLDM时,基因表达输入将被忽略,U-Net骨干网中的交叉注意层将成为自注意层。

在推理阶段,开发的潜在DM和解码器相结合,以产生新的样本。从标准高斯噪声信号开始,首先应用DM逐步去除噪声。然后利用解码器重构分子图。对于约束生成,基因表达特征也被馈送到扩散主干U-Net来控制去噪过程。对于无约束生成,生成的分子不期望诱导潜在的基因表达变化。

本研究使用了两个大规模化学数据库:ChEMBL和LINCS。ChEMBL数据库收集具有药物样特性的生物活性分子以及生物活性和基因组学数据。LINCS数据库是一个程序,通过对细胞暴露于某些摄动原时各种细胞过程的变化进行编目,促进基于网络的生物学理解。LINCS的L1000项目收集了不同时间点数千种干扰物(如药物)细胞系的基因表达谱。这两个数据库旨在弥合化学和生物学之间的关系,并促进基因组学在新药物发现中的应用。

在本研究中,首先在ChEMBL数据库中GuacaMol管理的数据集上预训练编码器和解码器。该数据集包含约150万个类药物分子,并且足够大,使得预训练模型可以学习类药物结构的一般潜在分布。然后,在L1000项目数据集上执行基因表达条件生成,应用迁移学习对L1000数据集上的预训练模型进行微调,并开发DM模型来生成诱导靶基因表达特征的类似命中的候选药物。最后,开发的模型和基线模型在GuacaMol分布学习基准上进行了评估。

结果

作者将GLDM与一些具有代表性的方法进行了比较。如表1所示,将有效性、唯一性、新颖性、KL散度和Frechet Chemnet距离(FCD)这五个指标作为对比,所有五个指标都被GuacaMol基准转换成0到1的分数,分数越高越好。生成一万个分子来评估这些基准。GLDM性能在大多数指标上超越了现有方法。

表1 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。将使用变分自编码器(VAE)的正则化损失、使用对抗学习(GAN)的正则化损失、使用Wasserstein自编码器(WAE)的正则化损失进行对比,可以发现对抗学习的正则化损失表现最好,这说明了引入对抗学习的有效性。

表2 消融实验

作者还进行了案例分析。现有的关于药物分子生成的研究大多仅评估结构相似性,然而,相似的结构并不一定导致相似的生物功能。此外,如果只使用结构相似性来评估模型,那么最佳性能将通过生成现有结构而不是新结构来实现,这与发现新药的目标是矛盾的。由于分子是利用参考活性分子引起的基因表达变化产生的,假设生成的分子和参考分子应该具有相似的生物活性,这意味着它们应该具有相同的蛋白质靶点。因此,作者认为通过评估生成的分子与其潜在蛋白靶点之间的结合亲和力来验证这一假设更为明智。

在BindingDB中,作者搜索了结合结构在Protein Data Bank (PDB)中有明确记录的活性分子,最终选择了5个具有10个结合姿态的活性分子进行评价。利用5个参考分子引起的基因表达变化生成了100个分子。利用Gnina进行分子对接实验,预测生成分子的结合亲和力评分。图2显示了将生成的分子与已知蛋白质口袋对接时的Vina分数分布,其中BiAAE是用来对比的基线模型。很明显,具有GAN损失的GLDM在所有10个对接实验中都获得了较低的Vina分数,表明更好的结合亲和力,而具有VAE损失的GLDM表现得差于基线模型。具有WAE损失的GLDM不仅具有较高的结合亲和力,而且Vina评分范围更小,表明了较高的鲁棒性。

图2 案例分析

总结

在本文中,作者提出了GLDM,一种能够产生能够诱导所需生物活性的药物分子的潜在扩散模型。GLDM使用由图神经网络构成的自编码器模型来获得分子图的潜在编码,并在潜在空间中开发DM来产生分子表示。此外,GLDM加入基因表达作为GLDM的约束,生成具有所需生物活性的分子。实验表明,GLDM性能超越了现有的模型。

以前的研究直接在针对约束生成任务的小数据集上开发模型。然而,广泛使用的大规模分子数据集没有包含足够的类药物分子,因此其模型无法学习到潜在药物结构的全面分布。这意味着生成的分子仅限于与现有药物相似的可能结构的一小部分,也就是可能会失去发现全新药物的机会。因此,作者从更大的GuacaMol数据集开始模型开发。GLDM表现出优于基线模型的GuacaMol分布学习分数,这意味着它能够生成有效的、新颖的和通用的类药物分子。与基线模型相比,GLDM模型产生的分子具有更高的结合亲和力,将是一种很有前途的加速药物发现过程的方法。

参考文献

[1] Wang et al. GLDM: hit molecule generation with constrained graph latent diffusion model. Brief Bioinform. 2024

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档