首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI+Drug 文献速递 | 化学空间的核心理念通过分子相似性构建化学空间地图,帮助理解化学各子领域之间的关系

AI+Drug 文献速递 | 化学空间的核心理念通过分子相似性构建化学空间地图,帮助理解化学各子领域之间的关系

作者头像
MindDance
发布2026-01-08 12:37:39
发布2026-01-08 12:37:39
880
举报

1. Chemical space as a unifying theme for chemistry

期刊:Journal of Cheminformatics

链接:https://jcheminf.biomedcentral.com/articles/10.1186/s13321-025-00954-0

简介:该论文提出化学空间作为统一化学科学的核心概念,通过分子相似性构建化学空间地图,帮助理解化学各子领域之间的关系,促进跨学科合作。作者强调化学空间的概念不仅适用于药物发现等领域,还可扩展到材料、毒理学等多个化学分支,并提出通过人工智能等技术绘制化学空间地图的挑战与前景。论文未涉及具体实验或数据集,但其核心观点为化学科学提供了全局视角。总结指出,化学空间的概念有助于化学学科的整合与创新。

2. Knowledge-informed molecular design for zeolite synthesis using ChatGPT towards human-machine collaboration

期刊:ChemRxiv

链接:https://chemrxiv.org/engage/chemrxiv/article-details/679c29026dde43c90809b2c7

简介:本文提出了一种基于通用大语言模型(LLM)的分子设计方法,通过自然语言反馈实现人机协作,成功设计了用于沸石合成的有机结构导向剂(OSDA),创新点在于利用LLM(如GPT-4)生成分子结构并通过自然语言反馈优化设计。方法上,研究使用GPT-4生成OSDA候选分子,结合经验筛选和原子模拟评估其亲和力,并通过自然语言反馈逐步优化分子设计。实验中,研究使用SMILES表示法生成分子,并通过经验筛选和原子模拟评估其亲和力,最终生成了包括实验验证的OSDA、结构类似物和具有更高亲和力的新分子。实验结果表明,LLM能够有效探索化学空间,生成合理的OSDA候选分子。总结而言,该方法展示了LLM在分子设计中的潜力,为未来人机协作在药物设计等领域的应用提供了新思路。

3. Molecular Simulations with a Pretrained Neural Network and Universal Pairwise Force Fields

期刊:ChemRxiv

链接:https://chemrxiv.org/engage/chemrxiv/article-details/679bf19781d2151a02991c58

简介:本文提出了一种结合预训练神经网络(SO3krates)和通用成对力场的分子模拟方法SO3LR,旨在实现高效、准确、可扩展的分子动力学模拟。该方法通过将势能分解为短程排斥、半局域多体相互作用、长程静电和色散相互作用四个部分,并在包含400万分子结构的多样化数据集上进行联合优化,确保了模型的广泛适用性。实验验证了SO3LR在多种生物分子(如多肽、蛋白质、糖蛋白和脂质双层)的纳秒级动力学模拟中的表现,结果表明其在力、偶极矩和Hirshfeld比预测上具有较高精度,且能够扩展到20万原子的系统。SO3LR在单GPU上实现了约3微秒/原子/步的延迟,展示了其在生物分子模拟中的潜力。

4. Overcoming DMTA Cycle Challenges: A Unified AI-Driven System for Efficient Drug Design

期刊:ChemRxiv

链接:https://chemrxiv.org/engage/chemrxiv/article-details/67990e82fa469535b932dcee

简介:本文提出了一种基于人工智能(AI)的统一系统,旨在通过整合生成式AI、逆合成分析和自动化合成平台来加速药物设计中的“设计-制造-测试-分析”(DMTA)循环,提升药物发现的效率和成本效益。该方法结合了生成式AI平台Makya、逆合成AI工具Spaya和自动化合成机器人ChemSpeed,通过强化学习生成符合特定目标分子特性的候选分子,并优化合成路径。实验验证了该系统在多个药物发现阶段的应用,包括从早期分子设计到后期多参数优化,使用了Pi3k-mTor数据集和DNA编码库(DEL)筛选数据,结果表明该系统能够显著缩短DMTA循环时间并提高合成成功率。该研究展示了AI与自动化合成平台的结合在药物设计中的巨大潜力,为未来的药物发现提供了新的工具和方法。

5. Expediting hit-to-lead progression in drug discovery through reaction prediction and multi-objective molecular optimization

期刊:ChemRxiv

链接:https://chemrxiv.org/engage/chemrxiv/article-details/6798ae2881d2151a024590d5

简介:该研究通过结合反应预测和多目标分子优化,显著加速了药物发现中从初步活性化合物(hit)到先导化合物(lead)的优化过程。研究者利用高通量实验(HTE)生成了包含13,490个新型Minisci型C-H烷基化反应的数据集,并基于此训练了深度图神经网络(GNN)以准确预测反应结果。通过对单酰基甘油脂肪酶(MAGL)中等抑制剂的骨架枚举,虚拟生成了26,375个分子库,并通过反应预测、理化性质评估和结构打分筛选出212个潜在MAGL抑制剂候选物,最终合成了14个亚纳摩尔级活性的配体,其活性较原始hit化合物提升了最高4500倍。实验使用了内部生成的数据集和公开可用的分子库,结果显示这些化合物具有良好的药理学特性,并通过共结晶实验验证了其与MAGL蛋白的结合模式。研究表明,将微型化HTE与深度学习和分子性质优化相结合,能够显著缩短药物发现的周期时间。

6. Quantum-computing-enhanced algorithm unveils potential KRAS inhibitors

期刊:Nature Biotechnology

链接:https://www.nature.com/articles/s41587-024-02526-3

简介:该研究提出了一种量子-经典混合生成模型,用于设计针对KRAS蛋白的小分子抑制剂,展示了量子计算在药物发现中的潜力。研究者结合量子电路Born机器(QCBM)和长短期记忆网络(LSTM),通过虚拟筛选和实验验证,设计了15个候选分子,其中两个分子表现出显著的KRAS抑制活性。实验使用了Enamine REAL库和内部生成的650个已知KRAS抑制剂数据集,通过表面等离子共振(SPR)和细胞实验验证了化合物的结合活性和生物效应。研究表明,量子计算能够生成优于经典模型的候选分子,显著加速了药物发现过程。

7. Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation

期刊:Nature Communications

链接:https://www.nature.com/articles/s41467-024-55082-4

简介:该研究提出了一种多通道预训练框架,通过结合分子结构层次和上下文依赖的特征学习,显著提升了分子性质预测的鲁棒性和泛化能力。研究者设计了三种自监督学习任务,分别从全局、局部和骨架结构角度学习分子表示,并通过提示引导的多通道聚合机制在微调阶段动态整合不同通道的信息。实验在MoleculeNet和MoleculeACE基准数据集上进行,使用了ZINC15数据集进行预训练,结果显示该方法在多个分子性质预测任务中表现优异,尤其在处理活性悬崖(activity cliffs)等复杂场景时表现出更强的鲁棒性。研究表明,多通道学习框架能够有效捕捉分子结构的细微变化,显著提升分子表示的泛化能力。

8. Drug discovery and mechanism prediction with explainable graph neural networks

期刊:Scientific Reports

链接:https://www.nature.com/articles/s41598-024-83090-3

简介:该研究提出了一种基于可解释图神经网络的药物反应预测框架(XGDP),通过分子图和基因表达数据预测药物反应,并揭示药物与靶点之间的作用机制。XGDP利用图神经网络(GNN)模块学习分子图的潜在特征,并结合卷积神经网络(CNN)模块处理癌细胞系的基因表达数据,通过深度学习的归因算法解释药物分子特征与基因之间的相互作用。实验使用了GDSC和CCLE数据集,结果显示XGDP在预测精度上优于现有方法,并能够捕捉药物的关键功能基团及其与癌细胞基因的显著相互作用。研究表明,XGDP不仅提升了药物反应预测的准确性,还能有效揭示药物的作用机制。

9. Integrating Pharmacokinetics and Quantitative Systems Pharmacology Approaches in Generative Drug Design

期刊:ChemRxiv

链接:https://chemrxiv.org/engage/chemrxiv/article-details/678a5e2bfa469535b9668173

简介:本文提出了一种将药代动力学(PK)和定量系统药理学(QSP)整合到生成式药物设计中的新方法,创新点在于通过强化学习框架同时优化化合物的靶点亲和力和PK特性,并使用QSP模型预测肿瘤抑制效果。方法上,作者利用DrugEx生成框架,结合定量结构-性质关系(QSPR)模型预测PK参数(清除率、分布体积和未结合分数)和A2A受体的亲和力,生成具有特定PK特性的分子。实验中,使用了Papyrus数据集(A2A受体活性数据)和Lombardo等人公开的PK数据集,通过QSPR模型预测PK参数,并使用QSP模型模拟肿瘤生长抑制效果,结果显示优化PK特性显著影响了生成的分子骨架和理化性质。总结来说,该研究为生成式药物设计提供了一种新的整合PK和PD的框架,有助于提高药物设计的效率和成功率。

10. Hybrid approach for drug-target interaction predictions in ischemic stroke models

期刊:Artificial Intelligence in Medicine

链接:https://www.sciencedirect.com/science/article/abs/pii/S0933365725000028

简介:本文提出了一种名为strokeDTI的混合框架,创新点在于通过整合转录组数据和多种深度学习模型来预测缺血性卒中中的药物-靶点相互作用,并成功识别出Cerdulatinib作为一种潜在的抗卒中药物。方法上,strokeDTI结合了RNA测序数据、KEGG通路分析和五种深度学习模型(Transformer、GATv2Conv、GINEConv、MPNN和ResGGConv),通过5折交叉验证训练模型,并使用Davis数据集进行验证。实验中使用小鼠和大鼠的RNA测序数据(GEO数据集)进行差异基因分析,识别出与细胞死亡相关的关键通路和靶点,并通过体外和体内实验验证了Cerdulatinib在抑制细胞死亡和减轻脑损伤方面的效果。总结来说,strokeDTI框架为卒中药物发现提供了一种高效且可靠的方法,Cerdulatinib展现出作为多靶点抗卒中药物的潜力。

11. ISLRWR: A network diffusion algorithm for drug–target interactions prediction

期刊:PLoS One

链接:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0302281

简介:本文提出了一种名为ISLRWR的网络扩散算法,用于预测药物-靶点相互作用(DTIs),通过改进随机游走重启算法(RWR)和Metropolis-Hasting随机游走算法(MHRW),显著提升了预测性能。方法上,ISLRWR算法通过增加孤立节点的自环概率并重新计算转移概率矩阵,提高了网络扩散的效率和采样深度。实验使用了两个数据集(数据集A和数据集B),分别来自Drugbank、HPRD、CTD和SIDER等数据库,结果表明ISLRWR在AUROC和AUPRC指标上分别比RWR和MHRW提高了7.53%和5.95%,并在排除同源蛋白干扰后仍表现出色。总结来说,ISLRWR算法在DTIs预测任务中表现出优异的性能,尤其在中小规模数据集上表现尤为突出。

12. RPMVCDA: Random Perturbation and Multi-View Graph Convolutional Networks for CircRNA-Disease Association Prediction

期刊:IEEE Transactions on Computational Biology and Bioinformatics

链接:https://ieeexplore.ieee.org/document/10819752

简介:RPMVCDA是一种基于随机扰动和多视图图卷积网络的计算模型,创新性地通过构建多种相似性网络并引入随机扰动关联网络来预测circRNA-疾病关联。该方法首先构建了circRNA和疾病的多个相似性网络,并应用多视图GCNs提取特征表示;其次,通过特征相似性关联网络实现circRNA-疾病样本间的消息传递;然后,利用随机扰动关联网络探索潜在关联;最后,采用自注意力机制生成高质量特征用于计算关联得分。在CircR2Disease数据集上进行的五折交叉验证和案例研究显示,RPMVCDA的平均AUC达到95.18%,证明了其在预测circRNA-疾病关联方面的有效性和优越性。总之,RPMVCDA为circRNA-疾病关联预测提供了一种新的高效解决方案,展示了对识别与疾病相关的circRNA的重要价值。

13. Test-Time Training Scaling for Chemical Exploration in Drug Design

期刊:arXiv

链接:https://arxiv.org/abs/2501.19153

简介:本文研究了多智能体强化学习在药物发现中的应用,并提出了名为MolExp的基准测试来评估不同协作策略对化学空间探索效率的影响。研究人员使用ChEMBL34数据库训练了化学语言模型,并利用强化学习方法训练多个智能体探索化学空间,比较了多种协作策略。MolExp基准测试包含四组药物发现任务(抗精神病药物、腺苷A2A受体药物、β-分泌酶1抑制剂和表皮生长因子受体抑制剂),用于评估不同协作策略下多智能体 rediscover 已知药物分子的能力。实验结果表明,目前测试的MARL方法未能显著超越独立智能体。MolExp基准测试为评估MARL方法在药物发现中的有效性提供了一个新的工具,也揭示了当前MARL协作策略在化学空间探索方面仍需改进。

14. Covering Multiple Objectives with a Small Set of Solutions Using Bayesian Optimization

期刊:arXiv

链接:https://arxiv.org/abs/2501.19342

简介:本文提出了一种名为MOCOBO的多目标覆盖贝叶斯优化算法,旨在用少量的K个解覆盖T个目标,而不是寻找单个帕累托最优解。MOCOBO算法通过贝叶斯优化框架,利用覆盖率指标来指导搜索过程。实验在肽和分子设计、漫游车轨迹优化和图像色调映射等高维任务上进行,使用的数据集包括Guacamol分子库、450万氨基酸序列数据集、自定义的漫游车障碍路线和图像数据集等。结果表明,MOCOBO能找到覆盖率更高的解集,其性能接近甚至可以匹配为每个目标单独优化T个解的性能。MOCOBO算法为多目标优化提供了一种新的思路,尤其适用于需要用少量解覆盖多个目标的场景。

15. QMe14S, A Comprehensive and Efficient Spectral Dataset for Small Organic Molecules

期刊:arXiv

链接:https://arxiv.org/abs/2501.18876

简介:本文介绍了一个名为QMe14S的分子光谱数据集,包含186,102个小有机分子,涵盖14种元素和47种官能团,并提供了丰富的静态、动态分子性质以及IR、Raman和NMR光谱数据。该数据集通过密度泛函理论B3LYP/TZVP水平计算得到分子的静态和动态性质,并结合分子动力学模拟获取非平衡态信息。使用E(3)-等变消息传递神经网络 (DetaNet) 对QMe14S数据集进行训练和测试,结果表明,在QMe14S上训练的模型在模拟分子光谱方面优于在QM9S上训练的模型。QMe14S数据集为分子模拟提供了一个更全面和高效的基准,有助于深入理解结构-性质关系。

16. Diversity By Design: Leveraging Distribution Matching for Offline Model-Based Optimization

期刊:arXiv

链接:https://arxiv.org/abs/2501.18768

简介:本文提出了一种名为DynAMO的离线模型优化方法,旨在提高生成设计的多样性。DynAMO通过将多样性转化为分布匹配问题,并使用对抗性源评论家进行约束,来实现多样性和质量的平衡。实验在Design Bench的六个任务(TFBind8、UTR、ChEMBL、Superconductor、D’Kitty和Molecule)上进行,涵盖了离散和连续优化任务。结果显示,DynAMO在Best@128和Pairwise Diversity等指标上表现优异,表明它能够在提高设计多样性的同时,保持设计的质量。DynAMO为离线模型优化提供了一种有效的新方法。

17. A Variational Perspective on Generative Protein Fitness Optimization

期刊:arXiv

链接:https://arxiv.org/abs/2501.19200

简介:本文提出了变分潜在生成蛋白质优化 (VLGPO) 方法,通过将蛋白质序列嵌入连续潜在空间来进行蛋白质适应度优化。VLGPO 使用 VAE 将蛋白质序列压缩到潜在空间,利用流匹配学习潜在空间的先验分布,并结合适应度预测器引导采样过程。该方法在 AAV 和 GFP 两个蛋白质数据集上的中等和高难度优化任务中进行了测试,结果表明 VLGPO 实现了最先进的性能。VLGPO 为蛋白质适应度优化提供了一个高效的变分框架。

18. Locality-aware Surrogates for Gradient-based Black-box Optimization

期刊:arXiv

链接:https://arxiv.org/abs/2501.19161

简介:本文提出了一种基于局部感知代理模型的主动黑盒优化方法,并引入了GradPIE损失函数以提高梯度估计的准确性。该方法通过最小化GradPIE损失,使代理模型的梯度与黑盒函数的梯度对齐,并支持离线训练和在线自适应。实验在耦合非线性振荡器网络(CNON)、模拟集成电路(运算放大器:OpAmp)和光波操纵系统(OWMS)三个任务上进行,结果表明,该方法在有限的查询预算下显著提高了优化性能。该方法为主动黑盒优化提供了一种更有效且精确的梯度估计方法。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档