期刊: arXiv 链接: https://arxiv.org/abs/2506.00880v1 代码: https://anonymous.4open.science/r/ModuLM
简介: 分子关系学习(MRL)需处理分子间相互作用,现有框架缺乏多模态支持和灵活架构。本文提出ModuLM,首个支持模块化组装和多模态输入的LLM框架,集成8种2D图编码器、11种3D构象编码器、7种交互层及7种LLM主干,可动态生成超5万种模型配置。实验在DDI、SSI等任务中使用DrugBank、MNSol等数据集,结果显示ModuLM在AUC-ROC、RMSE等指标上优于Galactica、MolTC等基线,如在DeepDDI数据集准确率达0.964,且结合3D构象和交互层可显著提升性能。研究表明,ModuLM通过模块化设计和测试时扩展,为MRL提供了标准化的跨模型比较平台,推动分子交互机制的可解释性研究。

期刊: arXiv 链接: https://arxiv.org/abs/2506.00925v1
简介: 蛋白质逆折叠需平衡序列多样性与结构一致性,现有方法多忽视一对多特性。本文提出ProtInvTree,首个基于奖励引导树搜索的框架,将序列生成建模为分步决策过程,利用蒙特卡洛树搜索(MCTS)探索多路径,结合“聚焦-锚定”机制解耦位置选择与残基生成,并通过跳跃去噪快速评估中间状态。实验在CATH v4.2/v4.3和CASP15的TS45数据集上显示,ProtInvTree的scTM-score比基线最高提升18.3%,生成序列多样性和新颖性显著优于AlphaDesign等模型,如在TS45数据集RMSD低至2.513。该研究为蛋白质设计提供了兼顾全局优化和多样性的新范式,验证了测试时扩展对预训练语言模型的潜力释放。

期刊: arXiv 链接: https://arxiv.org/abs/2506.01376v1 代码: https://github.com/kasawa1234/GlycanAA
简介: 现有聚糖模型忽视原子级结构,难以捕捉关键相互作用。本文提出GlycanAA,将聚糖表示为包含原子和单糖节点的异质图,通过分层消息传递捕获从原子到单糖的多级交互,并设计多尺度掩码预测的自监督预训练策略PreGlycanAA。在GlycanML基准的11项任务中,PreGlycanAA和GlycanAA分别位列第一、第二,如在分类任务Macro-F1达0.661,显著优于RGCN等基线。消融实验验证分层结构和预训练的有效性,尽管计算成本增加19%,但性能提升显著。研究填补了原子级聚糖建模空白,为疫苗设计等应用提供了高精度工具。

期刊: arXiv 链接: https://arxiv.org/abs/2506.01405v1 代码: https://github.com/Zhaoxiang0422/SOC-DGL
简介: 药物-靶点相互作用(DTI)预测对药物发现至关重要,但现有模型多局限于同质图的直接相似性挖掘,忽视异质图中的高阶相似性。本文提出SOC-DGL,受社交行为启发设计双图学习框架,包含亲和驱动图学习(ADGL)和平衡驱动图学习(EDGL)模块。ADGL通过全局图卷积捕捉药物-靶点的直接关联和相似性,EDGL利用平衡理论和偶多项式图滤波器挖掘高阶间接相似性,同时设计可调失衡损失函数缓解数据不平衡问题。实验在KIBA、Davis等四个基准数据集上进行,结果显示SOC-DGL在AUROC、AUPR等指标上显著优于GraphDTA、MLMC等基线,尤其在数据不平衡和冷启动场景下表现突出,如在KIBA不平衡数据集上AUROC达0.9364,且成功预测ABL1靶点的潜在药物。该研究为DTI预测提供了兼顾多尺度相似性和数据平衡的新方法,提升了模型在真实生物场景中的泛化能力。

期刊: arXiv 链接: https://arxiv.org/abs/2506.01121v1
简介: 扩散模型在生成任务中缺乏物理约束和安全性保证,本文提出神经符号扩散框架(NSD),通过将扩散步骤与符号优化交织,实现生成样本在连续(如图像、轨迹)和离散(如分子结构、文本)模态下的约束一致性。NSD利用投影算子和增广拉格朗日方法,在反向扩散过程中强制满足用户定义的函数和逻辑约束,如分子毒性规避、轨迹避障等。实验验证了NSD在三个关键挑战中的有效性:在分子生成中实现100%非毒性约束满足,在多机器人轨迹规划中成功率达93%-100%,在材料微结构设计中精确控制孔隙率。理论分析表明,NSD在凸约束下可保证收敛性,为科学和工程领域的可控生成提供了可靠框架,推动可信AI在高风险场景的应用。

期刊: arXiv 链接: https://arxiv.org/abs/2506.00009v1 代码: https://huggingface.co/datasets/liuganghuggingface/moltextnet
简介: 现有分子-文本数据集规模小且描述稀疏,限制了多模态模型的训练。本文构建MolTextNet,包含250万高质量分子-文本对,通过整合ChEMBL35的结构、性质、生物活性数据,利用GPT-4o-mini生成结构化描述,平均文本长度是现有数据集的10倍以上。数据涵盖分子结构(如官能团、环组成)、性质(如理化参数、生物活性)和合成复杂度(如SCScore、SAScore),支持属性预测、结构检索等任务。实验显示,在MolTextNet上预训练的CLIP模型在OGB基准任务中性能优于现有数据集,如在HIV分类中AUC达0.783,零样本结构检索准确率100%。MolTextNet为分子科学的多模态学习提供了大规模、高信息密度的数据集,促进基础模型的开发和跨任务泛化。

期刊: arXiv 链接: https://arxiv.org/abs/2506.01478v1 代码: https://github.com/hoangbros03/MUDI
简介: 现有药物-药物相互作用(DDI)数据集多为单模态且缺乏药效学方向标注,本文发布MUDI数据集,整合药理学文本、分子结构图、图像和化学式4种模态,包含310,532对药物对,标注为协同、拮抗或新效应,并设置包含未见药物的测试集以评估模型泛化能力。通过贝叶斯优化调参,对比了晚期融合投票和中间融合策略的基线模型,结果显示中间融合在方向无关场景下微平均F1达66.69%,显著优于晚期融合,且分子图模态表现最佳(F1=65.44%)。MUDI为多模态DDI预测提供了标准化资源,其结构化标注和开放资源有助于推动可解释模型开发,但其标签依赖文本规则且未经验证,未来可扩展至药代动力学场景。

期刊: arXiv 链接: https://arxiv.org/abs/2506.01177v1 代码: https://github.com/amerorchis/Hybrid-Quantum-GAN
简介: 针对量子-经典混合模型在药物设计中架构优化问题,本文通过多目标贝叶斯优化(MOTPE)调参,提出BO-QGAN模型,采用3层7量子比特浅层电路结合2层227神经元的经典网络,在QM9数据集上生成分子的Drug Candidate Score(DCS)达1.19,较基线量子混合模型和经典模型分别提升2.27倍和2.21倍,且参数减少60%以上。实验表明,3-4层浅层量子电路比单一深层结构更有效,经典网络容量超过阈值后性能增益有限。该研究首次提供混合模型架构设计原则,验证了量子组件在分子生成中的独特价值,但其物理量子硬件验证受限于样本量,未来需扩展至更大分子和真实场景。

期刊: arXiv 链接: https://arxiv.org/abs/2506.01302v1
简介: 图神经网络(GNNs)在药物发现中应用广泛,本文综述其在分子生成、性质预测和药物-药物相互作用(DDI)预测的最新进展。分子生成方面,GNNs通过无约束生成、特定子结构约束生成和配体-蛋白质结合生成三类框架,如MoLeR利用基序拼接分子,SQUID基于3D形状生成配体;分子性质预测中,3D-GNNs结合对比学习和预训练提升性能,如SphereNet利用球形消息传递,GraphMVP融合2D/3D信息;DDI预测则通过多模态融合和注意力机制,如MRCGNN结合分子图和相互作用网络,SafeDrug纳入患者病史实现个性化推荐。文中还总结了QM9、DrugBank等基准数据集,并指出数据异质性、模型可解释性和多组学整合是当前挑战。该综述系统梳理了GNNs在药物发现的技术脉络,为跨学科研究提供了重要参考。

期刊: arXiv 链接: https://arxiv.org/abs/2506.00771v1
简介: 针对3D分子设计中序列恢复与设计性脱节的问题,本文提出MolFLAE,通过变分自编码器(VAE)学习固定维度的SE(3)-等变潜在空间,实现无监督分子生成与零样本操作。模型利用SE(3)-等变神经网络编码分子至固定长度的虚拟节点潜码,结合贝叶斯流网络(BFN)解码重构结构,并通过残差级偏好优化(ResiDPO)解耦空间与语义特征。实验在QM9、GEOM-Drugs等数据集上显示,MolFLAE生成分子的原子稳定性达99.3%,且通过潜空间插值可生成保留关键相互作用的优化分子(如人糖皮质激素受体抑制剂),设计成功率提升近3倍。该研究为分子编辑提供了灵活框架,但其潜空间可解释性仍需优化。

期刊: arXiv 链接: https://arxiv.org/abs/2506.00297v1
简介: 现有蛋白质序列设计模型侧重序列恢复,忽视折叠成目标结构的设计性。本文提出ResiDPO,将直接偏好优化(DPO)与残基级设计性奖励结合,利用AlphaFold的pLDDT分数作为偏好信号,解耦残基级优化与全局约束。通过在LigandMPNN上微调得到EnhancedMPNN,在酶设计基准测试中,设计成功率从6.56%提升至17.57%,结合SHAP分析揭示关键残基贡献(如带电氨基酸增加)。实验使用PDB-D数据集,验证了方法在单体和复合物设计中的泛化性,但对极复杂结构仍有局限。该研究为蛋白质设计提供了数据高效的优化策略,推动计算设计与实验验证的衔接。

期刊: arXiv 链接: https://arxiv.org/abs/2506.00223v1
简介: 分子溶解度预测受限于数据稀缺与高维特征,本文提出LatMixSol,通过自编码器将分子描述符压缩至64维潜空间,结合谱聚类引导的MixUp插值生成合成样本。在Huuskonen数据集上,该方法使CatBoost、LightGBM等模型的RMSE降低3.2–7.6%,其中HistGradientBoosting提升最显著(7.6%),且生成样本的化学有效性通过重构误差和成对距离验证。SHAP分析表明,脂溶性(MolLogP)和分子重量(MolWt)是关键特征,与ADME原则一致。研究为资源受限的药物发现提供了高效数据增强方案,但需在更大数据集验证泛化性。

期刊: AI4X 2025 链接: https://openreview.net/forum?id=AS6vZAjepz
简介: 现有药物设计流程耗时且依赖实验,Inventum.AI平台整合图神经网络(GNN)实现从结合位点检测到配体生成的自动化管线。其核心模块包括SiteRadar(结合口袋检测)、SiteMap(口袋注释)和配体生成模块,通过几何模型与氨基酸特异性GNN预测口袋位置,利用伪配体表示引导骨架生成,并结合集成GNN回归器预测亲和力。在IRAK4激酶案例中,平台3天内生成42个配体,其中6个经实验验证具有低微摩尔抑制活性。与FPocket、PUResNet等模型相比,SiteRadar在结合口袋检测的精度(0.88)、召回率(0.91)和定位准确性(DCC 0.76)上表现更优。该平台为药物发现提供了快速、可解释的解决方案,但其对复杂靶点的泛化能力仍需更多验证。

期刊: Journal of Chemical Information and Modeling 链接: https://doi.org/10.1021/acs.jcim.5c00591 代码: https://github.com/zhangyaoxiang/PMODiff/tree/main
简介: 针对现有3D分子生成模型忽视物理化学约束和多属性优化的问题,PMODiff将简化的Lennard-Jones势能整合至扩散去噪阶段,同时利用预训练网络引导亲和力、药物相似性(QED)和合成可及性(SA)的多目标优化。模型在CrossDocked2020数据集上生成的配体平均Vina分数达-7.44,较现有方法提升13%,且结构多样性(JSD=0.08)和对接稳定性(RMSD<1.5Å)表现优异。消融实验表明,物理约束模块使亲和力提升显著,而多属性引导确保了综合性能平衡。尽管在合成可及性上仍有提升空间,PMODiff为基于结构的药物设计提供了兼顾物理真实性和药理特性的新范式。

期刊: PLOS One 链接: https://doi.org/10.1371/journal.pone.0324146
简介: 现有DTI预测模型常忽略子结构与全局特征的交互,SSCPA-DTI通过多特征挖掘模块(MIMM)提取药物/蛋白质的子结构序列和原始序列特征,利用交叉协同注意力模块(CPA)融合特征并捕捉相互作用模式。在Human、C.elegans和KIBA数据集上,模型AUC分别达0.990、0.992和0.9237,较基线模型(如CoaDTI-pro、HyperAttentionDTI)提升显著。消融实验显示,MIMM和CPA模块分别使性能提升3-4%和0.3-0.8%。案例分析中,模型对谷胱甘肽与其靶蛋白的预测准确率达85%,并通过分子对接验证了相互作用机制。该研究为DTI预测提供了融合局部结构与全局特征的有效框架,但对极稀疏数据场景的适应性需进一步探索。
