文献基本信息
标题:Recent advances in molecular representation methods and their applications in scaffold hopping
作者:Shihang Wang, Ran Zhang, Xiangcheng Li, Fengyu Cai, Xinyue Ma, Yilin Tang, Chao Xu, Lin Wang, Pengxuan Ren, Lu Liu, Sanan Wu, Qiyang Qian & Fang Bai
机构院校:上海科技大学等
期刊:npj Drug Discovery
发表时间:2025年
DOI:10.1038/s44386-025-00017-2
文章类型:综述 (Review)
摘要
分子表示方法的快速发展显著推动了药物发现进程。语言模型、基于图的表示方法以及新型学习策略的进步极大地提升了分子特征刻画能力。这些AI驱动的策略超越了传统的结构数据范畴,促进了更广泛化学空间的探索,加速了骨架跃迁过程。本综述总结了关键性进展,讨论了相对于传统技术的优势,并强调了数据质量和实际应用中仍存在的挑战。
一、研究背景与意义
1.1 药物发现中的计算化学挑战
药物发现是一个高度耗时且成本高昂的过程,促使研究人员不断开发新的实验和计算方法以加速各阶段的药物开发。近年来,人工智能(AI)的进步使AI辅助药物设计成为研究的热点领域。前沿方法已涌现于:
- • 化合物成药性评估
- • 虚拟筛选中的苗头化合物识别
- • 新型化合物创制的分子生成
这些方法在药物开发早期阶段发挥关键作用,实现了更快的早期筛选和可行先导化合物的识别。
1.2 分子表示:连接化学与计算的桥梁
分子表示是将分子转化为计算机可读格式的过程,是训练机器学习(ML)和深度学习(DL)模型的基础。其核心作用在于:
- 1. 桥接化学结构与生物/化学/物理性质
- 2. 将分子转换为算法可处理的数学或计算格式
- 3. 支持虚拟筛选、活性预测、骨架跃迁等关键任务
有效的分子表示不仅需要编码化学结构,还需支持化学空间的高效探索。
1.3 传统方法的局限性
传统分子表示方法主要依赖显式、基于规则的特征提取:
主要方法:
- • 分子描述符:量化物理或化学性质
- • 分子指纹:将亚结构信息编码为二进制串或数值
- • SMILES(简化分子线性输入规范):将化学结构编码为字符串
固有局限:
- • ❌ 难以捕捉分子相互作用的完整复杂性
- • ❌ 无法充分反映结构与关键药物特性(生物活性、理化性质)的复杂关系
- • ❌ 在探索近乎无限的化学空间时力不从心
二、分子表示方法的演进历程
2.1 传统分子表示方法(1892-2005)
2.1.1 命名与符号系统
历史发展:
- • 1892:IUPAC命名法由日内瓦国际化学大会引入
- • 1949:Dyson密码系统 ( Dyson cyphering )
- • 1950s:Wiswesser线性符号(WLN)
- • 1988:SMILES系统问世
- • 2005:InChI(国际化学标识符)引入
SMILES的主导地位:
- • ✅ 紧凑高效的编码方式
- • ✅ 人类可读性强
- • ✅ 衍生版本:CXSMILES、OpenSMILES、SMARTS
局限性:
- • InChI无法保证解码回原始分子图
- • SMILES虽便利但在复杂交互表示上有限
2.1.2 分子指纹与描述符
代表性方法:
- 1. 扩展连接性指纹(ECFP)
- • 紧凑高效地表示局部原子环境
- • 适用于复杂分子表示
- 2. MDL Keys
- 3. 原子对(Atom Pairs)
- 4. 拓扑扭转(Topological Torsion)
应用场景:
- • 相似性搜索
- • 聚类分析
- • 定量构效关系(QSAR)建模
优势:计算效率高、格式简洁、特征可解释
2.1.3 早期应用案例
虚拟筛选优化:
- • Bender等人研究表明不同分子描述符产生不同相似性评估
- • Chen等人提出基于相似性虚拟筛选的组合融合规则, 表明多种分子指纹整合可提升筛选性能
ML框架应用:
- • MolMapNet:将大规模分子描述符和指纹特征转换为2D特征图,使用CNN进行端到端性质预测
- • FP-ADMET / MapLight:结合不同分子指纹与ML模型建立ADMET性质预测框架
- • BoostSweet:基于LightGBM的软投票集成模型,用于分子甜度预测
- • FP-BERT:在ECFP上采用亚结构掩码预训练策略
- • CrossFuse-XGBoost:基于人体研究数据预测化合物最大推荐日剂量
2.2 AI驱动的现代分子表示方法
随着药物发现问题复杂性的增加,传统方法在捕捉分子结构与功能之间的微妙复杂关系方面表现不足,催生了更先进的数据驱动分子表示技术。
三、现代基于AI分子表示方法详解
3.1 基于语言模型的分子表示
3.1.1 核心思想
受自然语言处理(NLP)进展启发,将Transformer等模型适配用于分子表示,通过将分子序列(如SMILES或SELFIES)视为特殊的化学语言:
工作流程:
- 1. 分词化:在原子或亚结构层面(如"C"、"N"、"=")进行分词
- 2. 向量映射:将每个token映射为连续向量
- 3. 架构处理:使用Transformer/BERT等架构
- 4. 预训练策略:随机掩码等自监督学习
- 5. 嵌入学习:学习深层语义关系
优势:
- • ✅ 超越简单规则描述符
- • ✅ 捕捉关键化学与结构信息
- • ✅ 支持性质预测、分子生成、骨架跃迁等下游任务
5种现代基于AI的分子表征方法
3.1.2 代表性模型
1. Mol2vec (2018)
- • 创新点:将Morgan算法导出的分子亚结构视为"单词",整个分子视为"句子"
- • 方法:利用Word2vec算法生成有意义的嵌入
- • 优势:
- • 克服传统分子表示的稀疏性和位碰撞问题
- • 提供预训练模型捕捉化学相关亚结构关系
- • 成为化学信息学和药物发现的有价值工具
2. BERT系列模型
Mol-BERT (2021)
- • 利用BERT架构编码分子结构和上下文
- • 在SMILES序列上进行掩码语言建模任务预训练
- • 在分子性质预测任务上微调
- • 相比传统和SOTA图模型展现优越性能
MTL-BERT (2022)
- • 以SMILES为输入
- • 应用Transformer编码器和多头自注意力机制
- • 捕捉长期和短期依赖关系
- • 通过提取丰富特征有效解决数据稀缺问题
MolRoPE-BERT (2023)
- • 结合旋转位置嵌入与SMILES数据
- • 在无标签分子数据集上预训练
- • 聚焦捕捉化学相关亚结构信息
- • 提供全面改进的分子特征表示
DeepSA (2023)
- • 用途:高通量预测化合物合成可及性
- • 整合RoBERTa、DeBERTa、ELECTRA等预训练语言模型
- • 在token和position层面处理分子数据进行嵌入
- • 使用MLP进行特征解码输出合成可及性分数
3. Transformer架构创新
MOLFORMER (2022)
- • 结合化学SMILES语言与自监督学习
- • 显著改进分子特征捕捉能力
t-SMILES (2024)
- • 建立在先进NLP技术基础上
- • 构建以分子片段为中心的层次化分子表示框架
- • 提升分子生成的效率和合理性
- • 改善低资源数据集的适应性和泛化能力
INTransformer (2024)
- • 采用Transformer风格框架
- • 整合原始SMILES与噪声SMILES进行数据增强
- • 改善分子表示
- • 解决数据多样性和鲁棒性挑战
3.1.3 优势与局限
优势:
- • ✅ 高效提取大规模数据集的丰富化学特征
- • ✅ 通过预训练和自监督学习捕捉语义关系
- • ✅ 识别骨架跃迁的关键结构基序
- • ✅ 支持多样下游应用的高效微调
局限性:
- • ❌ 依赖线性表示,难以完全捕捉3D空间和拓扑复杂性
- • ❌ 生成结构创新骨架时可能缺失关键生物活性特征
- • ❌ 需结合3D结构信息以保留关键特征
总结:语言模型方法为骨架跃迁提供强大灵活框架,但需解决多维分子编码挑战以进一步释放潜力。
3.2 基于图的分子表示
3.2.1 核心概念
图神经网络(GNN)基本原理:
- • 节点:代表原子
- • 边:代表化学键
- • 优势:直接捕捉分子结构细节,与物理化学性质更直接相关
适用任务:
3.2.2 经典架构
1. Attentive FP (2020)
机制:
- • 从近邻节点向远距离节点传播信息
- • 有效捕捉局部原子环境
- • 利用图注意力机制考虑分子内非局部效应
优势:
- • 高效识别节点间隐藏的关键联系
- • 充分考虑分子固有结构
- • 平衡局部与全局信息
2. GROVER (2020)
创新点:
- • 通过自监督学习构建多层次分子图表示
- • 在1100万无标签分子数据上预训练
- • 整合消息传递网络与Transformer架构
能力:
- • 捕捉局部结构信息
- • 同时建模分子内全局关系
- • 增强结构表达能力
3.2.3 自监督与对比学习方法
1. MPG (MolGNet, 2021)
- • 节点和图层面的自监督预训练策略
- • 在1100万无标签分子上提取有价值化学洞察
- • 生成可解释且化学有意义的表示
2. ReLMole (2022)
- • 通过对比学习增强分子表示
- • 分析原子层和功能团层面的相似性
- • 在分子图内进行多层次特征学习
3. GraphMVP (2022)
- • 强调2D拓扑视图和3D几何视图的对齐与一致性
- • 自监督学习实现鲁棒的2D分子图编码
- • 无需显式3D结构信息
4. GEM (2022)
- • 几何感知图神经网络
- • 结合自监督学习策略
- • 将分子几何知识纳入表示
3.2.4 层次化与多视图策略
1. FunQG (2023)
- • 引入图论中的商图概念
- • 将分子图压缩为更小、信息更丰富的表示
- • 提升计算效率
2. MolCAP (2023)
- • 化学知识驱动框架
- • 利用化学反应性知识进行预训练和提示微调
- • 原子和键层面的自监督任务
- • 平衡多任务学习策略生成高度可迁移表示
3. SMPT (2024)
- • 使用图同构网络(GIN)架构聚合分子特征
- • 多层次捕捉分子空间几何
- • 改善下游预测任务性能
4. HiMol (2023)
- • 层次化分子图神经网络
- • 配对多层自监督预训练任务进行属性预测
- • 有效捕捉复杂分子特征
5. MMGX (2024)
- • 整合多种分子图表示:
- • 原子视图(Atom)
- • 药效团视图(Pharmacophore)
- • 连接树视图(Junction Tree)
- • 官能团视图(Functional Group)
- • 使用动态注意力机制整合
- • 捕捉互补分子特征,增强可解释性
- • 在各类预测任务达到SOTA性能
6. PharmHGT (2023)
- • 针对药效团约束的分子性质预测
- • 从异质分子图编码化学丰富特征
- • 为化学信息任务提供定制方法
3.2.5 创新编码与可视化技术
1. IFGN (2023)
- • 多步聚焦机制定位关键原子
- • 结合可视化技术
- • 对预测过程提供逐步洞察
2. GSL-MPP (2024)
- • 通过图卷积更新节点特征捕捉结构信息
- • 引入分子相似性图计算相似性
- • 生成相似性映射
- • 更好建模分子间关系,提升预测精度
3. SME (2024)
- • 为图神经网络提供化学直观解释框架
- • 分析亚结构组合
- • 解决单掩码方法的局限
- • 提供结构-性质关系的全面探索
4. Gram Matrix方法 (2024)
- • 将3D分子空间信息压缩为2D表示
- • 促进更高效的下游应用
3.2.6 知识增强方法
1. KANO (2023)
- • 利用图嵌入从知识图谱提取结构和功能线索
- • 训练word2vec模型增强分子表示
2. KPGT (2023)
- • 整合专为分子图设计的图Transformer
- • 知识引导的预训练策略
- • 有效捕捉结构和语义信息
3.2.7 创新预训练框架
1. R-MAT (2024)
- • 采用图Transformer与相对分子自注意力模块
- • 通过预训练有效泛化分子信息
2. TOML-BERT (2024)
- • 两层预训练策略
- • 结合节点层面自监督学习与图层面监督学习
- • 成功缓解数据稀缺挑战
3. MolFormer (2024)
- • 脱离传统图表示
- • 将分子视为原子不变量集合
- • 消除对显式图拓扑或分子几何的需求
- • 增强跨多样化学语境的灵活性和适应性
3.2.8 优势与挑战
核心优势:
- • ✅ 自然可解释地捕捉局部化学环境和全局分子拓扑
- • ✅ 对骨架跃迁中识别和保留关键骨架特征至关重要
- • ✅ 直接建模结构交互
- • ✅ 整合几何和层次信息
主要挑战:
- • ❌ 计算复杂度高
- • ❌ 对图构建和消息传递策略设计敏感
- • ❌ 应用于超大或复杂分子数据集时可扩展性有限
总结:基于图的分子表示模型展示了广泛创新,解决数据稀缺、可解释性、几何和层次信息整合等挑战,在分子性质预测和药物发现应用中展现变革潜力。
3.3 基于高维特征的分子表示
3.3.1 核心理念
整合高维特征(如分子3D结构、结合口袋、细胞表型)已被证明能显著增强模型的分子表示能力。
3.3.2 代表性模型
1. Uni-Mol (2023)
特点:
- • 基于3D分子结构的通用分子表示学习框架
- • 利用大规模无标签数据进行预训练
数据集规模:
- • 分子数据集:
- • 约1900万分子
- • 2.1亿个3D构象
- • 来源:多个商业数据库
- • 蛋白口袋结构数据集
技术细节:
- • 使用RDKit结合分子力场优化高效生成分子构象
- • 在大规模分布式集群上进行预训练
- • 统一模型框架
- • 有效的预训练任务策略
2. GeminiMol (2024)
核心创新:引入分子间构象空间相似性概念
工作流程:
- 1. 使用相同分子编码器独立编码类药分子对
- 2. 生成2048维分子表示向量
- 3. 投影到多个分子相似性度量
- 4. 使用2D最大公共子结构相似性和构象空间相似性作为预测头
能力:
- • 捕捉构象空间特征
- • 在多种药物发现任务展现平衡鲁棒性能:
- • 基于配体的虚拟筛选
- • 靶点识别
- • 分子性质预测
3. Ouroboros (2025)
进展:
- • GeminiMol作者的最新工作
- • 扩展训练样本数量
- • 显著提升下游任务性能
- • 验证训练策略有效性
4. PhenoModel (2024)
创新点:引入化学扰动诱导的细胞形态学变化信息
方法:
- • 使用对比学习
- • 在特征空间对齐化合物表示与扰动诱导的细胞绘画图像
- • 同时捕捉分子构象和潜在活性信息
独特视角:
- • 桥接分子数据和表型数据
- • 提供分子与表型响应之间的关键联系
3.3.3 意义与影响
核心价值:
- • ✅ 显著改善对生物活性关键的复杂空间构象和分子相互作用的捕捉
- • ✅ 利用广泛3D结构数据、蛋白-配体相互作用信息、潜在分子活性信息
- • ✅ 创新预训练策略产生鲁棒预测性分子嵌入
应用前景:
- • 增强性质预测和虚拟筛选性能
- • 建立分子构象与表型响应的关键联系
- • 为更明智有效的药物发现应用铺平道路
3.4 基于多模态的分子表示
3.4.1 研究动机
多模态分子表示学习近年来备受关注,通过整合来自不同分子模态的互补信息来增强分子性质预测的鲁棒性和可解释性。
整合模态:
- • 分子图
- • SMILES序列
- • 分子指纹
- • 分子图像
- • 分子视频数据
3.4.2 融合策略模型
1. FP-GNN (2022)
- • 通过协同训练结合分子图信息和分子指纹
- • 用于性质预测
- • 广泛采用的多模态方法
2. MoleSG (2024)
特点:
- • 使用统一的基于Transformer的骨干网络
- • 整合SMILES和分子图表示
- • 实施新颖的非重叠掩码策略
- • 确保两种模态间互补且独立的交互
性能:
- • 在14个下游任务达到SOTA性能
- • 突显多模态策略潜力
3. MMFDL (2024)
架构:
- • 使用Transformer编码器、BiGRU、GCN分别独立处理:
- • 使用计算的重要性权重融合特征
优势:
- • 有效利用不同数据源的互补信息
- • 强调整合多样模态的价值:
- • 提升预测精度
- • 增强泛化能力
- • 提高抗噪声能力
3.4.3 跨模态对比学习
1. CLAMP (2023)
- • 模块化架构:化学分子编码器 + 文本编码器
- • 通过跨模态对比学习预训练
- • 增强分子理解
2. COATI (2024)
- • 在对比学习框架内结合文本和3D分子表示
- • 产生无偏见、通用目的的分子嵌入
- • 支持下游结构模型
3. CGIP (2023)
整合要素:
学习机制:
- • 模态内对比学习
- • 模态间对比学习
- • 捕捉丰富的多模态表示
3.4.4 多模态融合框架
1. DLF-MFF (2024)
处理流程:
- • 使用专门的深度学习框架处理各模态:
- • 随后融合表示以增强预测性能
2. UniMAP (2023)
- • 采用多层Transformer模型
- • 将分子图分解为片段
- • 生成基于SMILES的多模态输入
- • 深度跨模态分子特征融合
3. PremuNet (2024)
双分支架构:
- • PremuNet-L:捕捉低维特征
- • PremuNet-H:聚焦高维特征
- • 有效整合表示以改善跨多样任务性能
3.4.5 分子图像方法
1. ImageMol (2023)
- • 采用五种预训练策略
- • 将化学知识和结构信息整合到分子图像表示
- • 增强预测任务实用性
2. ISMol (2024)
方法:
- • 结合分子图像和SMILES字符串作为双模态输入
- • 使用Vision Transformer和ChemBERTa-77M-MLM编码器
- • 通过跨模态注意力机制对齐和融合
3. VideoMol (2024)
- • 利用Vision Transformer从分子视频数据提取:
- • 实现高度精确的分子特征刻画
3.4.6 多尺度与多视图方法
MvMRL (2024)
整合要素:
架构:
- • 多尺度特征提取器
- • 双重交叉注意力机制
- • 捕捉局部和全局信息
优势:
- • 有效建模分子特征间复杂非线性关系
- • 改善预测性能
3.4.7 优势与挑战
核心优势:
- • ✅ 利用每种模态的优势
- • ✅ 捕捉分子信息的多个方面(结构拓扑、空间构象、序列模式)
- • ✅ 增强预测模型的鲁棒性和可解释性
- • ✅ 改善分子设计和性质预测结果
主要挑战:
- • ❌ 有效融合异质数据类型
- • ❌ 需要复杂的对齐策略
- • ❌ 缓解潜在噪声和冗余
总结:多模态分子表示方法利用多样分子信息源开发鲁棒、准确、可解释的性质预测模型,为推进药物发现和材料科学开辟了前景广阔的路径。
3.5 基于对比学习的分子表示
3.5.1 核心原理
对比学习利用正负样本对学习丰富的判别性分子嵌入。通过对比相似和不相似的分子,这些模型有效捕捉区分分子活性的关键特征。
特别价值:
- • 在有限标注数据场景中尤其有价值
- • 能从大型无标签数据集学习
- • 成为先导发现和优化的强大工具
3.5.2 领域知识整合方法
1. MoCL (2021)
创新点:
- • 专为分子指纹设计的对比学习框架
- • 整合化学领域知识
技术策略:
- • 局部层面增强:亚结构替换
- • 全局层面指导:Tanimoto相似性
- • 通过层次化对比目标优化分子图表示
- • 结合多视图增强与领域特定洞察
优势:
3.5.3 图对比学习框架
1. MolCLR (2022)
方法:
- • 使用GNN对比增强的分子图
- • 生成泛化的分子表示
整合要素:
- • 多样数据增强策略
- • 非线性MLP投影头
- • NT-Xent对比损失
能力:
- • 在大型化学数据集上预训练
- • 卓越的可扩展性、泛化性和可迁移性
- • 特别适用于低数据分子任务
2. iMolCLR (2022)
改进点:
- • 在MolCLR基础上开发
- • 引入加权对比损失处理假阴性
- • 在分子和片段层面学习表示
性能:
- • 在约1000万无标签分子上预训练
- • 在各类分子性质预测任务展现鲁棒性能
3. MOCO (2024)
特点:
- • 采用多视图分子特征化
- • 整合:
- • 2D拓扑
- • 3D几何
- • SMILES字符串
- • 分子指纹
- • 使用注意力机制进行加权聚合
- • 利用InfoNCE损失优化嵌入
优势:
3.5.4 针对特定挑战的框架
1. MolFeSCue (2024)
方法:
- • 结合少样本学习与对比学习
- • 解决数据稀缺和类别不平衡问题
整合模型:
- • 基于序列的ChemBERTa
- • 基于图的HuGIN
- • 跳跃知识网络模型
机制:
- • 使用动态对比损失函数生成判别性嵌入
- • 增强分子性质预测的效率和准确性
2. 3D结构方法
3DGCL (2023)
- • 利用3D分子结构
- • 使用SchNet捕捉空间信息
- • 保留分子语义一致性
3D-MOL (2024)
- • 层次化图模型
- • 专注3D空间特征
- • 维持语义完整性
3.5.5 创新图对比学习设计
1. ATMOL (2022)
- • 采用注意力式掩码图对比学习
- • 通过先进图增强和特征提取技术增强分子属性预测
2. CasANGCL (2023)
- • 整合级联注意力网络与图对比任务
- • 有效捕捉局部和全局分子表示
- • 改善鲁棒性
3. SMICLR (2022)
- • 结合图神经网络与长短期记忆网络(LSTM)
- • 从分子图谱和SMILES视图生成增强的正负样本对
- • 全面表示学习
3.5.6 多视图与基于片段的策略
1. FraSICL (2023)
方法:
- • 通过将分子图分解为片段对生成语义不变的分子视图
- • 利用多视图融合机制
- • 辅助相似性损失
能力:
2. UniCorn (2024)
3. GraphCL (2020)
- • 应用图特定增强最大化图视图间一致性
- • 产生鲁棒可迁移表示
3.5.7 优势与局限
核心优势:
- • ✅ 通过对比正负样本对增强分子嵌入的判别能力
- • ✅ 对比结构相似和不相似分子捕捉微妙特征和差异
- • ✅ 对精确性质预测和骨架跃迁至关重要
- • ✅ 利用大量无标签数据
- • ✅ 缓解化学数据集中的数据稀缺和类别不平衡挑战
主要局限:
- • ❌ 高度依赖正负对构建策略
- • ❌ 训练稳定性可能存在问题
- • ❌ 需要精心设计对比学习框架
总结:这些模型通过创新策略和多样分子模态展示了对比学习在分子表示中的变革潜力,解决数据稀缺、类别不平衡和分子复杂性等挑战,为推进分子性质预测和药物发现应用奠定了坚实基础。
四、骨架跃迁:概念、重要性与方法
4.1 骨架跃迁的定义与分类
4.1.1 基本概念
1999年,Schneider等人引入骨架跃迁概念,作为药物发现和先导优化的关键策略,旨在发现新的核心结构(骨架),同时保持与原始分子相似的生物活性或靶点相互作用。
4.1.2 分类体系
2012年,Sun等人将骨架跃迁分为四大类别(按跃迁程度递增):
- 1. 杂环取代(Heterocyclic Replacement)
- • 用不同杂环替换原有杂环
- • 保持整体骨架相似性
- • 跃迁程度:最低
- 2. 开环或闭环(Ring Opening and Closure)
- • 打开或关闭环系统
- • 改变环状结构
- • 跃迁程度:中等
- 3. 肽模拟(Peptide Mimicry)
- • 用非肽骨架模拟肽结构
- • 保持关键相互作用
- • 跃迁程度:较高
- 4. 基于拓扑的跃迁(Topology-based Hopping)
- • 基于分子拓扑相似性
- • 骨架结构可能完全不同
- • 跃迁程度:最高
4.2 骨架跃迁的重要性
4.2.1 先导化合物优化
问题导向:
解决方案:
- • 通过骨架跃迁发现的新化合物可能:
- • ✅ 进一步增强分子活性
- • ✅ 减少不良脱靶效应
- • ✅ 改善药代动力学(PK)特性
- • ✅ 改善药效学(PD)特性
4.2.2 知识产权突破
专利挑战:
骨架跃迁贡献:
- • 通过修饰核心结构帮助研究人员发现:
- • 相似生物效应的新型化合物
- • 不同结构特征的替代方案
- • 突破现有专利限制
4.2.3 化学空间探索
- • 探索新化学实体(NCE)的重要方法
- • 拓展药物发现的化学多样性
- • 发现具有独特性质的新骨架
4.3 传统骨架跃迁方法
4.3.1 药效团建模
1. 基本原理
- • 表示对生物活性重要的分子特征空间排列
- • 关键特征:
应用:识别能适配靶标结合位点的分子,促进具有相似相互作用图谱的新型骨架发现
2. NScaffold方法(2020)
创新点:
- • 采用拓扑药效团图(PhGs)
- • 将药效团特征编码为图节点
- • 将拓扑距离编码为边
排序方法:
- • 基于骨架覆盖度优先PhGs
- • 识别骨架独立的药效团特征
验证:
- • 在六个生物靶标验证
- • 优于传统评分指标(Coverage和Growth-rate)
- • 特别在有限骨架数据集表现优异
案例:
- • 在凝血酶抑制剂中成功识别关键氢键相互作用
- • 为基于配体的虚拟筛选提供可解释高效框架
4.3.2 形状相似性方法
1. 核心思想
- • 比较分子的三维形状
- • 识别与已知生物活性化合物结构相似的骨架
2. 代表性技术
ROCS(Rapid Overlay of Chemical Structures)
- • 通过形状叠加检测具有相似结合性质的分子体积
- • 快速高效的3D配体比对
Phase Shape
- • 实现灵活配体叠加和虚拟筛选
- • 快速准确的3D配体对齐
- • 活性化合物的高富集率
3. SHAFTS方法(2011)
技术特点:
- • 结合形状叠加评分(ShapeScore)
- • 结合药效团特征匹配(FeatureScore)
- • 采用特征三元组哈希算法增强骨架发现效率
验证结果:
- • 在DUD和Jain基准数据集上回顾性验证
- • 相比ROCS和ShaEP展现优越的早期富集和骨架多样性
前瞻性研究:
- • 识别了16个RSK2抑制剂
- • 包括低微摩尔级命中化合物
- • 具有强效抗迁移活性
意义:
- • 桥接基于配体的虚拟筛选和骨架跃迁
- • 化学空间探索和先导发现的鲁棒工具
4.3.3 指纹和相似性搜索
1. 基本方法
利用分子描述符提供计算高效的骨架跃迁策略:
- • ECFP(扩展连接性指纹)
- • 基于药效团的方法
2. ErG方法
技术原理:
- • 将分子图抽象为简化图
- • 使用药效团类型节点
- • 捕捉生物相关特征同时保留化学多样性
创新点:
- • 为特征间距离引入模糊递增
- • 相比传统指纹(如DAYLIGHT)改善骨架多样性和检索率
验证:
- • 在MDDR数据库的11个活性类别验证
- • 在10个类别中优于传统方法
- • 为基于配体的虚拟筛选提供高度可解释且计算高效的替代方案
3. WHALES描述符
特点:
- • 提供全面的3D表示
- • 整合几何、原子距离和分子性质信息
性能:
- • 在182个生物靶标的回顾性筛选中
- • 相比基准描述符(MACCS、ECFP)实现优越的骨架多样性
前瞻性验证:
- • 识别了四种新型RXR激动剂
- • 包括罕见的非酸性化学型
- • 具有纳摩尔级活性和高选择性
意义:
- • WHALES探索未知化学空间的能力突显其作为强大骨架跃迁工具的潜力
4.3.4 传统方法的局限性
主要限制:
- • ❌ 依赖预定义库,限制探索广阔化学空间的能力
- • ❌ 基于固定规则和专家知识
- • ❌ 难以处理复杂分子修饰
- • ❌ 可扩展性有限
这些局限推动了AI驱动方法的发展。
4.4 现代基于AI的骨架跃迁方法
4.4.1 方法论革新
近年来,AI进展如变分自编码器(VAE)和扩散模型越来越多地用于设计全新骨架(现有化学库中不存在),同时量身定制分子以具有期望性质。这种数据驱动向AI增强骨架生成的转变为研究人员提供了先进工具,更高效地探索广阔化学空间,促进发现具有增强疗效和安全性的新型生物活性化合物。
4.4.2 基于图和VAE生成模型
1. GraphGMVAE (2021)
方法:
- • 采用高斯混合变分自编码器
- • 将骨架和侧链编码到独立分布
- • 促进精确骨架修饰同时保留药效团特征
验证:
- • 在JAK1(Janus激酶1)抑制剂上验证
- • 生成新型骨架成功率达97.9%
- • 多个合成化合物展现强生物活性
- • 包括IC50为5.0 nM的化合物
2. ScaffoldGVAE (2023)
创新:
- • 在GraphGMVAE基础上构建
- • 整合多视图图神经网络
- • 捕捉骨架层面和分子动力学特征
性能:
- • 在各类激酶靶标实现近乎完美的成功率
- • 成功生成具有高活性的新型LRRK2抑制剂
4.4.3 多模态和药效团引导方法
1. DeepHop (2021)
特点:
- • 结合3D分子结构与蛋白序列嵌入
- • 利用Transformer架构优化骨架生成
训练规模:
性能:
- • 成功率达65.2%
- • 保持高3D相似性
- • 为先前未见靶标生成生物活性骨架
2. PGMG (2023)
方法:
- • 将药效团特征编码到完整图中
- • 解决药效团与分子间的多对多关系
- • 生成生物活性化合物
应用:
- • 在骨架跃迁中表现出色
- • 产生具有增强生物活性和类药性的新型EGFR抑制剂
4.4.4 扩散模型方法
扩散模型已成为骨架跃迁的变革性工具,提供精确的空间控制和增强的骨架多样性。
1. DiffLinker (2024)
技术:
- • 利用E(3)等变扩散模型
- • 用于骨架跃迁和连接体生成
优势:
2. DiffHopp (2023)
架构:
- • 采用E(3)等变图扩散模型
- • 专为骨架跃迁设计
- • 利用条件概率分布在蛋白口袋内生成新型分子骨架
技术整合:
- • 整合基于几何向量感知器(GVP)的编码器
- • 3D分子图扩散
能力:
验证:
- • 在PDBBind数据集上验证
- • 在关键指标表现优异:
- • QED(定量估计类药性)
- • SA(合成可及性)
- • Vina分数(结合亲和力)
意义:
- • 定位为探索化学空间和推进蛋白-配体相互作用研究的鲁棒框架
3. DiffSBDD (2022)
创新点:
- • 整合蛋白口袋信息
- • 实现上下文感知骨架跃迁
- • 优化分子性质(结合亲和力、类药性)
能力:
- • 在保留关键亚结构的同时擅长生成多样、化学合理的骨架
- • 无需重新训练即可高效工作
验证:
- • 在Binding MOAD数据集上实验验证
- • 相比基线方法展现显著改进:
- • 在对接分数和合成可及性方面表现优异
意义:
- • 在骨架跃迁中的灵活性突显其探索药物发现中未知化学空间的潜力
4. PMDM (2024)
方法:
性能:
- • 在具有挑战性的骨架跃迁任务中表现强劲
- • 靶标包括:
能力:
- • 准确捕捉蛋白口袋动力学
- • 为基于结构的药物设计提供鲁棒框架
5. TurboHopp (2024)
创新点:
- • 解决传统扩散模型的计算低效问题
- • 引入高效骨架跃迁算法
- • 使用E(3)等变一致性模型
- • 结合强化学习
突破:
技术策略:
性能:
- • 骨架生成速度提升高达30倍
- • 同时改善分子性质:
验证:
- • 在PDBBind数据集上验证
- • 在关键指标上优于DiffHopp等模型
意义:
- • 为骨架跃迁的效率和质量树立新基准
- • 加速基于结构的药物设计
4.4.5 综合生成框架
1. REINVENT 4 (2024)
特点:
骨架跃迁能力:
- • 生成连接关键片段的创新连接体
- • 诱导新型核心骨架
- • 优化期望的药理学性质
2. Ouroboros (2025)
策略:
- • 在预训练分子编码器的潜在空间内采用定向化学演化策略
工作流程:
- 1. 将分子映射到连续潜在空间
- 2. 采用迭代"突变"和选择过程
- 3. 引导分子表示从一个骨架区域到另一个
机制:
- • 利用潜在空间的固有连续性
- • 实现受控渐进的骨架转换
- • 同时保留或增强靶标性质
4.4.6 方法学总结
技术融合趋势:
这些方法展示了生成建模和分子表示在骨架跃迁中的融合。每种方法贡献独特创新:
- 1. 解耦潜在表示
- • GraphGMVAE
- • ScaffoldGVAE
- • Ouroboros
- 2. 多模态学习
- 3. 3D等变扩散
- • DiffLinker
- • DiffHopp
- • DiffSBDD
- • DiffPROTACs
发展重点:
- • ✅ 可扩展性
- • ✅ 多样性
- • ✅ 生物学相关性
意义:为探索药物发现中未知化学空间奠定坚实基础
五、当前挑战与未来展望
5.1 过度强调基准性能
5.1.1 问题描述
"排行榜军备竞赛"现象:
- • 大多数方法主要在标准基准数据集上评估
- • 在基准上达到SOTA性能被优先于解决实际科学挑战
- • 一些方法引入新颖训练范式或提供可解释性,但从实验角度缺乏逻辑一致性
AI驱动方法的潜在陷阱:
- • 可能利用数据集特定技巧实现高基准分数
- • 可能以牺牲泛化能力为代价
- • 在基准数据集表现良好,但难以扩展到未在数据集中表示的新分子
5.1.2 有趣发现
多项研究表明,通过:
- • 有效结合分子图信息与分子指纹特征
- • 仔细选择模型架构
- • 适当的参数调优
传统表示方法也能达到高水平性能。
5.1.3 解决方案
建议方向:
- • 结合AI和传统分子表征方法
- • 开发通用、自适应AI架构
- • 能够自我调整以适应各种基准场景
- • 类似分子相互作用和性质预测的最新进展
5.2 数据质量和数量依赖
5.2.1 核心问题
AI驱动方法的数据依赖:
- • 严重依赖训练数据的质量和数量
- • 数据集不足
- • 实验数据的批次效应
- • 数据标注偏差
这些问题会严重影响模型性能和泛化能力。
高质量标注数据获取困难:
- • 针对特定药物靶标获取高质量标注数据成本高、耗时长
- • 大规模实验数据集通常是商业组织的专有资产
- • 限制更广泛研究社区的可及性
- • 限制AI模型的通用适用性
5.2.2 创新解决策略
1. 联邦学习(Federated Learning)
原理:
- • 使多个机构或公司能够协作训练AI模型
- • 无需直接共享敏感或专有数据
机制:
- • 聚合模型更新而非原始数据
- • 缓解隐私担忧
- • 利用多样数据集的集体力量
2. 联邦学习 + 知识蒸馏
参考案例:
流程:
- • 允许复杂的局部模型(教师)将学到的知识转移到紧凑的全局模型(学生)
优势:
- • 增强AI模型的鲁棒性和性能
- • 缓解数据异质性和有限泛化能力的限制
5.3 化学空间探索的局限
5.3.1 传统方法限制
问题:
- • 传统骨架跃迁方法通常依赖预定义规则
- • 限制探索多样化学空间的能力
5.3.2 现代AI方法的挑战
训练数据集分布问题:
- • 可能导致生成的骨架收敛到特定化学型
- • 降低多样性
- • 未能探索新颖或非常规化学结构
平衡挑战:
- • 骨架跃迁需要识别结构多样但保留特定生物活性的化合物
- • 无法实现这种平衡对实际应用构成挑战
5.3.3 潜在解决方案
基于注意力多模态融合网络:
设计思路:
- • 自适应学习2D、3D和深度学习表示之间的关系
- • 设计专用融合层
- • 将不同模态特征整合到共享潜在空间
优势:
- • 捕捉更全面的分子信息数组
- • 增强化学空间探索效率
- • 提高骨架跃迁成功率
5.4 合成可及性和类药性
5.4.1 核心挑战
AI生成模型的问题:
- • 虽然擅长创建新型骨架
- • 但确保合成可行性和类药性质仍是重大挑战
常见问题:
- • 许多生成分子可能难以或不切实际合成
- • 可能表现出次优的药代动力学(PK)或药效学(PD)特征
- • 通常需要额外过滤步骤排除不合适候选物
三重平衡挑战:
- 1. 探索新型化学空间
- 2. 保持合成可及性
- 3. 保留关键活性特征
5.4.2 解决方案
整合合成可行性评估:
策略:
- • 将合成可及性分数直接整合到生成模型的奖励函数
- • 整合功能性反应模板
- • 整合逆合成预测算法
目标:
- • 优先考虑不仅新颖而且合成可行的分子
- • 在创新性和实用性之间取得平衡
5.5 多模态表示整合的挑战
5.5.1 可解释性问题
核心困境:
- • 尽管多模态分子表示模型兴起
- • 跨模态整合受到更多关注
- • 但在药物发现工作流中有效结合2D、3D和DL表示面临重大挑战
图神经网络的局限:
- • 可能通过可视化节点或边权重提供一定可解释性
- • 这些洞察往往是系统特定的
- • 缺乏泛化能力
理解障碍:
- • 理解特定分子特征如何影响预测活性本质上困难
- • 整合多模态数据进一步加剧这一问题
- • 阻碍分子的理性优化
5.5.2 骨架跃迁中的生物活性保留
修饰风险:
- • 修饰分子骨架通常有损害生物活性的风险
- • 化合物设计期间忽略靶标结构特征可能进一步降低活性
复杂相互作用捕捉:
- • 捕捉复杂相互作用(如蛋白-配体结合)仍是关键但具挑战性的任务
- • 解释分子与蛋白3D构象和动力学的相互作用
现有方法的进展与限制:
- • 3D图模型和扩散模型取得显著进展
- • 但在有效处理灵活和动态分子系统方面仍存在困难
5.6 未来研究方向
5.6.1 技术融合
多模态深度整合:
- • 开发更复杂的融合策略
- • 有效整合序列、图、3D结构、表型数据
- • 保持可解释性
端到端学习框架:
- • 从分子表示到性质预测到骨架生成
- • 构建统一的端到端学习系统
5.6.2 数据与知识整合
知识图谱增强:
- • 整合化学、生物学、药理学知识图谱
- • 指导分子表示学习和骨架跃迁
主动学习策略:
- • 开发智能实验设计方法
- • 最小化标注数据需求
- • 最大化模型性能
5.6.3 实用性提升
合成可行性优先:
- • 将逆合成规划深度整合到生成模型
- • 确保生成分子的可合成性
实验验证闭环:
- • 建立计算预测-实验验证-模型更新的闭环系统
- • 加速从硅到湿实验室的转化
5.6.4 泛化与鲁棒性
跨靶标迁移学习:
- • 开发能够跨不同靶标类别泛化的模型
- • 减少对大规模靶标特定数据的依赖
不确定性量化:
- • 整合贝叶斯方法或集成学习
- • 提供预测的可信度评估
- • 指导实验优先级
六、总结与展望
6.1 主要贡献
本综述全面系统地梳理了分子表示方法从传统规则到AI驱动创新的演进历程:
技术演进路径:
- 1. 传统方法时代(1892-2005)
- • IUPAC命名、SMILES、分子指纹
- • 基于规则的特征提取
- • 计算效率高但表达能力有限
- 2. AI驱动时代(2018至今)
- • 语言模型方法:Mol2vec、BERT系列、Transformer架构
- • 图神经网络:GROVER、Attentive FP、多视图学习
- • 高维特征:Uni-Mol、GeminiMol、PhenoModel
- • 多模态学习:FP-GNN、ImageMol、VideoMol
- • 对比学习:MolCLR、GraphMVP、3DGCL
- 3. 骨架跃迁方法
- • 传统:药效团建模、形状相似性、指纹搜索
- • 现代:VAE生成、扩散模型、强化学习
6.2 关键洞察
6.2.1 技术互补性
没有"银弹"方法:
- • 不同方法各有优势
- • 语言模型:高效处理序列信息
- • 图神经网络:自然表示拓扑结构
- • 多模态学习:整合互补信息
- • 对比学习:从无标签数据学习
融合是趋势:
- • 最佳实践是结合多种方法优势
- • 针对具体任务选择或设计适当架构
6.2.2 数据是核心
质量优于数量:
- • 高质量、多样化数据决定模型性能上限
- • 数据偏差和批次效应严重影响泛化能力
数据共享机制创新:
- • 联邦学习缓解隐私担忧
- • 知识蒸馏提升模型效率
- • 需要建立更好的数据共享生态
6.2.3 应用导向
避免基准陷阱:
- • 不能仅追求基准性能
- • 需解决实际科学问题
- • 重视实验验证
可解释性与性能平衡:
- • 高性能模型往往是黑箱
- • 需要开发可解释AI方法
- • 指导理性药物设计
6.3 学科交叉的必然性
化学信息学:
- • 提供分子表示的化学基础
- • 定义合理的分子描述符
计算机科学:
生物学与药理学:
成功需要:
- • 跨学科深度协作
- • 互相理解各领域语言和范式
- • 共同推动方法学创新
6.4 未来愿景
6.4.1 短期目标(1-3年)
方法学改进:
- • 更高效的预训练策略
- • 更好的多模态融合机制
- • 增强的可解释性方法
数据资源建设:
- • 构建更大规模高质量数据集
- • 建立数据共享标准和平台
- • 改善数据标注质量
6.4.2 中期目标(3-5年)
端到端系统:
- • 整合表示学习、性质预测、分子生成
- • 构建自动化药物发现流程
- • 实现计算-实验闭环
泛化能力提升:
- • 开发少样本学习方法
- • 实现跨靶标迁移学习
- • 提高零样本预测能力
6.4.3 长期愿景(5-10年)
AI驱动的药物设计新范式:
- • 从"发现"到"设计"的转变
- • 理性设计全新化学实体
- • 大幅缩短药物研发周期
个性化医疗应用:
- • 结合患者特异性信息
- • 设计个性化药物
- • 优化治疗方案
可持续药物发现:
- • 优先合成可及的分子
- • 减少实验浪费
- • 绿色化学整合
6.5 对研究者的建议
6.5.1 方法选择
根据任务特点选择:
- • 序列数据丰富:考虑语言模型
- • 拓扑结构重要:使用图神经网络
- • 3D信息关键:整合空间特征
- • 数据稀缺:采用对比学习或迁移学习
不要盲目追求复杂性:
- • 有时简单方法同样有效
- • 可解释性也是重要考量
- • 计算成本需要平衡
6.5.2 数据处理
重视数据质量:
- • 仔细清洗和验证数据
- • 识别和处理批次效应
- • 考虑数据增强策略
充分利用无标签数据:
6.5.3 评估与验证
多维度评估:
- • 不仅关注准确性
- • 考虑鲁棒性、泛化能力
- • 评估计算效率
重视实验验证:
- • 计算预测需要实验确认
- • 建立计算-实验协作
- • 迭代优化模型
6.5.4 开放科学
代码和数据共享:
- • 提高研究可重复性
- • 促进方法比较和改进
- • 加速领域发展
跨学科交流:
- • 参加多学科会议
- • 建立跨领域合作
- • 学习其他领域的方法论
七、结语
分子表示方法和骨架跃迁技术的快速发展正在深刻改变药物发现的范式。从基于规则的传统方法到数据驱动的AI创新,我们见证了计算化学和机器学习的深度融合。
然而,技术进步并非终点。我们仍面临诸多挑战:
- • 如何确保AI模型的可解释性?
- • 如何在新颖性和合成可行性间取得平衡?
- • 如何从有限数据中学习并泛化?
- • 如何将计算预测转化为临床候选药物?
这些问题的答案需要化学、生物学、计算机科学等多个学科的共同努力。我们相信,随着技术的不断进步和跨学科合作的深化,AI驱动的药物发现将迎来更加辉煌的未来,为人类健康事业做出更大贡献。
让我们共同期待并推动这一激动人心领域的发展!
本文为服务AIDD中文社区整理,所有学术成果归原作者所有。