

文献来源:Catacutan D.B., Alexander J., Arnold A. & Stokes J.M. Machine learning in preclinical drug discovery. Nature Chemical Biology, 20, 960–973 (2024). DOI:https://doi.org/10.1038/s41589-024-01679-1 机构:McMaster University,David Braley Centre for Antibiotic Discovery
新药研发是人类面临的最复杂工程挑战之一。一款新药从靶点发现到市场上市,平均需要 12–15 年,耗资超过 25 亿美元,而候选化合物从一期临床到获批上市的成功率不足 10%。如果将临床前阶段纳入统计,失败率则更为惊人。
临床失败的主要原因已经相当清晰:
失败原因 | 占比 |
|---|---|
临床疗效不足 | ~50% |
不可接受的毒性 | ~30% |
药代动力学性质不佳 | ~15% |
商业需求不足 / 战略规划失当 | ~10% |
这意味着,药物研发流程中存在大量系统性、可预测的失败——而这正是机器学习(ML)最擅长解决的问题类型。
本文由 Jonathan M. Stokes 团队(麦克马斯特大学,抗生素发现领域的领军机构)发表于 Nature Chemical Biology,系统梳理了 ML 在药物研发临床前阶段的进展。
本文将临床前药物研发拆解为三个核心阶段,并分别梳理了 ML 的应用:
化学空间探索
↓
【Step 1】苗头化合物发现 (Hit Identification)
├── 虚拟筛选(Virtual Screening)
└── 从头分子生成(Molecular Generation)
↓
【Step 2】作用机制解析 (MOA Elucidation)
├── 蛋白质结构预测(AlphaFold2, RoseTTAFold, ESMFold)
├── 分子对接(DiffDock)
└── 功能蛋白设计(RFdiffusion)
↓
【Step 3】转化研究(Translational Investigations)
├── 溶解性 / log(P) 预测
├── 毒性预测(hERG、临床毒性)
└── 综合 ADMET 评估(ADMET-AI)
↓
临床候选化合物下面我们逐一深入。

高通量筛选(High-Throughput Screening, HTS)是过去几十年新药发现的主流策略。其原理是将大量化合物逐一测试,寻找对目标靶点或细胞表型有活性的分子。然而 HTS 存在根本性瓶颈:
ML 虚拟筛选的核心价值,在于以极低的计算成本代替或补充湿实验,对远超 HTS 规模的化学库进行预测性评估。
在 ML 方法能被用于分子性质预测之前,首先需要解决的是如何将分子表示为计算机可处理的数值向量。
传统方法(分子指纹)的思路是将分子编码为固定长度的二进制向量,每一位代表某个子结构是否存在(如 Morgan 指纹、MACCS keys)。这种方法简单高效,但存在致命缺陷:
有向消息传递神经网络(D-MPNN / Chemprop) 从根本上解决了这一问题。其核心思想是将分子视为图(Graph),每个原子是节点,每个化学键是边。在训练过程中,每个节点通过若干轮"消息传递"步骤,将周围原子的化学信息聚合更新到自身向量中,最终获得上下文感知、任务自适应的分子嵌入表示。

代表性成果:halicin 与 abaucin 的发现
Stokes 团队(即本文第一作者所在团队)使用 D-MPNN 对约 7,000 个"药物再利用中心"(Drug Repurposing Hub)化合物进行预测,筛选条件是对大肠杆菌(E. coli)的生长抑制活性。结果发现:
两项研究均证明,ML 优先排序显著提升了体外实验的命中率,相比传统 HTS 效率大幅提升。
与基于表型数据的 D-MPNN 不同,结构导向的虚拟筛选的思路是预测分子与靶蛋白的结合亲和力(对接分数),从而优先筛选可能成为抑制剂的化合物。
传统物理对接算法(如 Glide、AutoDock Vina)原理上可以对每个分子进行精确构象采样,但当化学库规模达到数十亿时,计算资源需求(>1,000 CPU/GPU)完全不可承受。
Deep Docking 的解决方案是一种"以小换大"的迭代策略:
案例:Deep Docking 对 ZINC15 数据库 13 亿化合物进行 SARS-CoV-2 主蛋白酶(Mᵖʳᵒ)的虚拟筛选,实验验证发现了一类全新的非共价 Mᵖʳᵒ 抑制剂。
值得注意的局限性:Deep Docking 的预测标签来源于 in silico 对接分数,而非实验数据,因此模型继承了对接软件本身的误差。对于柔性较大的配体或对接参数化不准确的蛋白,误差可能被放大,影响下游预测质量。
虚拟筛选的前提是"库里有"——分子必须已经存在于化学库中。而从头分子生成(de novo molecular generation) 则完全突破了这个限制,直接在化学空间中创造前所未有的新分子。
药物化学空间估计达到 10⁶⁰ 量级,现有开源化学库只覆盖其中极小一部分。生成模型的价值正在于此:系统性探索人类尚未合成过的分子区域。
VAE 由编码器和解码器两个神经网络组成:
通过在采样时引导解码器朝向高活性区域,可以定向生成具有目标性质的分子。
JAEGER(JT-VAE based):将 VAE 与抗疟活性预测器联合训练,生成了对恶性疟原虫 3D7 株具有纳摩尔活性(nM 级)的新型抗疟化合物,并保持了低肝细胞毒性。
JT-VAE(Junction Tree VAE) 是 VAE 在分子生成上的重要改进:它直接操作分子图结构而非 SMILES 字符串,将分子先转换为"结构树"(junction tree),有效提升了生成分子的有效性,达到 100% 有效率,并在约束和非约束优化任务上均超越了早期 VAE 模型。

GraphAF(图自回归流模型) 通过可逆变换在分子图与潜空间之间建立精确映射,以自回归方式逐原子、逐键生成分子,并结合强化学习(以 QED、log(P) 等为奖励函数)优化目标性质。相比 JT-VAE,其优势在于可以精确计算生成样本的概率,避免了 VAE 近似似然估计引入的误差。
等变扩散模型(EDM, 2022) 则在三维空间中直接生成分子:在前向扩散过程中逐步向分子坐标和原子特征添加高斯噪声,在反向去噪过程中学习逐步还原分子。其重要特点是旋转和平移等变性,确保生成分子的物理合理性。然而,该模型在处理大型类药物分子时稳定性下降,应用范围仍有限。
SMILES 字符串的序列化特性使其天然适合语言模型处理。化学语言模型(CLM) 通常基于 RNN(如 LSTM),通过自监督学习在大规模分子字符串上学习化学语法与结构规律。
传统 CLM 的痛点是需要大量训练数据,而很多治疗领域数据匮乏。迁移学习有效解决了这一问题:先在大规模通用化学库(如 85 万个 USPTO 专利化合物)上预训练,再在少量目标分子(如 46 个 PI3Kγ 抑制剂)上微调。实验结果是生成超过 100 万个新 SMILES 字符串,经分类器筛选后,合成的 6 个候选物全部对 PI3Kγ 展现出纳摩尔活性——仅凭 46 个初始训练样本。

MolGPT 将 Transformer 引入分子生成,支持:
基于 GPT-3 的大语言模型(LLM)进一步打破了接口门槛——研究者可以直接用自然语言提示(如"生成一个溶解度高、hERG 安全的激酶抑制剂")驱动分子生成,这为非计算背景的药物化学家打开了新的入口。不过,目前 LLM 在生成式化学中的应用仍处于早期阶段,尚无经实验验证的临床前候选物报道。
确定苗头化合物之后,理解它如何发挥作用是优化过程不可或缺的一步。传统 MOA 解析依赖遗传筛选、生化方法等,耗时且通量低。ML,尤其是蛋白质结构预测领域的突破,正在从根本上改变这一局面。
AlphaFold2(AF2) 由 DeepMind 开发,在 2020 年第 14 届 CASP 竞赛中以压倒性优势夺冠,标志着从序列预测蛋白质三维结构这一困扰生物学半个世纪的难题取得了革命性突破。
AF2 的技术架构可以分为三个核心模块:
① 输入表示
② Evoformer(双轨神经网络)
③ 结构模块
在药物发现中的应用案例:利用 PandaOmics(基于组学的深度学习模型)筛选肝癌治疗靶点后,基于 AF2 预测的 CDK20 结构,通过 Chemistry42 生成小分子,实验验证得到结合亲和力(Kd)为 8.9 ± 1.6 μM 的 CDK20 抑制剂——CDK20 在多种肿瘤中高度过表达,此前无已知结构,AF2 的预测直接使这一靶点"可药化"。
AF2 的局限性也不应被忽视:对于与未知分子结合才能正确折叠的蛋白(诱导契合)、大型蛋白复合物中由异质链间相互作用决定结构的结合域,AF2 的预测精度显著下降。这意味着在某些情况下,AF2 结构可能不足以支撑结构导向的药物设计。

RoseTTAFold 在 AF2 的双轨框架基础上,增加了第三轨道——直接引入 Cα/C/N 原子的三维坐标(SE(3)-Transformer),实现 1D(序列)、2D(距离矩阵)、3D(坐标帧)信息的同步处理,而非 AF2 的序贯处理模式。
在对人类 ADAM(去整合素金属蛋白酶)家族蛋白的预测中,RoseTTAFold 成功预测了 ADAM33 前结构域的三维结构(此前无同源已知结构),揭示了其含半胱氨酸的脂质运载蛋白样 β-桶折叠,与实验数据一致验证了"半胱氨酸开关"调控机制。
然而,AF2 和 RoseTTAFold 均依赖 MSA,对于快速进化蛋白(如抗体 CDR 区域)和孤儿蛋白(无已知同源序列),MSA 噪声大或根本不可用,预测效果较差。
蛋白质语言模型(PLM) 正是为填补这一缺口而生:
传统分子对接(如 Glide、Vina)本质上是搜索问题:在给定蛋白口袋中枚举配体构象,寻找能量最低的结合姿态。这类方法对搜索空间的覆盖和评分函数的准确性高度敏感。
DiffDock 则将对接重构为生成建模问题:
DiffDock 在 17,000+ 个蛋白-配体复合物(PDBbind 数据集)上训练,在 40 个结合位点的 top-1 预测成功率上超越了所有现有的搜索类、商业和深度学习对接方法。
在 MOA 解析中的实际价值:当实验数据(如耐药突变谱、亲和色谱)暗示某个蛋白可能是药物靶点时,深度学习方法可快速提供高质量的对接结果,辅助或挑战实验假说,而无需等待长周期的物理对接计算。

如果说 DiffDock 是在已有蛋白结构上"放置"小分子,RFdiffusion(RoseTTAFold Diffusion) 则更进一步——从头创造满足特定功能需求的全新蛋白质。
其技术路线是将 RoseTTAFold 的结构预测网络微调为扩散模型的去噪网络:
实验验证表明,RFdiffusion 能设计出具有预设对称性的高阶蛋白架构,可溶性表达验证成功——这是对接和小分子设计之外,ML 在靶向生物制剂与功能蛋白领域的重要延伸。
在 MOA 解析的另一维度,Geneformer 将迁移学习应用于单细胞转录组学,从基因调控网络中直接挖掘治疗靶点。
核心设计:
在扩张型和肥厚型心肌病的应用中,研究者用少量患者样本微调 Geneformer,预测靶点后在体外心肌病模型中进行验证,获得心脏组织功能改善——证明了该方法在临床相关数据极为有限场景下的实用价值。
发现了有活性的苗头化合物,只完成了药物发现的一半。候选药物还必须具备良好的成药性(drug-likeness),包括吸收(A)、分布(D)、代谢(M)、排泄(E)和毒性(T)——即 ADMET 属性。历史数据显示,ADMET 问题是临床失败的重要根源,而 ML 正在大幅提升这一环节的预测效率。
log(P)(正辛醇-水分配系数)是衡量分子脂溶性的核心参数,直接影响膜通透性、溶解度、生物利用度和代谢稳定性——是 Lipinski 五规则的核心指标之一。
传统计算方法 clog(P) 基于片段常数加和,自1980年代沿用至今,但对特殊结构存在系统误差,这在药物优化中可能导致错误决策。
一项近期研究训练了四种 ML 架构(SVM、MLP、XGBoost、随机森林),关键创新是将液相色谱保留时间(LC RT) 作为额外输入特征。保留时间与 log(P) 存在强相关性,可以提供超越分子结构本身的物理化学信息。
结果:MLP 表现最优,与不含保留时间特征的现有模型相比,平均绝对误差降低 20–30%。不过,此方法的局限在于保留时间数据并非总是可及,限制了其在通用筛选场景中的推广。

hERG(人 ether-à-go-go 相关基因) 编码钾离子通道,其阻断会引起 QT 间期延长,严重时导致室性心律失常,是药物性心脏毒性最重要的机制之一,也是临床失败(约 30% 毒性相关失败)的主因之一。
一项 2023 年研究对比了多种 ML 方法预测 hERG 毒性的能力,核心设置如下:
图卷积网络 在 AUC-ROC 指标上表现最优——因为其能从原子图中直接学习与 hERG 结合相关的结构特征,而不依赖人工设计的指纹。
重要的方法论提醒:该研究未对新化合物进行实验验证。ML 毒性预测模型的外推性是一个持续争议的问题,模型在训练集相似化合物上表现良好,但在结构新颖分子上的可靠性需谨慎评估。
ADMET-AI 是目前最全面的开源 ADMET 预测平台,其设计理念是:不只预测单个性质,而是提供覆盖整个 ADMET 空间的多维评估。
技术架构:
覆盖性质包括:水溶性、口服生物利用度、血脑屏障通透性、hERG 安全性、CYP 酶代谢、急性毒性等。
在 TDC 排行榜中,ADMET-AI 是综合 ADMET 预测方向排名最高的平台。值得注意的是,对于特定单一 ADMET 任务(如单独的 hERG 预测),TDC 排行榜上的专项模型可能优于 ADMET-AI,应根据具体需求选择工具。
在 ADMET 预测中,最具挑战性的是直接预测临床毒性——因为伦理限制导致此类数据极为稀缺,且体外(in vitro)→ 体内(in vivo)→ 临床的毒性转化关系极为复杂。
一项研究通过以下策略应对这一挑战:
多任务 SMILES 嵌入模型在性能上优于单任务模型和 MoleculeNet 基准,但作者也坦承,部分识别出的"毒效团"仅为单个碳或氧原子,提示模型仍存在特征归因不够精确的问题。
这篇综述最值得称道的地方,是作者们并未沉浸于技术乐观主义,而是明确指出了当前 ML 方法面临的结构性挑战:
核心矛盾:ML 的性能严格依赖训练数据的质量和覆盖范围,而高质量药物研发数据大量存储于各制药公司私有数据库中,难以公开共享。
作者呼吁:建立标准化、质量受控、实验透明的开源数据资源,并充分考虑来自不同药理实验体系的数据异质性。联邦学习框架(如 MELLODDY)是一个方向——允许多家公司在不共享原始数据的前提下联合训练模型。
随着 ML 在药物研发中的作用日益深入,监管机构(FDA、EMA 等)正在要求对 ML 模型输出提供清晰的科学依据,特别是在临床试验相关决策中。"黑盒"模型的可信度问题不仅是学术问题,更是现实监管挑战。
当前的可解释性工具(如 Chemprop 的子结构归因、MolGPT 的显著性图)提供了一定程度的透明度,但"为什么模型认为某个子结构是关键的"这一更深层问题,在很多情况下仍无令人满意的答案。
文章明确批评了一个普遍存在的问题:许多生成模型的评估仅基于 in silico 指标(唯一性、有效性、QED、clog(P) 等),而不进行实验合成和活性测试。
这些指标固然重要,但无法验证:
作者强调:推动数据科学家与实验生物学家的深度合作,构建"模型预测 → 实验验证 → 数据反馈 → 模型迭代"的主动学习闭环,是 ML 真正赋能药物发现的唯一路径。
实现真正意义上 ML 驱动的药物研发,需要一批"双语人才"——既能理解化学生物学的核心逻辑,又能恰当应用 ML 方法的研究者。这是一个人才培养的长期命题。
这篇综述的核心贡献在于提供了一份有分寸感的领域地图。它既展示了 ML 在药物发现中令人振奋的成果(halicin、AlphaFold2、DiffDock),又保持了对局限性的清醒认知——数据瓶颈、可解释性缺失、实验验证不足。
当前,大量 ML 药物发现论文存在一个共同模式:提出新模型、在 in silico 基准上展示优异性能、声称"将加速药物发现"——但缺乏真实的生物学验证。本文作者明确批评了这一趋势,强调湿实验验证的不可替代性,这在领域内具有重要的方法论纠偏价值。
未来,随着数据基础设施的完善、模型可解释性的提升以及实验-计算协作机制的成熟,端到端 ML 驱动的药物发现流水线将从愿景走向现实。这篇文章,正是这一转变的重要路标。