首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Nat. Chem. Biol. | 人工智能重塑药物发现:从算法到转化的全链条革命

Nat. Chem. Biol. | 人工智能重塑药物发现:从算法到转化的全链条革命

作者头像
DrugIntel
发布2026-06-24 14:05:23
发布2026-06-24 14:05:23
1560
举报

文献来源:Catacutan D.B., Alexander J., Arnold A. & Stokes J.M. Machine learning in preclinical drug discovery. Nature Chemical Biology, 20, 960–973 (2024). DOI:https://doi.org/10.1038/s41589-024-01679-1 机构:McMaster University,David Braley Centre for Antibiotic Discovery


一、为什么要读这篇文章?

新药研发是人类面临的最复杂工程挑战之一。一款新药从靶点发现到市场上市,平均需要 12–15 年,耗资超过 25 亿美元,而候选化合物从一期临床到获批上市的成功率不足 10%。如果将临床前阶段纳入统计,失败率则更为惊人。

临床失败的主要原因已经相当清晰:

失败原因

占比

临床疗效不足

~50%

不可接受的毒性

~30%

药代动力学性质不佳

~15%

商业需求不足 / 战略规划失当

~10%

这意味着,药物研发流程中存在大量系统性、可预测的失败——而这正是机器学习(ML)最擅长解决的问题类型。

本文由 Jonathan M. Stokes 团队(麦克马斯特大学,抗生素发现领域的领军机构)发表于 Nature Chemical Biology,系统梳理了 ML 在药物研发临床前阶段的进展。


二、文章的整体框架

本文将临床前药物研发拆解为三个核心阶段,并分别梳理了 ML 的应用:

代码语言:javascript
复制
化学空间探索
    ↓
【Step 1】苗头化合物发现 (Hit Identification)
    ├── 虚拟筛选(Virtual Screening)
    └── 从头分子生成(Molecular Generation)
    ↓
【Step 2】作用机制解析 (MOA Elucidation)
    ├── 蛋白质结构预测(AlphaFold2, RoseTTAFold, ESMFold)
    ├── 分子对接(DiffDock)
    └── 功能蛋白设计(RFdiffusion)
    ↓
【Step 3】转化研究(Translational Investigations)
    ├── 溶解性 / log(P) 预测
    ├── 毒性预测(hERG、临床毒性)
    └── 综合 ADMET 评估(ADMET-AI)
    ↓
临床候选化合物

下面我们逐一深入。

三、Step 1:苗头化合物发现——从大海捞针到精准预测

3.1 为什么传统 HTS 不够用?

高通量筛选(High-Throughput Screening, HTS)是过去几十年新药发现的主流策略。其原理是将大量化合物逐一测试,寻找对目标靶点或细胞表型有活性的分子。然而 HTS 存在根本性瓶颈:

  • 规模受限:一次 HTS 通常测试 10⁵ ~ 10⁶ 个化合物;
  • 成本与时间:动辄数周到数月,成本高昂;
  • 化学空间覆盖率极低:类药物化学空间估计高达 10⁶⁰ 个分子,HTS 所能触及的只是沧海一粟。

ML 虚拟筛选的核心价值,在于以极低的计算成本代替或补充湿实验,对远超 HTS 规模的化学库进行预测性评估。


3.2 分子特征化:从固定指纹到上下文感知嵌入

在 ML 方法能被用于分子性质预测之前,首先需要解决的是如何将分子表示为计算机可处理的数值向量

传统方法(分子指纹)的思路是将分子编码为固定长度的二进制向量,每一位代表某个子结构是否存在(如 Morgan 指纹、MACCS keys)。这种方法简单高效,但存在致命缺陷:

  1. 1. 无法捕捉原子之间的连接上下文;
  2. 2. 向量维度固定,模型训练过程中无法自适应调整;
  3. 3. 对结构相似但性质迥异的分子区分能力有限。

有向消息传递神经网络(D-MPNN / Chemprop) 从根本上解决了这一问题。其核心思想是将分子视为图(Graph),每个原子是节点,每个化学键是边。在训练过程中,每个节点通过若干轮"消息传递"步骤,将周围原子的化学信息聚合更新到自身向量中,最终获得上下文感知、任务自适应的分子嵌入表示。

代表性成果:halicin 与 abaucin 的发现

Stokes 团队(即本文第一作者所在团队)使用 D-MPNN 对约 7,000 个"药物再利用中心"(Drug Repurposing Hub)化合物进行预测,筛选条件是对大肠杆菌(E. coli)的生长抑制活性。结果发现:

  • Halicin:对大肠杆菌 MIC ≈ 2 μg/ml,且对多种耐药菌均有活性,结构新颖,是近三十年来首个通过深度学习发现的抗生素候选物(发表于 Cell 2020);
  • Abaucin:针对多重耐药的鲍曼不动杆菌(A. baumannii),MIC ≈ 2 μg/ml(发表于 Nature Chemical Biology 2023)。

两项研究均证明,ML 优先排序显著提升了体外实验的命中率,相比传统 HTS 效率大幅提升。


3.3 基于结构的虚拟筛选:Deep Docking

与基于表型数据的 D-MPNN 不同,结构导向的虚拟筛选的思路是预测分子与靶蛋白的结合亲和力(对接分数),从而优先筛选可能成为抑制剂的化合物。

传统物理对接算法(如 Glide、AutoDock Vina)原理上可以对每个分子进行精确构象采样,但当化学库规模达到数十亿时,计算资源需求(>1,000 CPU/GPU)完全不可承受。

Deep Docking 的解决方案是一种"以小换大"的迭代策略

  1. 1. 从超大化学库(如 ZINC15 中 13 亿化合物)随机抽取约 1% 的分子,用传统物理对接方法计算准确的对接分数;
  2. 2. 用这批标注数据训练一个前馈神经网络(FFNN),使其能快速预测剩余 99% 分子的对接分数;
  3. 3. 根据预测分数优先级,筛选出高评分化合物进行后续实验验证。

案例:Deep Docking 对 ZINC15 数据库 13 亿化合物进行 SARS-CoV-2 主蛋白酶(Mᵖʳᵒ)的虚拟筛选,实验验证发现了一类全新的非共价 Mᵖʳᵒ 抑制剂。

值得注意的局限性:Deep Docking 的预测标签来源于 in silico 对接分数,而非实验数据,因此模型继承了对接软件本身的误差。对于柔性较大的配体或对接参数化不准确的蛋白,误差可能被放大,影响下游预测质量。


3.4 从头分子生成:探索未被发现的化学宇宙

虚拟筛选的前提是"库里有"——分子必须已经存在于化学库中。而从头分子生成(de novo molecular generation) 则完全突破了这个限制,直接在化学空间中创造前所未有的新分子。

药物化学空间估计达到 10⁶⁰ 量级,现有开源化学库只覆盖其中极小一部分。生成模型的价值正在于此:系统性探索人类尚未合成过的分子区域

3.4.1 变分自编码器(VAE)

VAE 由编码器和解码器两个神经网络组成:

  • 编码器:将分子压缩至低维连续潜空间(latent space);
  • 解码器:从潜空间中采样,生成新分子。

通过在采样时引导解码器朝向高活性区域,可以定向生成具有目标性质的分子。

JAEGER(JT-VAE based):将 VAE 与抗疟活性预测器联合训练,生成了对恶性疟原虫 3D7 株具有纳摩尔活性(nM 级)的新型抗疟化合物,并保持了低肝细胞毒性。

JT-VAE(Junction Tree VAE) 是 VAE 在分子生成上的重要改进:它直接操作分子图结构而非 SMILES 字符串,将分子先转换为"结构树"(junction tree),有效提升了生成分子的有效性,达到 100% 有效率,并在约束和非约束优化任务上均超越了早期 VAE 模型。

3.4.2 归一化流模型与扩散模型

GraphAF(图自回归流模型) 通过可逆变换在分子图与潜空间之间建立精确映射,以自回归方式逐原子、逐键生成分子,并结合强化学习(以 QED、log(P) 等为奖励函数)优化目标性质。相比 JT-VAE,其优势在于可以精确计算生成样本的概率,避免了 VAE 近似似然估计引入的误差。

等变扩散模型(EDM, 2022) 则在三维空间中直接生成分子:在前向扩散过程中逐步向分子坐标和原子特征添加高斯噪声,在反向去噪过程中学习逐步还原分子。其重要特点是旋转和平移等变性,确保生成分子的物理合理性。然而,该模型在处理大型类药物分子时稳定性下降,应用范围仍有限。

3.4.3 化学语言模型(CLM)与大语言模型

SMILES 字符串的序列化特性使其天然适合语言模型处理。化学语言模型(CLM) 通常基于 RNN(如 LSTM),通过自监督学习在大规模分子字符串上学习化学语法与结构规律。

传统 CLM 的痛点是需要大量训练数据,而很多治疗领域数据匮乏。迁移学习有效解决了这一问题:先在大规模通用化学库(如 85 万个 USPTO 专利化合物)上预训练,再在少量目标分子(如 46 个 PI3Kγ 抑制剂)上微调。实验结果是生成超过 100 万个新 SMILES 字符串,经分类器筛选后,合成的 6 个候选物全部对 PI3Kγ 展现出纳摩尔活性——仅凭 46 个初始训练样本。

MolGPT 将 Transformer 引入分子生成,支持:

  • 条件生成:通过传入 clog(P)、支架等条件向量,控制生成分子的性质;
  • 可解释性:通过显著性图(saliency map)可视化哪些 SMILES token 对预测贡献最大,增强模型的化学可信度。

基于 GPT-3 的大语言模型(LLM)进一步打破了接口门槛——研究者可以直接用自然语言提示(如"生成一个溶解度高、hERG 安全的激酶抑制剂")驱动分子生成,这为非计算背景的药物化学家打开了新的入口。不过,目前 LLM 在生成式化学中的应用仍处于早期阶段,尚无经实验验证的临床前候选物报道。


四、Step 2:作用机制解析——知其然,亦知其所以然

确定苗头化合物之后,理解它如何发挥作用是优化过程不可或缺的一步。传统 MOA 解析依赖遗传筛选、生化方法等,耗时且通量低。ML,尤其是蛋白质结构预测领域的突破,正在从根本上改变这一局面。

4.1 AlphaFold2:结构生物学的范式转变

AlphaFold2(AF2) 由 DeepMind 开发,在 2020 年第 14 届 CASP 竞赛中以压倒性优势夺冠,标志着从序列预测蛋白质三维结构这一困扰生物学半个世纪的难题取得了革命性突破。

AF2 的技术架构可以分为三个核心模块:

① 输入表示

  • MSA(多序列比对)矩阵:将目标蛋白序列与同源序列比对,捕捉进化保守性信息;
  • 对(Pair)表示:氨基酸间的两两距离矩阵,编码已知同源蛋白的三维空间关系。

② Evoformer(双轨神经网络)

  • • 同时处理 MSA 和 Pair 表示,通过注意力机制联合嵌入进化信息与空间关系;
  • • 循环迭代 3 次(recycling),逐步精化结构表示。

③ 结构模块

  • • 以骨架帧(backbone frame)为基础——将每个残基表示为包含 Cα、羰基碳、氨基氮三个节点的等变三角形;
  • • 预测每个骨架帧的旋转与平移,最终获得蛋白全原子三维坐标。

在药物发现中的应用案例:利用 PandaOmics(基于组学的深度学习模型)筛选肝癌治疗靶点后,基于 AF2 预测的 CDK20 结构,通过 Chemistry42 生成小分子,实验验证得到结合亲和力(Kd)为 8.9 ± 1.6 μM 的 CDK20 抑制剂——CDK20 在多种肿瘤中高度过表达,此前无已知结构,AF2 的预测直接使这一靶点"可药化"。

AF2 的局限性也不应被忽视:对于与未知分子结合才能正确折叠的蛋白(诱导契合)、大型蛋白复合物中由异质链间相互作用决定结构的结合域,AF2 的预测精度显著下降。这意味着在某些情况下,AF2 结构可能不足以支撑结构导向的药物设计。

4.2 RoseTTAFold 与蛋白质语言模型:补充 AF2 的盲区

RoseTTAFold 在 AF2 的双轨框架基础上,增加了第三轨道——直接引入 Cα/C/N 原子的三维坐标(SE(3)-Transformer),实现 1D(序列)、2D(距离矩阵)、3D(坐标帧)信息的同步处理,而非 AF2 的序贯处理模式。

在对人类 ADAM(去整合素金属蛋白酶)家族蛋白的预测中,RoseTTAFold 成功预测了 ADAM33 前结构域的三维结构(此前无同源已知结构),揭示了其含半胱氨酸的脂质运载蛋白样 β-桶折叠,与实验数据一致验证了"半胱氨酸开关"调控机制。

然而,AF2 和 RoseTTAFold 均依赖 MSA,对于快速进化蛋白(如抗体 CDR 区域)和孤儿蛋白(无已知同源序列),MSA 噪声大或根本不可用,预测效果较差。

蛋白质语言模型(PLM) 正是为填补这一缺口而生:

  • OmegaFold:基于 OmegaPLM(在 UniRef50 上预训练的 Transformer)生成单残基和残基对表示,输入 GeoFormer 进行三维结构建模,在孤儿蛋白和抗体 CDR 预测上显著优于 AF2;
  • ESMFold:基于 ESM-2(在约 6,500 万蛋白序列上训练的编码器 Transformer),完全无 MSA 依赖,速度比 AF2 快一个数量级以上,特别适合需要大规模批量结构预测的场景(如蛋白质组级别筛选)。

4.3 DiffDock:将分子对接重构为生成问题

传统分子对接(如 Glide、Vina)本质上是搜索问题:在给定蛋白口袋中枚举配体构象,寻找能量最低的结合姿态。这类方法对搜索空间的覆盖和评分函数的准确性高度敏感。

DiffDock 则将对接重构为生成建模问题

  1. 1. 扩散过程作用于配体的平移、旋转和扭转角三个自由度;
  2. 2. 通过基于 SE(3)-等变卷积网络(点云)的评分模型预测各构象的概率;
  3. 3. 置信度模型对生成构象进行排序,输出 top-1(最高置信度)及多样化 top-5/top-10 预测。

DiffDock 在 17,000+ 个蛋白-配体复合物(PDBbind 数据集)上训练,在 40 个结合位点的 top-1 预测成功率上超越了所有现有的搜索类、商业和深度学习对接方法

在 MOA 解析中的实际价值:当实验数据(如耐药突变谱、亲和色谱)暗示某个蛋白可能是药物靶点时,深度学习方法可快速提供高质量的对接结果,辅助或挑战实验假说,而无需等待长周期的物理对接计算。

4.4 RFdiffusion:从头设计功能蛋白

如果说 DiffDock 是在已有蛋白结构上"放置"小分子,RFdiffusion(RoseTTAFold Diffusion) 则更进一步——从头创造满足特定功能需求的全新蛋白质

其技术路线是将 RoseTTAFold 的结构预测网络微调为扩散模型的去噪网络:

  • • 输入为加噪后的骨架坐标;
  • • 接受条件信息(对称性、结合靶点、功能基序等);
  • • 逐步去噪,输出满足条件的蛋白骨架结构。

实验验证表明,RFdiffusion 能设计出具有预设对称性的高阶蛋白架构,可溶性表达验证成功——这是对接和小分子设计之外,ML 在靶向生物制剂与功能蛋白领域的重要延伸。

4.5 Geneformer:从单细胞转录组预测药物靶点

在 MOA 解析的另一维度,Geneformer 将迁移学习应用于单细胞转录组学,从基因调控网络中直接挖掘治疗靶点。

核心设计:

  • 预训练:在 Genecorpus-30M(约 2,990 万个跨组织单细胞转录组)上自监督训练;
  • 排序编码:每个细胞的转录组被编码为基因表达量的排名序列(rank-value encoding),自动压低管家基因权重,突出细胞状态相关的调控因子(如转录因子);
  • 微调:在有限的目标数据集(如心肌病患者单细胞样本)上任务特异性微调。

在扩张型和肥厚型心肌病的应用中,研究者用少量患者样本微调 Geneformer,预测靶点后在体外心肌病模型中进行验证,获得心脏组织功能改善——证明了该方法在临床相关数据极为有限场景下的实用价值。


五、Step 3:转化研究——让有效的分子也"好用"

发现了有活性的苗头化合物,只完成了药物发现的一半。候选药物还必须具备良好的成药性(drug-likeness),包括吸收(A)、分布(D)、代谢(M)、排泄(E)和毒性(T)——即 ADMET 属性。历史数据显示,ADMET 问题是临床失败的重要根源,而 ML 正在大幅提升这一环节的预测效率。

5.1 脂溶性预测(log(P) / log(D))

log(P)(正辛醇-水分配系数)是衡量分子脂溶性的核心参数,直接影响膜通透性、溶解度、生物利用度和代谢稳定性——是 Lipinski 五规则的核心指标之一。

传统计算方法 clog(P) 基于片段常数加和,自1980年代沿用至今,但对特殊结构存在系统误差,这在药物优化中可能导致错误决策。

一项近期研究训练了四种 ML 架构(SVM、MLP、XGBoost、随机森林),关键创新是将液相色谱保留时间(LC RT) 作为额外输入特征。保留时间与 log(P) 存在强相关性,可以提供超越分子结构本身的物理化学信息。

结果:MLP 表现最优,与不含保留时间特征的现有模型相比,平均绝对误差降低 20–30%。不过,此方法的局限在于保留时间数据并非总是可及,限制了其在通用筛选场景中的推广。

5.2 hERG 心脏毒性预测

hERG(人 ether-à-go-go 相关基因) 编码钾离子通道,其阻断会引起 QT 间期延长,严重时导致室性心律失常,是药物性心脏毒性最重要的机制之一,也是临床失败(约 30% 毒性相关失败)的主因之一。

一项 2023 年研究对比了多种 ML 方法预测 hERG 毒性的能力,核心设置如下:

  • 数据集:4,556 个化合物的 patch-clamp IC₅₀ 实测值(<1 μM 为阻断剂,>10 μM 为非阻断剂);
  • 分子表示:Morgan 指纹、AtomPairs 指纹、MACCS keys、TopoTorsion 指纹;
  • 模型架构:k-NN、SVM、MLP、随机森林、图卷积神经网络(GCN)。

图卷积网络 在 AUC-ROC 指标上表现最优——因为其能从原子图中直接学习与 hERG 结合相关的结构特征,而不依赖人工设计的指纹。

重要的方法论提醒:该研究未对新化合物进行实验验证。ML 毒性预测模型的外推性是一个持续争议的问题,模型在训练集相似化合物上表现良好,但在结构新颖分子上的可靠性需谨慎评估。

5.3 综合 ADMET 预测平台:ADMET-AI

ADMET-AI 是目前最全面的开源 ADMET 预测平台,其设计理念是:不只预测单个性质,而是提供覆盖整个 ADMET 空间的多维评估

技术架构:

  • • 基于 Chemprop-RDKit(D-MPNN + RDKit 分子描述符)架构;
  • • 训练于 Therapeutics Data Commons(TDC)的 41 个 ADMET 数据集:1 个回归模型(10 个回归任务)+ 1 个分类模型(31 个分类任务);
  • • 以 DrugBank 已批准药物 作为参比分布,输出每个性质的百分位数排名,帮助用户直观解读预测结果。

覆盖性质包括:水溶性、口服生物利用度、血脑屏障通透性、hERG 安全性、CYP 酶代谢、急性毒性等。

在 TDC 排行榜中,ADMET-AI 是综合 ADMET 预测方向排名最高的平台。值得注意的是,对于特定单一 ADMET 任务(如单独的 hERG 预测),TDC 排行榜上的专项模型可能优于 ADMET-AI,应根据具体需求选择工具。

5.4 临床毒性预测:跨越体外-体内-临床的鸿沟

在 ADMET 预测中,最具挑战性的是直接预测临床毒性——因为伦理限制导致此类数据极为稀缺,且体外(in vitro)→ 体内(in vivo)→ 临床的毒性转化关系极为复杂。

一项研究通过以下策略应对这一挑战:

  • 多任务学习(Multi-task FFNN):同时在体外毒性(Tox21Challenge)、体内毒性(RTECS 数据库)、临床毒性(MoleculeNet ClinTox)上联合训练;
  • 预训练 SMILES 嵌入:利用门控循环单元(GRU)自编码器,将非规范 SMILES 转换为规范 SMILES 的过程中学习分子特征,再将潜空间向量用于下游毒性预测;
  • 对比可解释性:识别训练化合物中的"毒效团"(toxicophore)——影响模型分类的最小结构单元,多数与已知毒效团一致,验证了模型的化学合理性。

多任务 SMILES 嵌入模型在性能上优于单任务模型和 MoleculeNet 基准,但作者也坦承,部分识别出的"毒效团"仅为单个碳或氧原子,提示模型仍存在特征归因不够精确的问题。


六、作者的批判性展望:ML 不是万能药

这篇综述最值得称道的地方,是作者们并未沉浸于技术乐观主义,而是明确指出了当前 ML 方法面临的结构性挑战:

6.1 数据质量与开放共享

核心矛盾:ML 的性能严格依赖训练数据的质量和覆盖范围,而高质量药物研发数据大量存储于各制药公司私有数据库中,难以公开共享。

作者呼吁:建立标准化、质量受控、实验透明的开源数据资源,并充分考虑来自不同药理实验体系的数据异质性。联邦学习框架(如 MELLODDY)是一个方向——允许多家公司在不共享原始数据的前提下联合训练模型。

6.2 模型可解释性与监管合规

随着 ML 在药物研发中的作用日益深入,监管机构(FDA、EMA 等)正在要求对 ML 模型输出提供清晰的科学依据,特别是在临床试验相关决策中。"黑盒"模型的可信度问题不仅是学术问题,更是现实监管挑战。

当前的可解释性工具(如 Chemprop 的子结构归因、MolGPT 的显著性图)提供了一定程度的透明度,但"为什么模型认为某个子结构是关键的"这一更深层问题,在很多情况下仍无令人满意的答案。

6.3 in silico 评估不能替代湿实验

文章明确批评了一个普遍存在的问题:许多生成模型的评估仅基于 in silico 指标(唯一性、有效性、QED、clog(P) 等),而不进行实验合成和活性测试。

这些指标固然重要,但无法验证:

  • • 生成分子是否真的可合成;
  • • 预测活性是否能被体外实验证实;
  • • 计算预测与生物学现实之间的系统性偏差。

作者强调:推动数据科学家与实验生物学家的深度合作,构建"模型预测 → 实验验证 → 数据反馈 → 模型迭代"的主动学习闭环,是 ML 真正赋能药物发现的唯一路径。

6.4 跨领域人才培养

实现真正意义上 ML 驱动的药物研发,需要一批"双语人才"——既能理解化学生物学的核心逻辑,又能恰当应用 ML 方法的研究者。这是一个人才培养的长期命题。


写在最后

这篇综述的核心贡献在于提供了一份有分寸感的领域地图。它既展示了 ML 在药物发现中令人振奋的成果(halicin、AlphaFold2、DiffDock),又保持了对局限性的清醒认知——数据瓶颈、可解释性缺失、实验验证不足。

当前,大量 ML 药物发现论文存在一个共同模式:提出新模型、在 in silico 基准上展示优异性能、声称"将加速药物发现"——但缺乏真实的生物学验证。本文作者明确批评了这一趋势,强调湿实验验证的不可替代性,这在领域内具有重要的方法论纠偏价值。

未来,随着数据基础设施的完善、模型可解释性的提升以及实验-计算协作机制的成熟,端到端 ML 驱动的药物发现流水线将从愿景走向现实。这篇文章,正是这一转变的重要路标。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugIntel 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、为什么要读这篇文章?
  • 二、文章的整体框架
  • 三、Step 1:苗头化合物发现——从大海捞针到精准预测
    • 3.1 为什么传统 HTS 不够用?
    • 3.2 分子特征化:从固定指纹到上下文感知嵌入
    • 3.3 基于结构的虚拟筛选:Deep Docking
    • 3.4 从头分子生成:探索未被发现的化学宇宙
      • 3.4.1 变分自编码器(VAE)
      • 3.4.2 归一化流模型与扩散模型
      • 3.4.3 化学语言模型(CLM)与大语言模型
  • 四、Step 2:作用机制解析——知其然,亦知其所以然
    • 4.1 AlphaFold2:结构生物学的范式转变
    • 4.2 RoseTTAFold 与蛋白质语言模型:补充 AF2 的盲区
    • 4.3 DiffDock:将分子对接重构为生成问题
    • 4.4 RFdiffusion:从头设计功能蛋白
    • 4.5 Geneformer:从单细胞转录组预测药物靶点
  • 五、Step 3:转化研究——让有效的分子也"好用"
    • 5.1 脂溶性预测(log(P) / log(D))
    • 5.2 hERG 心脏毒性预测
    • 5.3 综合 ADMET 预测平台:ADMET-AI
    • 5.4 临床毒性预测:跨越体外-体内-临床的鸿沟
  • 六、作者的批判性展望:ML 不是万能药
    • 6.1 数据质量与开放共享
    • 6.2 模型可解释性与监管合规
    • 6.3 in silico 评估不能替代湿实验
    • 6.4 跨领域人才培养
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档