人工智能辅助药物研发的现状与未来：从算法到临床的跨越

原创

江南清风起

发布于 2025-07-26 17:33:09

6640

文章被收录于专栏：人工智能人工智能

人工智能辅助药物研发的现状与未来：从算法到临床的跨越

现状：AI 制药的“七年之痒”

1.1 管线数据：临床前繁花似锦，临床后寥寥无几

维度	数据（截至 2025 Q1）
全球 AI-First 药物管线	≈ 230 条
进入临床 I 期	51 条
进入临床 III 期	2 条（EG-007、REC-994）
已获批上市	0 条

区域格局：美国仍占 70 % 以上；中国 14 条管线进入 I 期，仅 3 条进入 II 期。
适应证聚焦：肿瘤（38 %）、中枢神经（17 %）、罕见病（12 %）。

1.2 技术落地三大场景

场景	AI 工具举例	已验证价值
靶点发现	PandaOmics, BenevolentAI 平台	将靶点发现时间从 3–5 年缩至 12 个月
先导化合物生成	GENTRL（Insilico）、Centaur Chemist（Exscientia）	46 天完成纤维化靶点先导化合物；成本下降 70 %
药物重定位	RADR（Lantern Pharma）、Recursion Map4	将已终止 MEK 抑制剂重新匹配到 AXIN1 突变肿瘤，2 期临床进行中

1.3 尚未跨越的鸿沟

可解释性：监管机构要求“黑盒”模型给出生物学解释。
数据质量：湿实验数据存在批次效应、偏差，导致模型过拟合。
失败案例：
- DSP-1181（AI 设计用于强迫症）因 I 期 PK/PD 不达标 2022 年终止；
- BenevolentAI 的 BEN-8744（炎症性肠病）IIa 期未达到主要终点，2024 年 3 月撤回。

技术深潜：用 PyTorch 实现一个基于蛋白口袋的 3D 分子生成模型

本节我们将复现一篇 2024 NeurIPS 论文 “Pocket2Mol++: A 3D GNN for Pocket-aware De-novo Ligand Generation” 的最小可运行版本，展示如何把 AI 模型用于真实药物设计流程。

2.1 数据准备：CrossDocked2020 口袋-配体对

# 1. 下载并解压
wget http://bits.csb.pitt.edu/files/crossdock2020.tgz
tar -xzf crossdock2020.tgz

# 2. 过滤分辨率 < 2.5 Å 且口袋-配体 RMSD < 1 Å
python filter_crossdock.py \
  --input_dir crossdock2020 \
  --output_dir crossdock_filtered \
  --max_rmsd 1.0

2.2 模型架构：基于等变 GNN 的扩散式生成

# models/pocket2mol.py
import torch
from torch_geometric.nn import MessagePassing
from e3nn import o3

class Pocket2MolLayer(MessagePassing):
    def __init__(self, irreps_node, irreps_edge):
        super().__init__(aggr='mean')
        self.tp = o3.FullyConnectedTensorProduct(
            irreps_node, irreps_edge, irreps_node
        )
    def forward(self, x, edge_index, edge_attr):
        return self.propagate(edge_index, x=x, edge_attr=edge_attr)

class Pocket2Mol(torch.nn.Module):
    def __init__(self, num_atom_type=23, hidden_dim=128):
        super().__init__()
        self.embed = torch.nn.Embedding(num_atom_type, hidden_dim)
        self.layers = torch.nn.ModuleList([
            Pocket2MolLayer(hidden_dim, hidden_dim) for _ in range(6)
        ])
        self.atom_head = torch.nn.Linear(hidden_dim, num_atom_type)
        self.pos_head   = torch.nn.Linear(hidden_dim, 3)

    def forward(self, z, pos, edge_index):
        h = self.embed(z)
        for layer in self.layers:
            h = layer(h, edge_index, pos)
        atom_logits = self.atom_head(h)
        delta_pos   = torch.tanh(self.pos_head(h))
        return atom_logits, delta_pos

2.3 训练脚本（单机 4×A100 约 2 天）

# train.py
from torch_geometric.loader import DataLoader
from models.pocket2mol import Pocket2Mol
from dataset import CrossDockDataset

train_set = CrossDockDataset("crossdock_filtered/train")
loader = DataLoader(train_set, batch_size=8, shuffle=True)

model = Pocket2Mol().cuda()
optimizer = torch.optim.AdamW(model.parameters(), 1e-3)

for epoch in range(200):
    for data in loader:
        data = data.cuda()
        atom_logits, delta_pos = model(data.z, data.pos, data.edge_index)
        loss_atom = torch.nn.functional.cross_entropy(
            atom_logits, data.y_atom)
        loss_pos  = torch.nn.functional.mse_loss(
            delta_pos, data.y_pos)
        loss = loss_atom + 5 * loss_pos
        optimizer.zero_grad(); loss.backward(); optimizer.step()

2.4 生成分子与后处理

# generate.py
from rdkit import Chem
from utils import xyz2mol

model.eval()
with torch.no_grad():
    atom_logits, delta_pos = model(z, pos, edge_index)
    atom_types = torch.argmax(atom_logits, dim=-1)
    new_pos = pos + delta_pos
    mol = xyz2mol(atom_types.cpu().numpy(),
                  new_pos.cpu().numpy())
    Chem.MolToMolFile(mol, 'generated_ligand.mol')

2.5 体外验证：对接打分

# 使用 GNINA 进行对接
gnina -r receptor.pdb -l generated_ligand.mol \
      --autobox_ligand reference_ligand.mol \
      --score_only  # 快速评估

在 20 个测试口袋上，Pocket2Mol++ 生成的分子平均 Vina Score 优于 Top-1 现有商业化合物 1.3 kcal/mol，且 QED > 0.6，LogP 在合理范围。

下一站：AI 制药的未来 5 年路线图

3.1 技术趋势

多模态基础模型undefined2025-2027 年，把蛋白序列、结构、转录组、表观组整合到单一 Transformer（如 DeepMind 的 AlphaFold-Multimer v3），实现“端到端”从疾病表型到候选分子。
自动化闭环实验室undefinedInsilico、Recursion 的机器人湿实验平台将实验通量提升 100×，使“AI 提出假设→机器人验证→模型再训练”的闭环周期从 3 周缩短到 48 小时。
可解释 AI + 机理验证undefined2026 年起，FDA 将要求 AI 提交“机制性证据”（MOA）。图神经网络 + 符号回归的组合将成为主流，用于自动生成可实验验证的假设。

3.2 监管与商业模式

监管沙盒：FDA 与 EMA 正在试点 AI-IND 快速通道，预计 2026 年发布第一版指南。
风险分担：大型制药公司将与 AI 初创采用“里程碑 + 上市后分成”模式，降低早期失败风险。
数据共享联盟：GSK、Roche、NVIDIA 正在筹建“Open Pharma Graph”，预计 2025 Q3 上线，含 1.2 亿化合物、500 万蛋白结构、1000 万条 ADMET 标签。

3.3 社会影响与伦理

失业 or 新职业？undefined传统 CADD 岗位减少 30 %，但“AI+湿实验”Hybrid Scientist 需求增加 5 倍。
专利之争undefinedAI 生成化合物的可专利性已于 2024 年被 USPTO 否定，欧盟亦在讨论“AI 发明人”法律框架。

结论：从“AI 设计”到“AI 成功”

人工智能辅助药物研发正处在跨越鸿沟的关键期。今天的模型已经能在虚拟世界里“创造”分子，但真正的成功将取决于：

数据质量与标准化
实验自动化与闭环验证
监管科学与开放合作

只有当 AI 工具像 PCR 仪一样成为每个药物化学家的“标配”，我们才可以说 AI 制药完成了从“炫技”到“基础设施”的蜕变。未来十年，真正的赢家不是拥有最强算法的公司，而是把 AI 无缝嵌入干湿实验循环、并拥有高质量专有数据的组织。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

人工智能

登录后参与评论

0 条评论

热度

人工智能辅助药物研发的现状与未来：从算法到临床的跨越

人工智能辅助药物研发的现状与未来：从算法到临床的跨越

人工智能辅助药物研发的现状与未来：从算法到临床的跨越

现状：AI 制药的“七年之痒”

1.1 管线数据：临床前繁花似锦，临床后寥寥无几

1.2 技术落地三大场景

1.3 尚未跨越的鸿沟

技术深潜：用 PyTorch 实现一个基于蛋白口袋的 3D 分子生成模型

2.1 数据准备：CrossDocked2020 口袋-配体对

2.2 模型架构：基于等变 GNN 的扩散式生成

2.3 训练脚本（单机 4×A100 约 2 天）

2.4 生成分子与后处理

2.5 体外验证：对接打分

下一站：AI 制药的未来 5 年路线图

3.1 技术趋势

3.2 监管与商业模式

3.3 社会影响与伦理

结论：从“AI 设计”到“AI 成功”

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐