AI时代的药物研发，该如何衡量成功？

DrugIntel

发布于 2026-05-14 18:03:38

780

一篇来自跨国药企科学家的重磅视角文章，系统提出针对AI驱动先导化合物优化的战略级KPI框架

文献来源：Theis T, Flohr S, Binch H, et al. "Strategic Key Performance Indicators for AI in Lead Optimization." ChemMedChem, 2026; 21:e202501089 开放获取：DOI: 10.1002/cmdc.202501089 作者机构：勃林格殷格翰 · 诺华 · 罗氏 · 阿斯利康 · Nuvisan · 默克KGaA · OpenEye/Cadence

一、为什么要读这篇文章？

近年来，AI技术以前所未有的速度渗透进制药研发的各个环节——从靶标发现、虚拟筛选，到分子生成、ADME性质预测。大量资本与人才涌入，"AI原生"（AI-native）药企也初步展现出超越传统同行的苗头。

然而，一个根本性问题长期被忽视：

我们究竟应该用什么指标，来衡量AI在药物研发中的真实价值？

目前业界普遍依赖的技术指标（如预测精度R²、富集因子、ROC-AUC）本质上只是模型质量的体检报告，并不能回答管理层真正关心的问题：这个AI工具，有没有加快我们的研发进度？有没有减少失败化合物的合成？有没有帮我们更快把候选药物推进临床？

本文由来自7家全球顶级制药及软件公司的科学家联合撰写，作为欧洲药物化学联合会计算与药物化学工作组（EFMC²）的集体发声，系统性地回答了这一问题。这是目前该领域最具实践指导意义的战略KPI框架之一。

二、背景：KPI在药物研发中的历史演变

2.1 知识型工作者的管理难题

文章开篇援引管理学奠基人Peter Drucker的核心观点：知识型工作依赖自主性与创新，不同于流水线式的工业劳动。药物研发恰恰是知识工作的典型代表——成功依赖创造力与迭代试错，而非标准化流程的机械执行。

Drucker那句著名的格言在此显得尤为贴切：

"There is nothing more wasteful than becoming highly efficient at doing the wrong thing." （没有什么比高效地做错误的事更浪费的了。）

在药物研发中，"做正确的事"意味着选对靶标、找到真正有潜力的先导化合物——而非仅仅让AI模型跑得更快、预测得更准。

2.2 十年前的行业实践

文章回顾了约十年前各大药企评估计算化学（CADD）科学家贡献的方法：

• 百时美施贵宝（BMS）：建立"影响力类别"数据库，从"提供数据"到"发挥关键作用"分级记录，由课题组长和科学家本人共同维护，定期交叉评审。
• 葛兰素史克（GSK）：组织层面记录关键贡献，而非个人层面，聚焦化合物设计与发表。
• 默克（Merck）：采用定性反馈，核心问题是"这个设计工作有没有帮助团队取得成功？"
• 勃林格殷格翰（Boehringer）：定期收集团队对CADD成员影响力的反馈。

这些实践的共同特点是：以定性判断为主，量化程度低。即便引入了影响力类别，其赋值本身仍是主观判断。

2.3 从定性到定量：时代的转变

随着AI工具的规模化部署，这种模糊的评估方式已难以为继。管理层需要量化的证据来支撑投资决策；研发团队需要明确的信号来调整工具应用策略。KPI的引入势在必行，但如何设计好KPI，本身就是一门学问。

三、KPI的固有局限：先认清陷阱，再谈应用

文章并未回避KPI的缺陷，这也是本文视角难能可贵之处。

3.1 Goodhart定律的威胁

经济学家Charles Goodhart提出的定律已成为管理学经典：

"When a measure becomes a target, it ceases to be a good measure." （当一个指标变成目标，它就不再是好指标了。）

一旦KPI与绩效挂钩，组织就会不可避免地向指标靠拢，甚至扭曲行为来"刷数据"。这在高目标一致性、高目标不确定性的组织（如制药R&D）中尤为突出。

3.2 其他常见陷阱

陷阱	具体表现
追踪成本	任何正式指标都需要数据采集与汇报，增加管理负担
樱桃采摘	KPI过多导致选择性汇报，报好不报坏
激励错位	KPI可能造成部门间目标冲突，产生有界理性下的短视行为
扼杀创新	绩效评估与KPI挂钩可能损害内在动机，而创造力恰恰依赖这种动机
成熟度错配	新兴领域更需要灵活探索，过早引入KPI可能固化思维、阻碍突破

文章的结论并非"不要KPI"，而是：KPI应当被主动、审慎地设计，而非被动、机械地套用。在AI驱动的创新期，避免过度测量与微观管理至关重要。

四、核心难题："数字项目" vs "传统项目"的比较困境

所有公司都渴望证明AI对顶线效率KPI（如"进入临床的时间"或"每个临床候选物的成本"）产生了影响。但这种证明面临一个根本性的方法论难题。

4.1 信噪比问题

与制造业不同，药物发现本质上是特异性的（idiosyncratic）——每个项目的靶标类别、模态、数据可用性都大相径庭。理想的对照实验（两支相同团队研究同一靶标）永远不会存在。

这带来了严重的混淆变量问题：

• 一个"数字项目"推进更快，究竟是因为AI工具更好，还是因为靶标本身更易成药？
• 历史基线项目的时代背景、技术条件、竞争格局各异，如何做到"苹果对苹果"的比较？

4.2 提案：靶标"可数字化评分"（Digitizability Score）

为解决上述问题，文章创造性地提出了一个新概念——Digitizability Score（可数字化评分），类比于药物发现领域已有的"成药性评分"（druggability）和"配体化性评分"（ligandability）。

该评分综合考量以下因素：

• 共晶结构（co-crystal structures）的可用性
• 已知配体的数量与质量
• 靶标类别的先例程度（target class precedence）

该评分的双重价值：

1. 前瞻性：帮助团队在项目启动前筛选最适合AI介入的靶标，最大化数字工具的杠杆效应；
2. 回顾性：在项目结束后，作为归一化因子，将AI的实际贡献与靶标本身的固有特性解耦，让效率KPI重获意义。

五、采纳度KPI：三个务实的衡量维度

文章提出，简单的"使用量"统计（模型调用次数、活跃用户数、工作流执行次数）虽然直观实时，但随着自动化程度提升，人工操作减少，使用量本身越来越难以反映AI的真实影响。

5.1 速度拐点（Velocity Inflection）

在工业药物化学中，项目团队通常持续追踪关键优化参数（KOPs）（如活性、选择性、渗透性）随时间的变化曲线。

将数字工具的引入时间点标记在曲线上，若随后出现斜率的突变或不连续性，即为"速度拐点"——这是AI工具（结合团队策略）加速优化的客观证明。

正向数据（拐点明显）可以反馈给团队，强化信心并鼓励将工具延续到下一个项目；负向数据（曲线平坦）则是调整策略的信号。

5.2 旁路率（Bypass Rate）

制药研发的标准化合物优化级联（assay cascade）中，通常存在若干"门控实验"——必须通过才能进入下一阶段的测试。例如，肝微粒体稳定性实验（liver microsomes）是肝细胞实验（hepatocytes）的前置门控。

如果预测模型的置信度足够高，某些化合物可以直接跳过湿实验门控，进入下一级测试。

旁路率 = 基于高置信预测成功跳过湿实验门控的化合物数量或比例

这个KPI是一个双重指标：

• 效率维度：节省了多少时间和成本？
• 信任维度：团队愿意"押注"在预测上的程度，反映了对模型的真实信赖程度。

5.3 内部净推荐值（Internal NPS, iNPS）

净推荐值（Net Promoter Score）是客户体验管理领域的经典工具，核心问题只有一个：

"您有多大可能向同事推荐这个工具？"（0-10分）

将其移植到内部R&D工具评估，即得到iNPS。项目团队是CADD工具的"客户"，高iNPS是工具在组织内未来扩散的领先指标（leading indicator）。相比其他指标，iNPS还可以借鉴服务业多年的丰富经验积累。

六、战略KPI详解：按工具类型分述

6.1 虚拟筛选（Virtual Screening）

为什么富集因子不够用？

富集因子（enrichment factor）只能衡量虚拟命中物在已知活性化合物库中的排名效率，而完全无法反映"找到的化学骨架有没有价值"这一核心问题。

推荐的战略KPI：

① 团队采纳率（Team Uptake Rate） 定义：AI推荐的命中物中，被药物化学家实际选择进行进一步优化的比例。

技术上活跃但结构上毫无吸引力的命中物（被团队忽视）对项目没有任何价值。团队采纳率是比命中率更真实的"价值过滤器"，虽然受到认知质量和时机等复合因素影响，但仍是重要参考。

建议实施方式：VS活动应尽量与湿实验HTS并行开展，以校正靶标偏差；筛选大型虚拟化学空间时，建议至少获取/合成数百个化合物进行验证。

② 每验证命中成本（Cost per Validated Hit） 定义：总筛选成本（计算成本 + 合成成本）除以生物学验证命中簇数量。

注意：计算方法初看成本低，但需计入软件许可费、假阳性命中物的复杂合成成本等隐性开销。此KPI有助于推动筛选技术的成本效益优化，避免为了"看起来省钱"而选择实际上价值较低的方案。

6.2 生成式AI（Generative AI）

生成式AI面临一个独特的评估困境：没有真实标签（ground truth）可以对标。因此，技术指标（有效性、合成可及性评分）大多只是代理指标，而非真正衡量业务影响的指标。

推荐的战略KPI：新颖性加权影响（Novelty-Weighted Uptake）

定义：满足以下两个条件的已合成化合物数量：

1. 来源可溯：化合物思路或骨架能与GenAI的建议明确关联；
2. 满足新颖性阈值：与项目现有化学空间的Tanimoto相似度 < 0.8（或其他预设阈值）。

为什么不用简单的"完全匹配"或"宽松归因"？

• 严格的完全匹配低估了影响：团队总会对AI建议进行修改和迭代，切断了可溯源性；
• 过松的归因高估了影响：会将显而易见的类似物错误地记功于AI。

新颖性加权确保KPI奖励的是真正有创新价值的建议，而非对已知结构的简单变奏。这也解决了一个核心问题：GenAI与团队自主设计之间的化学空间重叠往往较小，需要明确的相似度阈值来界定"独立贡献"的边界。

6.3 ADME性质预测模型

目标不只是预测准确，而是支持决策

对ADME预测模型而言，高R²和低MAE是必要条件，但不是充分条件。静态测试集的表现往往无法反映真实项目中的预测效用。

文章建议采用时间分割评估（time-split evaluation）：使用化合物合成时实际可用的模型版本进行回溯预测，模拟前瞻性表现，更贴近真实部署场景。

推荐的战略KPI：平均性质偏移（Mean Property Shift）

定义：追踪已合成化合物关键终点（代谢稳定性、渗透性、溶解度等）的移动平均值随时间的变化趋势。

若ADME预测模型真正发挥了作用，这条曲线应随时间向目标方向漂移。若曲线持平，说明存在以下两种失败之一：

• 技术失败：模型质量本身不足（时间分割R²/MCC偏低）；
• 文化失败：模型质量足够，但团队根本没有用它来过滤设计方案。

这一区分对于管理决策至关重要：前者需要改进模型，后者需要改进培训与推广策略。

此外，文章还强调了核心运营KPI的重要性：服务正常运行时间、预测框架的鲁棒性、响应速度——这些是确保工具被实际使用的基础设施保障。

七、七大战略KPI汇总

应用领域	KPI名称	定义与测量方法	战略目标
虚拟筛选	团队采纳率	AI推荐命中物被化学家选用进行合成或测试的比例	衡量虚拟命中物的感知价值，超越理论富集指标
虚拟筛选	每验证命中成本	总筛选成本（计算+合成）除以生物学验证命中簇数	确保AI筛选相对传统方法的成本效益
生成式AI	新颖性加权影响	来源于GenAI且满足新颖性阈值（Tanimoto<0.8）的已合成化合物数量	量化系统对新颖化学物质的贡献（创新），而非简单的类似物挖掘
ADME/性质预测	平均性质偏移	已合成化合物关键终点（代谢稳定性等）随时间变化的移动均值	评估预测模型是否切实引导项目向目标性质方向推进
采纳度	速度拐点	关键优化参数（KOPs）随项目时间变化的斜率突变	客观衡量工具是否加速了先导优化进程
采纳度	旁路率	基于高置信预测成功跳过湿实验门控的化合物比例	衡量效率收益与团队对预测可靠性的信任程度
采纳度	内部净推荐值（iNPS）	"您有多大可能向同事推荐这个工具？"（0-10分）	用户满意度指标及未来组织推广的领先指示

八、未来展望：KPI的下一个进化方向

文章对未来研究提出了三个方向：

① 纵向关联研究 探索早期战略KPI（如速度拐点、旁路率）与顶线交付物（效率、速度）之间的因果关系，使KPI真正成为成功的可靠预测指标，而非结果的被动记录。

② 可数字化评分的标准化 确定哪些数据因素（如结构可用性 vs 实验数据方差）最能预测靶标对AI工具的适应性，建立行业标准化评分体系，使跨项目、跨公司的比较成为可能。

③ 人机交互与信任的量化研究 信任是旁路率背后的关键心理机制。深入理解信任如何影响决策质量，将为下一代"增强智能"系统（augmented intelligence systems）的设计提供实证基础。

文章还特别提出了一个时间窗口的紧迫性：目前是利用前AI项目作为历史基线评估AI影响力的难得机会——随着时间推移，这一基线将永久消失。

写在最后

这篇文章解决了什么问题？

当前行业有大量文章讨论"AI模型有多准"，却极少有人系统讨论"AI工具有没有真正改变研发结果"。本文填补了这一关键空白，将评估框架从技术验证提升到战略影响层面。

哪些观点最值得关注？

1. "旁路率"是一个极其精妙的双重指标——它同时测量了效率（跳过了多少湿实验）和文化（团队有多信任AI预测）。效率好测，文化难量，旁路率用一个数字把二者合并了。
2. "可数字化评分"的提案高度原创，若能形成行业标准，将从根本上改变数字项目与传统项目比较的方法论困境。
3. 对Goodhart定律的引用体现了作者的自我批判精神——他们在推广KPI的同时，也在警告KPI的滥用风险。这种双重视角在行业文章中较为罕见。

局限性

文章本身也坦诚，所提出的KPI并非完美工具，可能在某些情况下过度简化复杂的科学过程。此外，由于所有作者均就职于应用AI工具的药企，存在一定的利益相关性（conflict of interest），读者在参考时可适当考量。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-14，如有侵权请联系 cloudcommunity@tencent.com 删除

工具

本文分享自 DrugIntel 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度