

文献来源:Theis T, Flohr S, Binch H, et al. "Strategic Key Performance Indicators for AI in Lead Optimization." ChemMedChem, 2026; 21:e202501089 开放获取:DOI: 10.1002/cmdc.202501089 作者机构:勃林格殷格翰 · 诺华 · 罗氏 · 阿斯利康 · Nuvisan · 默克KGaA · OpenEye/Cadence
近年来,AI技术以前所未有的速度渗透进制药研发的各个环节——从靶标发现、虚拟筛选,到分子生成、ADME性质预测。大量资本与人才涌入,"AI原生"(AI-native)药企也初步展现出超越传统同行的苗头。
然而,一个根本性问题长期被忽视:
我们究竟应该用什么指标,来衡量AI在药物研发中的真实价值?
目前业界普遍依赖的技术指标(如预测精度R²、富集因子、ROC-AUC)本质上只是模型质量的体检报告,并不能回答管理层真正关心的问题:这个AI工具,有没有加快我们的研发进度?有没有减少失败化合物的合成?有没有帮我们更快把候选药物推进临床?
本文由来自7家全球顶级制药及软件公司的科学家联合撰写,作为欧洲药物化学联合会计算与药物化学工作组(EFMC²)的集体发声,系统性地回答了这一问题。这是目前该领域最具实践指导意义的战略KPI框架之一。
文章开篇援引管理学奠基人Peter Drucker的核心观点:知识型工作依赖自主性与创新,不同于流水线式的工业劳动。药物研发恰恰是知识工作的典型代表——成功依赖创造力与迭代试错,而非标准化流程的机械执行。
Drucker那句著名的格言在此显得尤为贴切:
"There is nothing more wasteful than becoming highly efficient at doing the wrong thing." (没有什么比高效地做错误的事更浪费的了。)
在药物研发中,"做正确的事"意味着选对靶标、找到真正有潜力的先导化合物——而非仅仅让AI模型跑得更快、预测得更准。
文章回顾了约十年前各大药企评估计算化学(CADD)科学家贡献的方法:
这些实践的共同特点是:以定性判断为主,量化程度低。即便引入了影响力类别,其赋值本身仍是主观判断。
随着AI工具的规模化部署,这种模糊的评估方式已难以为继。管理层需要量化的证据来支撑投资决策;研发团队需要明确的信号来调整工具应用策略。KPI的引入势在必行,但如何设计好KPI,本身就是一门学问。
文章并未回避KPI的缺陷,这也是本文视角难能可贵之处。
经济学家Charles Goodhart提出的定律已成为管理学经典:
"When a measure becomes a target, it ceases to be a good measure." (当一个指标变成目标,它就不再是好指标了。)
一旦KPI与绩效挂钩,组织就会不可避免地向指标靠拢,甚至扭曲行为来"刷数据"。这在高目标一致性、高目标不确定性的组织(如制药R&D)中尤为突出。
陷阱 | 具体表现 |
|---|---|
追踪成本 | 任何正式指标都需要数据采集与汇报,增加管理负担 |
樱桃采摘 | KPI过多导致选择性汇报,报好不报坏 |
激励错位 | KPI可能造成部门间目标冲突,产生有界理性下的短视行为 |
扼杀创新 | 绩效评估与KPI挂钩可能损害内在动机,而创造力恰恰依赖这种动机 |
成熟度错配 | 新兴领域更需要灵活探索,过早引入KPI可能固化思维、阻碍突破 |
文章的结论并非"不要KPI",而是:KPI应当被主动、审慎地设计,而非被动、机械地套用。在AI驱动的创新期,避免过度测量与微观管理至关重要。
所有公司都渴望证明AI对顶线效率KPI(如"进入临床的时间"或"每个临床候选物的成本")产生了影响。但这种证明面临一个根本性的方法论难题。
与制造业不同,药物发现本质上是特异性的(idiosyncratic)——每个项目的靶标类别、模态、数据可用性都大相径庭。理想的对照实验(两支相同团队研究同一靶标)永远不会存在。
这带来了严重的混淆变量问题:
为解决上述问题,文章创造性地提出了一个新概念——Digitizability Score(可数字化评分),类比于药物发现领域已有的"成药性评分"(druggability)和"配体化性评分"(ligandability)。
该评分综合考量以下因素:
该评分的双重价值:
文章提出,简单的"使用量"统计(模型调用次数、活跃用户数、工作流执行次数)虽然直观实时,但随着自动化程度提升,人工操作减少,使用量本身越来越难以反映AI的真实影响。
在工业药物化学中,项目团队通常持续追踪关键优化参数(KOPs)(如活性、选择性、渗透性)随时间的变化曲线。
将数字工具的引入时间点标记在曲线上,若随后出现斜率的突变或不连续性,即为"速度拐点"——这是AI工具(结合团队策略)加速优化的客观证明。
正向数据(拐点明显)可以反馈给团队,强化信心并鼓励将工具延续到下一个项目;负向数据(曲线平坦)则是调整策略的信号。
制药研发的标准化合物优化级联(assay cascade)中,通常存在若干"门控实验"——必须通过才能进入下一阶段的测试。例如,肝微粒体稳定性实验(liver microsomes)是肝细胞实验(hepatocytes)的前置门控。
如果预测模型的置信度足够高,某些化合物可以直接跳过湿实验门控,进入下一级测试。
旁路率 = 基于高置信预测成功跳过湿实验门控的化合物数量或比例
这个KPI是一个双重指标:
净推荐值(Net Promoter Score)是客户体验管理领域的经典工具,核心问题只有一个:
"您有多大可能向同事推荐这个工具?"(0-10分)
将其移植到内部R&D工具评估,即得到iNPS。项目团队是CADD工具的"客户",高iNPS是工具在组织内未来扩散的领先指标(leading indicator)。相比其他指标,iNPS还可以借鉴服务业多年的丰富经验积累。
为什么富集因子不够用?
富集因子(enrichment factor)只能衡量虚拟命中物在已知活性化合物库中的排名效率,而完全无法反映"找到的化学骨架有没有价值"这一核心问题。
推荐的战略KPI:
① 团队采纳率(Team Uptake Rate) 定义:AI推荐的命中物中,被药物化学家实际选择进行进一步优化的比例。
技术上活跃但结构上毫无吸引力的命中物(被团队忽视)对项目没有任何价值。团队采纳率是比命中率更真实的"价值过滤器",虽然受到认知质量和时机等复合因素影响,但仍是重要参考。
建议实施方式:VS活动应尽量与湿实验HTS并行开展,以校正靶标偏差;筛选大型虚拟化学空间时,建议至少获取/合成数百个化合物进行验证。
② 每验证命中成本(Cost per Validated Hit) 定义:总筛选成本(计算成本 + 合成成本)除以生物学验证命中簇数量。
注意:计算方法初看成本低,但需计入软件许可费、假阳性命中物的复杂合成成本等隐性开销。此KPI有助于推动筛选技术的成本效益优化,避免为了"看起来省钱"而选择实际上价值较低的方案。
生成式AI面临一个独特的评估困境:没有真实标签(ground truth)可以对标。因此,技术指标(有效性、合成可及性评分)大多只是代理指标,而非真正衡量业务影响的指标。
推荐的战略KPI:新颖性加权影响(Novelty-Weighted Uptake)
定义:满足以下两个条件的已合成化合物数量:
为什么不用简单的"完全匹配"或"宽松归因"?
新颖性加权确保KPI奖励的是真正有创新价值的建议,而非对已知结构的简单变奏。这也解决了一个核心问题:GenAI与团队自主设计之间的化学空间重叠往往较小,需要明确的相似度阈值来界定"独立贡献"的边界。
目标不只是预测准确,而是支持决策
对ADME预测模型而言,高R²和低MAE是必要条件,但不是充分条件。静态测试集的表现往往无法反映真实项目中的预测效用。
文章建议采用时间分割评估(time-split evaluation):使用化合物合成时实际可用的模型版本进行回溯预测,模拟前瞻性表现,更贴近真实部署场景。
推荐的战略KPI:平均性质偏移(Mean Property Shift)
定义:追踪已合成化合物关键终点(代谢稳定性、渗透性、溶解度等)的移动平均值随时间的变化趋势。
若ADME预测模型真正发挥了作用,这条曲线应随时间向目标方向漂移。若曲线持平,说明存在以下两种失败之一:
这一区分对于管理决策至关重要:前者需要改进模型,后者需要改进培训与推广策略。
此外,文章还强调了核心运营KPI的重要性:服务正常运行时间、预测框架的鲁棒性、响应速度——这些是确保工具被实际使用的基础设施保障。
应用领域 | KPI名称 | 定义与测量方法 | 战略目标 |
|---|---|---|---|
虚拟筛选 | 团队采纳率 | AI推荐命中物被化学家选用进行合成或测试的比例 | 衡量虚拟命中物的感知价值,超越理论富集指标 |
虚拟筛选 | 每验证命中成本 | 总筛选成本(计算+合成)除以生物学验证命中簇数 | 确保AI筛选相对传统方法的成本效益 |
生成式AI | 新颖性加权影响 | 来源于GenAI且满足新颖性阈值(Tanimoto<0.8)的已合成化合物数量 | 量化系统对新颖化学物质的贡献(创新),而非简单的类似物挖掘 |
ADME/性质预测 | 平均性质偏移 | 已合成化合物关键终点(代谢稳定性等)随时间变化的移动均值 | 评估预测模型是否切实引导项目向目标性质方向推进 |
采纳度 | 速度拐点 | 关键优化参数(KOPs)随项目时间变化的斜率突变 | 客观衡量工具是否加速了先导优化进程 |
采纳度 | 旁路率 | 基于高置信预测成功跳过湿实验门控的化合物比例 | 衡量效率收益与团队对预测可靠性的信任程度 |
采纳度 | 内部净推荐值(iNPS) | "您有多大可能向同事推荐这个工具?"(0-10分) | 用户满意度指标及未来组织推广的领先指示 |
文章对未来研究提出了三个方向:
① 纵向关联研究 探索早期战略KPI(如速度拐点、旁路率)与顶线交付物(效率、速度)之间的因果关系,使KPI真正成为成功的可靠预测指标,而非结果的被动记录。
② 可数字化评分的标准化 确定哪些数据因素(如结构可用性 vs 实验数据方差)最能预测靶标对AI工具的适应性,建立行业标准化评分体系,使跨项目、跨公司的比较成为可能。
③ 人机交互与信任的量化研究 信任是旁路率背后的关键心理机制。深入理解信任如何影响决策质量,将为下一代"增强智能"系统(augmented intelligence systems)的设计提供实证基础。
文章还特别提出了一个时间窗口的紧迫性:目前是利用前AI项目作为历史基线评估AI影响力的难得机会——随着时间推移,这一基线将永久消失。
当前行业有大量文章讨论"AI模型有多准",却极少有人系统讨论"AI工具有没有真正改变研发结果"。本文填补了这一关键空白,将评估框架从技术验证提升到战略影响层面。
文章本身也坦诚,所提出的KPI并非完美工具,可能在某些情况下过度简化复杂的科学过程。此外,由于所有作者均就职于应用AI工具的药企,存在一定的利益相关性(conflict of interest),读者在参考时可适当考量。