
ChEMBL数据库汇总全球的药物信息,串联"适应症-靶点-结构"关联数据,便于研究人员筛选、快速锁定候选化合物,如老药新用、AI预测成药概率及临床试验分析如临床试验提前终止关键因素等。在之前的文章中有介绍过基于数据库进行芳(杂)环的骨架模拟编辑JMC|Merck药物设计:分子编辑与芳杂环的突围

ChEMBL数据库网址:https://www.ebi.ac.uk/chembl/#
药物信息来源及示例
ChEMBL的药物数据来源为FDA橙皮书、EMA药品信息、USAN申请等,具有全面性与准确性。以盐酸吡格列酮(CHEMBL1715)为例,图中直观呈现了药物数据的完整维度:从基础信息(通用名、别名、化学结构)到核心属性(适应症、作用机制),再到安全与状态信息(警告、撤市记录),甚至包含前药活性成分等深度特征。

数据的标准化构建
分子层级关系构建
该数据库通过层级体系将盐型、溶剂合物、前药、ADC等不同形态的药物归为"家族",确保同一药物的属性可聚合分析,避免数据碎片化。例如,以盐酸喷他佐辛为例(下图a),展现最简单的"给药形态-母药-活性成分"统一关系。

适应症和作用靶点
通过统计可视化,展现ChEMBL药物数据在适应症与靶点维度的分布规律,以数据分布直观呈现药物研发的重点方向与分子机制特征,为研发方向提供参考。
适应症的研发阶段分布
按研发阶段(max_phase 1-4)统计Top 20适应症,直观呈现不同阶段的研究热点。例如Phase 4药物中肿瘤相关适应症占比高,反映获批药物中肿瘤治疗药物的成熟度与临床需求集中度;而早期临床阶段则聚焦更多罕见病领域,体现反映"早期探索创新、后期聚焦刚需"的研发规律。

靶点的作用类型分布
按药物作用类型(抑制剂、激动剂、拮抗剂等)统计Top 20靶点,揭示药物-靶点相互作用的主流模式。例如抑制剂类药物集中作用于激酶靶点,这与激酶抑制剂在肿瘤、自身免疫病治疗中的广泛应用相符;而激动剂多靶向G蛋白偶联受体,反映这类受体在代谢调节、内分泌治疗中的核心地位,量化药物-靶点相互作用的主流模式。



药物生物安全性
聚焦药物安全数据,按毒性类型统计撤市药物与黑框警告药物的数量分布,量化药物安全风险的关键类型,为药物安全预测模型训练、临床风险评估提供标准化标注数据。

研发阶段与数据来源
展示各阶段药物的数据来源分布,揭示ChEMBL数据"从临床候选到获批上市"的全生命周期覆盖特点,帮助用户根据研究场景选择数据源,例如检索获批药物优先参考FDA/EMA来源,检索早期候选药重点关注USAN/ClinicalTrials.gov数据。

分子特征:支撑"成药性评估"的关键属性

前药与代谢途径的数据关联设计
通过两个实例,可视化呈现ChEMBL对前药与代谢数据的整理逻辑,解决前药研究中"活性形式不明确"的数据痛点,快速检索药物体内起效分子及实现"药物活性-代谢特征-安全属性" 的全链条数据整合:

药物研发的"时间-类型"演变趋势

总结
研究人员通过筛选ChEMBL中的适应症,可快速锁定候选化合物;
ChEMBL的"结构-靶点-适应症"关联数据已成为AI制药的核心训练集:例如用药物适应症数据验证大语言模型的"分子-适应症翻译"能力,用撤市药物数据训练"毒性预测模型";
通过整合ChEMBL的"研发阶段-靶点-安全数据",可识别出"临床试验提前终止"的关键因素——例如针对心脏靶点的药物若缺乏早期毒性数据,其终止率较高,为立项决策提供数据支撑。