首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >J. Med. Chem. | 新药研发的“数据金矿”:药物数据库助力下一代药物研发,你用了么?

J. Med. Chem. | 新药研发的“数据金矿”:药物数据库助力下一代药物研发,你用了么?

作者头像
DrugOne
发布2025-11-29 17:19:29
发布2025-11-29 17:19:29
330
举报
文章被收录于专栏:DrugOneDrugOne

ChEMBL数据库汇总全球的药物信息,串联"适应症-靶点-结构"关联数据,便于研究人员筛选、快速锁定候选化合物,如老药新用、AI预测成药概率及临床试验分析如临床试验提前终止关键因素等。在之前的文章中有介绍过基于数据库进行芳(杂)环的骨架模拟编辑JMC|Merck药物设计:分子编辑与芳杂环的突围

ChEMBL数据库网址:https://www.ebi.ac.uk/chembl/#

药物信息来源及示例

ChEMBL的药物数据来源为FDA橙皮书、EMA药品信息、USAN申请等,具有全面性与准确性。以盐酸吡格列酮(CHEMBL1715)为例,图中直观呈现了药物数据的完整维度:从基础信息(通用名、别名、化学结构)到核心属性(适应症、作用机制),再到安全与状态信息(警告、撤市记录),甚至包含前药活性成分等深度特征。

image.png
image.png

数据的标准化构建

分子层级关系构建

该数据库通过层级体系将盐型、溶剂合物、前药、ADC等不同形态的药物归为"家族",确保同一药物的属性可聚合分析,避免数据碎片化。例如,以盐酸喷他佐辛为例(下图a),展现最简单的"给药形态-母药-活性成分"统一关系。

image.png
image.png

适应症和作用靶点

通过统计可视化,展现ChEMBL药物数据在适应症与靶点维度的分布规律,以数据分布直观呈现药物研发的重点方向与分子机制特征,为研发方向提供参考。

适应症的研发阶段分布

按研发阶段(max_phase 1-4)统计Top 20适应症,直观呈现不同阶段的研究热点。例如Phase 4药物中肿瘤相关适应症占比高,反映获批药物中肿瘤治疗药物的成熟度与临床需求集中度;而早期临床阶段则聚焦更多罕见病领域,体现反映"早期探索创新、后期聚焦刚需"的研发规律。

靶点的作用类型分布

按药物作用类型(抑制剂、激动剂、拮抗剂等)统计Top 20靶点,揭示药物-靶点相互作用的主流模式。例如抑制剂类药物集中作用于激酶靶点,这与激酶抑制剂在肿瘤、自身免疫病治疗中的广泛应用相符;而激动剂多靶向G蛋白偶联受体,反映这类受体在代谢调节、内分泌治疗中的核心地位,量化药物-靶点相互作用的主流模式。

药物生物安全性

聚焦药物安全数据,按毒性类型统计撤市药物与黑框警告药物的数量分布,量化药物安全风险的关键类型,为药物安全预测模型训练、临床风险评估提供标准化标注数据。

  • 202种撤市药物的核心毒性诱因,其中心脏毒性、肝毒性占比最高(如特非那定因心脏毒性撤市),明确药物撤市的主要安全风险。
  • 含黑框警告(严重/危及生命不良反应)的获批药物,神经系统毒性、胃肠道毒性等占比靠前(如罗格列酮马来酸盐因心脏毒性被标注黑框警告)。
image.png
image.png

研发阶段与数据来源

展示各阶段药物的数据来源分布,揭示ChEMBL数据"从临床候选到获批上市"的全生命周期覆盖特点,帮助用户根据研究场景选择数据源,例如检索获批药物优先参考FDA/EMA来源检索早期候选药重点关注USAN/ClinicalTrials.gov数据

image.png
image.png

分子特征:支撑"成药性评估"的关键属性

ChEMBL"适配研发需求"的分类原则:既覆盖小分子、生物制剂等全模态药物,又通过精准标注(如手性、分子类型)支撑剂型设计、安全性评估等环节,构建了分子属性的分类与可视化标准。通过视觉符号(颜色、图标)替代纯文本/编码,例如"彩色背景"可快速识别药物是否为前药或手性分子 。

前药与代谢途径的数据关联设计

通过两个实例,可视化呈现ChEMBL对前药与代谢数据的整理逻辑,解决前药研究中"活性形式不明确"的数据痛点,快速检索药物体内起效分子及实现"药物活性-代谢特征-安全属性" 的全链条数据整合

  • 以萘丁美酮(CHEMBL1070)为例,展示前药与体内活性成分(6-甲氧基-2-萘乙酸,CHEMBL1105)的对应关系,标注代谢转化路径
  • 呈现奥美拉唑(CHEMBL1503)的完整代谢网络,包括CYP酶介导的中间代谢物与终产物,标注各代谢物的ChEMBL标识符,形成"母药-中间产物-终产物"的关联链条
image.png
image.png

药物研发的"时间-类型"演变趋势

  • 折线图展示1939-2023年的累积药物数量,按"首次获批年份"与"USAN申请年份"分别绘制,2020-2023年呈现快速增长趋势,累计达6000余种。 饼图按时间阶段展示分子类型占比:早期以小分子为主,2010年后抗体、ADC、寡核苷酸等生物制剂占比显著提升(达25%)。
image.png
image.png

总结

  • 药物重定位:老药新用的"捷径"

研究人员通过筛选ChEMBL中的适应症,可快速锁定候选化合物;

  • AI 与机器学习:模型训练的"优质饲料"

ChEMBL的"结构-靶点-适应症"关联数据已成为AI制药的核心训练集:例如用药物适应症数据验证大语言模型的"分子-适应症翻译"能力,用撤市药物数据训练"毒性预测模型";

  • 临床试验分析:失败风险的"预警器"

通过整合ChEMBL的"研发阶段-靶点-安全数据",可识别出"临床试验提前终止"的关键因素——例如针对心脏靶点的药物若缺乏早期毒性数据,其终止率较高,为立项决策提供数据支撑。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ChEMBL"适配研发需求"的分类原则:既覆盖小分子、生物制剂等全模态药物,又通过精准标注(如手性、分子类型)支撑剂型设计、安全性评估等环节,构建了分子属性的分类与可视化标准。通过视觉符号(颜色、图标)替代纯文本/编码,例如"彩色背景"可快速识别药物是否为前药或手性分子 。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档