前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >中南大学王建新教授团队提出BANDRP模型,通过基于分子指纹和多组学的双线性注意力网络进行药物反应预测

中南大学王建新教授团队提出BANDRP模型,通过基于分子指纹和多组学的双线性注意力网络进行药物反应预测

作者头像
智药邦
发布2024-11-18 20:57:04
发布2024-11-18 20:57:04
910
举报
文章被收录于专栏:智药邦智药邦

预测药物反应(一般而言是预测药物在细胞系上的IC50的值)有助于药物发现与疾病的个性化治疗。目前,虽然已有一些人工智能方法用于药物反应预测,但这些方法仍然受到输入特征信息冗余和特征之间复杂相互作用的限制,因而难以有效整合与细胞系、药物及其已知反应相关的各种特征,以实现药物反应的精准预测。

2024年10月15日,中南大学王建新教授团队在Briefings in Bioinformatics上发表文章BANDRP: a bilinear attention network for anti-cancer drug response prediction based on fingerprint and multi-omics。

作者提出了基于肿瘤细胞系的多个组学数据和药物的多个分子指纹,提出了一种双线性注意力模型(Bilinear AttentioN model for Drug Response Prediction, BANDRP),用于预测潜在的药物反应。与现有模型相比,BANDRP利用基因表达数据计算通路富集分数来丰富细胞系特征,并通过双线性注意力网络自动学习细胞系与药物的交互信息。实验表明,BANDRP的性能超越了现有方法。

如图1所示,BANDRP首先基于药物的SMILES字符串,计算药物的扩展连通性指纹图谱(ECFP)、可解释子结构分区指纹图谱(ESPF)和PubChem指纹图谱(PubchemFP)。第二步,使用GSVA根据基因表达计算每个细胞系的通路富集分数。第三步,将基因表达、基因组突变、DNA甲基化和通路富集评分整合到疾病特征编码器中,并将药物的分子指纹整合到药物特征编码器中。在特征编码器中设计了针对特定特征的多层感知机(MLP),以获取药物和细胞系的潜在表征。第四,将这些潜在表征输入双线性关注模块,该模块由双线性注意力层和双线性池化层组成,生成细胞系和药物的融合表征。最后,将融合的表示输入到MLP中进行预测,从而得到IC50值的估计。

图1 BANDRP结构图

GDSC是一个大型的药物敏感性信息公共数据库,提供了细胞系的多组学数据、药物的分子标记以及已知的药物反应信息。在这项研究中,作者收集了969个细胞系与GDSCv2数据库中的286种药物之间的半最大抑制浓度(IC50)值(对数转换)。CCLE对1000多种癌细胞进行了大规模深度测序,提供了包括基因表达、基因组突变和DNA甲基化数据在内的多组学数据。作者从CCLE下载与癌细胞系相关的基因表达、基因组突变和DNA甲基化数据。

疾病(以癌症为例)特征编码器计算多组学数据的潜在表示。对于每个癌细胞系,以其相关的733个人类基因及其相关基因表达、基因组突变和DNA甲基化数据,组成3个特征向量。在基因表达数据中,向量的每一位表示基因表达的对数标准化转录本每百万(TPM)值。在基因突变数据中,向量的每一位表示该基因是否有突变(1表示突变,0表示不突变)。在甲基化数据中,每一个位表示对应基因的甲基化值。

通路富集评分结合了预定义的生物学通路信息,并通过考虑基因的集体行为揭示了潜在的生物学机制。因此,作者引入了通路富集评分作为癌细胞系的一个特征。首先从分子特征数据库(Molecular Signatures Database, MSigDB)下载c2基因集,该基因集包含与人类相关的典型通路基因集。接下来,将癌细胞系基因表达数据中的714个基因与每个生物通路基因集相交,去除交集中少于5个基因的生物通路基因集。最后选取1283个生物通路基因集作为背景基因集⁠,包含1283个元素,每个元素代表一个预定义的生物通路和它所包含的基因。然后,使用GSVA的R包计算通路富集分数。GSVA是一种非参数、无监督的方法,用于计算样本基因集富集分数。GSVA方法的输入参数包括待分析样品的基因表达载体、代表生物通路的背景基因集和可选的核函数。输出是背景基因集生物通路中每个样本的富集分数,计算的概率密度使用核密度估计,然后将这些概率密度转换为归一化秩,以最小化误差。随后使用归一化秩来计算每个生物通路的KS随机游走统计量⁠。最后,将归一化的KS统计量作为通路富集评分。这样就获得了细胞系的4个潜在表示(基于以上四种模态的数据),然后将这些表示垂直连接成一个矩阵,作为细胞系的最终表示。

对于药物分子,使用RDKit分别计算每种药物的ECFP、ESPF和PubchemFP指纹。ECFP是一种计算分子指纹的经典方法,它通过构建基于原子及其周围分子结构的位串,结合分子的拓扑信息和局部化学信息来表示分子。ESPF将药物分解成一组中等大小的离散药物亚结构,然后使用字节对编码算法对药物进行编码。在癌细胞系中诱导相似作用的分子往往具有相似的亚结构或药效团特征。因此,ESPF提供的亚结构信息通过利用已知有效分子之间的结构相似性和共同药效团,增强了模型识别和预测新化合物生物活性的能力。PubchemFP由PubChem数据库提供,是一种基于化学分子片段的位串编码。编码中的每个位对应于一个特定的分子或化学特征。然后,采用与细胞系编码器相似的结构,从药物的多模态表示中得到最终的药物表示矩阵。

接下来,双线性注意力模块接收编码后的细胞系和药物表示作为输入,进行成对组合,使用一个全一向量作为查询,将细胞系表示向量和药物表示向量作为键值对,计算注意力分数。随后,将这些药物-细胞系表示对及其对应的注意力分数输入双线性池化层,对于每一对药物-细胞系对,生成最终的联合表征。BANDRP采用多头注意力形式学习药物与癌细胞系之间的融合表示,最终的融合表示向量为每一个头的表示之和。使用MLP分类器进一步从双线性注意力模块输出中提取特征,并进行最后的预测。神经网络采用均方误差作为损失函数。

作者将BANDRP与一些具有代表性的方法进行了比较,如表1所示。为了评估BANDRP的性能,作者采用了均方根误差(RMSE),平均绝对误差(MAE),决定系数(R2), Pearson相关系数(PCC)和Spearman相关系数(SCC)。RMSE和MAE越低越好,R2, PCC和SCC越高越好。结果表明,BANDRP性能超过了现有模型。

表1 与其他方法对比

作者设计了消融实验来验证模型设计的有效性。如表2所示,作者分别去除细胞系的基因表达特征(EXP),基因突变特征(MUT),甲基化特征(METH),通路特征(PATH),以及药物的三种指纹(ECFP, ESPF, PubChemFP),评估其对模型的影响。BANDRP的性能优于去除某一种特征的模型,表明这些特征都对BANDRP的性能提升做出了贡献。

表2 消融实验

作者还进行了案例分析。急性髓系白血病(Acute myeloid leukemia,AML)是一种较为棘手的血液系统癌症,其特点是骨髓中血细胞的异常增殖。在本研究中,作者使用基准数据集对AML细胞系进行了从头测试。更具体地说,选择9个AML细胞系,并指定与这些细胞系相关的药物反应作为测试集。剩余的药物反应用于模型训练。结果包括预测9种AML细胞系中169种药物的IC50值(见图2)。根据平均值对AML细胞系中预测的药物值进行排序后,显示敏感性最高的3种药物是长春花碱(Vinblastine)、多西他赛(Docetaxel)和硼替佐米(Bortezomib)。值得注意的是,现有的生物学实验证实了这些药物在AML治疗中的有效性。这些结果表明,BANDRP可以帮助发现抗癌药物的新治疗效果,并为癌症治疗提供潜在的治疗选择。

图2 案例分析

在本文中,作者提出了BANDRP,一种通过整合来自细胞系和药物的多模态数据来预测药物反应的新方法。BANDRP集成了一个双线性注意力模块,可以有效地融合细胞系和药物的多模态特征。尽管BANDRP在抗癌药物反应预测方面表现良好,但仍有可能改进的领域。首先,该模型目前没有考虑靶标和疾病等生物实体。在这种情况下,探索生物实体的包含和管理数据稀疏性的挑战是未来探索的一个途径。其次,虽然基于分子指纹的药物表示被证明是有效的,但在处理未知药物时,需要进一步探索提高模型的预测性能。第三,BANDRP侧重于预测单药情况下的药物反应。考虑到临床用药场景,协同用药组合的预测值得进一步探索。在未来的研究中,需要在更大的数据集上开发药物反应预测模型,并探索预训练模型的集成,以增强药物表征。此外,需要关注各种药物组合,并建立多种药物联合反应的预测模型,以更好地反映真实的临床治疗策略,优化联合治疗,提高治疗效果。

参考资料:

Cao et al. BANDRP: a bilinear attention network for anti-cancer drug response prediction based on fingerprint and multi-omics. Brief Bioinform. 2024

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档