近期,Mayo Clinic 的 Chowdhury 等人在 bioRxiv 上发表了一项创新研究,题为《SensitiveCancerGPT: Leveraging Generative Large Language Model on Structured Omics Data to Optimize Drug Sensitivity Prediction》。该研究探索如何通过生成式大语言模型(LLM),特别是 GPT,优化药物敏感性预测(DSP),为精准肿瘤学提供新的技术路径。
研究背景:药物敏感性预测的挑战与机遇 癌症因其遗传异质性导致患者对药物的反应差异显著,使得个性化治疗成为精准肿瘤学的核心目标。然而,传统药物敏感性预测方法面临多重挑战:高通量筛选技术生成的结构化组学数据(如基因表达、药物属性)体量庞大且复杂,常规深度学习模型在处理此类数据时往往表现欠佳。此外,现有模型在跨组织泛化和针对新药或罕见癌症类型的预测中能力有限,导致药物研发成本高企,失败率高达 96%。
生成式大语言模型(如 GPT)因其在自然语言处理领域的成功而备受关注。然而,将其直接应用于结构化的药理基因组学数据并非易事,因为表格形式的组学数据与自然语言格式存在显著差异。Chowdhury 等人的研究通过创新方法填补这一空白,系统评估了 GPT 在药物敏感性预测中的潜力,并探索了如何优化其性能。
研究方法:从数据处理到模型优化 研究者设计了一套系统性方法,将结构化数据转化为 GPT 可理解的输入,并测试多种学习策略。
1. 数据来源 研究使用了四个公开的药理基因组学数据集:
GDSC (Genomics of Drug Sensitivity in Cancer)CCLE (Cancer Cell Line Encyclopedia)DrugComb PRISM 这些数据集覆盖五种主要癌症类型:肺癌、甲状腺癌、乳腺癌、脑癌及结肠/胃癌,提供了丰富的药物-细胞系反应数据。
2. 数据线性化 为使 GPT 处理结构化数据,研究团队将表格数据转化为自然语言描述。例如,一行数据可能被转换为:“药物 Bortezomib 应用于 LC-2-ad 细胞系,伴随特定基因表达特征,其 IC50 值为某数值。”这一步骤称为数据线性化 ,是连接结构化数据与语言模型的关键桥梁。
3. 提示工程 研究设计了三种提示模板以指导 GPT 理解任务:
指令模板 :明确任务目标,例如“判断该药物-细胞系对是否敏感”。指令前缀模板 :提供简洁上下文,例如“药物: X; 细胞系: Y; 反应:”。填空模板 :模拟完形填空,例如“LC-2-ad 细胞对 Bortezomib 的反应为 [Z]”。实验表明,指令前缀模板表现最佳,提示设计的优化对模型性能至关重要。
4. 学习范式 研究测试了四种学习方法:
零样本学习 :直接使用预训练 GPT 进行预测,无需额外训练。少样本学习 :在提示中加入少量示例以说明任务。微调 :在特定数据集上进行监督训练以优化模型。聚类预训练嵌入 :利用贝叶斯高斯混合模型对 GPT 的文本嵌入进行聚类预测。5. 特征选择 研究还探索了不同特征对性能的影响,包括药物分子结构(SMILES)、基因组学特征及功能性上下文(如药物协同作用信息)。
实验结果:性能评估与关键发现 1. 性能指标 实验结果显示:
微调 表现最佳,平均 F1 分数达 0.84,较零样本学习(F1=0.24)和少样本学习(F1=0.66)显著提升,增幅分别达 250% 和 28%。聚类预训练嵌入 也表现优异,F1 分数为 0.83,接近微调效果。在提示模板中,指令前缀式 最佳(F1=0.68),表明简洁且结构化的提示能有效提升 GPT 的理解能力。 2. 特征影响 加入药物 SMILES 未提升性能,反而导致 F1 分数下降。 添加基因组学或功能特征(如药物协同作用信息)显著提高预测准确性。 3. 跨组织泛化 GPT 在跨组织测试中表现出色:
在 GDSC 和 PRISM 数据集上,跨组织预测的 F1 分数与组织内测试相当。 在 CCLE 和 DrugComb 数据集上,跨组织性能甚至优于组织内测试,F1 分数提升达 19%(DrugComb)。 这表明 GPT 对数据稀缺的罕见癌症类型具有潜在应用价值。 4. 生物学可解释性 通过分析 GPT 的文本嵌入,研究发现其预测与生物学机制一致。例如,EGFR 抑制剂与 MAPK 通路的负相关性与已有研究吻合,增强了模型的可信度。
与现有方法的比较 研究将 GPT 与多种现有药物敏感性预测模型对比,包括 SWNet、PaccMann、ConsDeepSignaling 以及 BERT 和 BioBERT。结果显示:
GPT 的平均 F1 分数比 BERT 和 BioBERT 高 8%。 在敏感类别预测中,GPT 优势尤为明显,尤其在标签稀缺场景下表现稳健。 这表明,GPT 在处理复杂药理基因组学数据时超越了当前主流模型。
局限性与未来方向 尽管成果显著,研究仍存在局限:
性能差异 :在 CCLE 数据集上的表现低于其他数据集,提示需进一步优化。安全性问题 :医疗应用中需确保预测的可靠性和安全性,当前模型尚未经过充分临床验证。可解释性不足 :尽管具有一定生物学关联性,但模型的决策过程仍需更深入解析。未来研究可关注:
提示优化 :设计更适应生物医学数据的提示策略。开源模型 :尝试 LLaMA 等开源 LLM 以降低成本并推广应用。增强解释性 :结合链式思维(Chain-of-Thought)生成预测依据,提升透明度。参考 Chowdhury S, Rajaganapathy S, Sun L, et al. SensitiveCancerGPT: Leveraging Generative Large Language Model on Structured Omics Data to Optimize Drug Sensitivity Prediction. bioRxiv 2025.02.27.640661. https://doi.org/10.1101/2025.02.27.640661 代码仓库:https://github.com/bioIKEA/SensitiveCancerGPT 本文为实验盒作者对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读内容由实验盒作者独立撰写,未经许可,请勿转载,侵权必究。如需转载,请提前通过私信联系。