清华AIR联合水木分子开源DeepSeek版多模态生物医药大模型BioMedGPT-R1

智药邦

发布于 2025-03-03 22:08:02

6960

文章被收录于专栏：智药邦智药邦

2025年初，DeepSeek给全球引发了AI大模型的新一轮热议。多家市场咨询公司指出，在DeepSeek的影响下，从大模型供应商到基础设施和平台供应商的整个AI产业生态都掀起了一波“新浪潮”。DeepSeek R1以其强大的推理能力，为各行各业带来了智能化升级新机遇。而生物医药作领域也正在迎来DeepSeek时刻。

2025年2月20日，清华大学人工智能产业研究院（AIR）和北京水木分子生物科技有限公司（简称：水木分子）携手推出了升级版的生物医药多模态开源基础大模型BioMedGPT-R1。此前，在2023年，双方合作发布了开源可商用、生物医药多模态百亿参数开源基础大模型BioMedGPT，水木分子发布了自研千亿参数多模态生物医药专业大模型Chat DD-FM和新一代AI驱动药物发现工具Chat DD。这次DeepSeek版ChatDD- R1基座模型也已同步上线ChatDD，赋能生物医药企业的药物研发。

自发布以来，BioMedGPT受到了开源社区和产研界的广泛欢迎和好评，清华大学AIR与水木分子也在ICML、NeurIPS和KDD等国际顶级会议上围绕生物医药研发场景联合发表了多篇学术论文。BioMedGPT-R1与ChatDD-R1将DeepSeek-R1运用到生物医药多模态大模型和医药研发助手中，进一步降低计算成本、升级智能能力、提高研发效率，开源与商业“双管齐下”、推动“AI+医药”DeepSeek浪潮。

BioMedGPT-R1：新一代开源生物医药多模态大模型

BioMedGPT是清华大学智能产业研究院（AIR）携手水木分子开源的全球首个可商用多模态生物医药百亿参数大模型，该模型在生物医药专业领域问答能力比肩人类专家水平，发布时在自然语言、分子、蛋白质跨模态问答任务上达到SOTA。BioMedGPT能够同时处理多种生物医学任务，具有广泛的适用性、更多的可能性。

在BioMedGPT的基础上，清华大学AIR与水木分子再次携手推出了BioMedGPT-R1 (图1)，用DeepSeek R1蒸馏版本模型更新了BioMedGPT中现采用的文本基座模型，从而引入了更优的文本推理能力。通过跨模态特征对齐，BioMedGPT-R1实现了生物模态与自然语言文本模态在同一个特征空间的统一融合，探索了生物多模态场景下的模型深度推理能力。通过训练对齐翻译层（Translator），BioMedGPT-R1将生物模态编码器（Molecule Encoder与Protein Encoder）输出映射到自然语言表征空间,从而在DeepSeek R1基础上增加了生物模态数据的理解能力。

图1：BioMedGPT-R1模型框架和主要训练步骤

以化学小分子为例，在BioMedGPT-R1中，经过化学分子编码器提取特征，生成中间表示，然后通过对齐翻译层进行映射，得到化学分子表征，进而与经过处理和编码的语言指令表征共同输入至基座语言模型，使语言模型能够结合两个模态信息进行综合推理，生成最终的文本回复。

基于上述模型架构与训练策略，BioMedGPT-R1支持跨模态自然语言和生物语言的交互式问答推理，可应用到药物分子深度理解分析、药物靶点探索与挖掘等领域。例如，当需要了解某个化学分子时，BioMedGPT-R1可以从分子结构、官能团组成、生化性质和可能的应用等方面逐步推理分析，最终形成文本回复（图2）。生物医药从业人员日常工作既离不开文本，也离不开小分子、蛋白质等生物模态信息，BioMedGPT-R1将“强推理慢思考”从单文本模态，进一步推广至生物多模态场景，赋能生物医药行业。

图2：跨模态对齐后，模型实现多模态问答场景下的理解分析

清华大学AIR和水木分子研究团队长期持续维护OpenBioMed开源平台：

https://github.com/PharMolix/OpenBioMed

团队现阶段探索方向是如何在强推理语言模型的基础上更好地适应性地实现跨模态对齐，团队正在以BioMedGPT-R1为基础进行系统性研究与综合评估，目前已经观察到其在化学分子理解任务上的性能提升，如在CheBI-20化学分子描述任务上相比上一版本效果提升超15%（表1），后续也将依托OpenBioMed平台开源BioMedGPT-R1模型和生物医药研发Agent系统框架。

表1：在CheBI-20化学分子描述任务上产生明显性能提升

BioMedGPT-R1在生物医药相关文本问答任务上也展现出了较优的效果，如在USMLE美国医师资格考试上达到了67.1%正确率，效果逼近闭源商用大模型和人类专家水平（图3），并在专家级医疗推理与理解评测集MedXpertQA上达到和闭源商用大模型相当的效果（图4），团队正在探索生物医药场景下的多个深度推理能力应用，期待让“强推理慢思考”赋能医药研发。

图3：在USMLE美国医师资格考试评测集上效果逼近闭源商用大模型和人类专家水平

图4：在MedXpertQA专家级医学推理与理解评测集上效果与闭源商用大模型相当

ChatDD-R1：药企全流程智能化升级，显著提升药物研发效率

水木分子开发的对话式医药研发助手ChatDD，基于分子、蛋白质和单细胞等多模态生物医药大模型，服务药物研发全流程，包括立项调研、靶点挖掘、早期药物发现、临床前研究、生物标记物发现和精准患者招募等场景。DeepSeek版ChatDD-R1将是多模态生物医药大模型ChatDD-FM的升级版本大幅提升了推理规划能力，为广大药企提供更强的研发能力、更高的研发效率和更低的研发成本。ChatDD-R1与水木分子专属知识图谱结合，为药企用户提供更加专业、实时、全面的深度检索与思考；同时也与药物研发专家经验流程结合，在特定场景给予专业思路引导，例如药物竞品分析、上市药物的专利过期时间、信号通路推荐等。

参考资料

https://mp.weixin.qq.com/s/owja2uRm1khgDLz2iX0CPQ

--------- End ---------

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-02-28，如有侵权请联系 cloudcommunity@tencent.com 删除

基础