前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大模型能成为你的私人医生么?中文医疗大模型评估基准CMB现已加入OpenCompass

大模型能成为你的私人医生么?中文医疗大模型评估基准CMB现已加入OpenCompass

作者头像
OpenMMLab 官方账号
发布于 2023-11-03 07:29:09
发布于 2023-11-03 07:29:09
1.3K02
代码可运行
举报
文章被收录于专栏:OpenMMLabOpenMMLab
运行总次数:2
代码可运行

近期,中国的医疗大模型研发正蓬勃进行,涌现了诸多具有影响力的工作,例如 BenTsao[7]、MedicalGPT[4]、Med-ChatGLM[5]、HuatuoGPT[1] 等。然而,由于缺乏标准化的基准,我们难以对这些模型的提升进行量化。为此,基于临床医学领域的行业特性,香港中文大学(深圳)的研究人员构造了中文医疗大模型评估基准 CMB,该基准通过选择题和复杂病历问诊任务对各模型的医学知识与诊断能力进行了全面评估。CMB 旨在为中文医学大模型的开发者们提供详细且精准的反馈,以加速模型的迭代过程,并推动中文医学领域语言模型的进一步发展与应用。

目前该评测基准已加入 OpenCompass 平台,用户可直接在 OpenCompass 完成大模型在医疗能力上的全面评测。

https://github.com/open-compass/opencompass

(欢迎使用,文末点击阅读原文可直达)

研究背景

医疗技术的进步极大地延长了人类的寿命。医学依赖于知识和经验,而语言模型依赖于数据,这种一致性给予了医学大模型帮助缓解医疗资源短缺的可能性。

虽然医学 LLM 应用前景广阔,但是模型的评估仍存在许多挑战,在医院中部署 LLM 会带来重大的伦理问题,使得从实际场景中获取反馈较为困难。现有的模型评价通常使用自动评估(GPT-4),考虑到医疗的准确性和专业性要求,这种没有参考答案的评估欠缺说服力。而专业的人工评判往往需要高昂的人力成本,且不易扩大规模。

BioLAMA 拥有参考答案,但它是为了评估掩码语言模型而不是自回归模型。MultiMedBench 包括问题解答、报告总结、视觉问题回答、报告生成和医疗图像分类,但 MultiMedBench 只有英文版本,直接翻译一方面需要对中英文医学和文化有深入了解,另一方面难以覆盖中医医学知识。

为此,CMB 提出了中文医疗模型评估基准,其中包括了适用于不同临床职业、不同职业阶段的多项选择题(CMB-Exam)和基于真实病例的复杂临床诊断问题(CMB-Clin)。

通过其进行的测评实验发现:

  1. GPT-4 在医学领域的表现显著优于其他模型,同时中文通用大模型也表现出色;
  2. 尽管如此,专门的医疗大模型在性能上仍落后于通用模型,表明其有很大的发展空间;
  3. CMB 还发现,具有参考答案和评分标准的问诊自动评估与专家评估高度一致,这为医学领域提供了超级对齐的初步实践。

数据集:基础知识和临床问诊能力并重

为了分别评测模型在医疗知识掌握程度和临床问诊能力方面的表现,CMB 构建了两个不同的数据集,分别是 CMB-Exam 和 CMB-Clin 集。

CMB-Exam 的构建理念是反映真实医疗领域的考核体系,覆盖了医生、药剂师、医技科室、护士岗位,对于一致的大学学科知识考试和研究生入学考试进行了合并,归纳出了六个类别。类别中依据职业阶段进行子目录的划定,子目录中又针对不同科室提供了细粒度更小的标签。

其数据的来源主要为历年真题、模拟题、课程练习题和章节测试题。其中一部分来自于医学题库网(https://www.medtiku.com/),获得了维护者的支持。为了确保数据质量,CMB 采用了一套规范的数据预处理流程,包括数据去重、清洗,针对原数据无法确认问题质量的地方,CMB 还进行了人工校验,纠正文法错误。同时,利用中国医疗试题库提供的评论系统,实行了严格的选题和删题过程,保证了问题中蕴含知识的准确度。

CMB-Clin 基于 74 个复杂真实案例,考察模型在真实诊断和治疗情境中的知识应用水平,评测其是否可以利用知识真正帮助解决临床复杂问题。其中,每个案例包含病历详情和 1~3 个问题,共 208 个问题。模型需要理解病人信息,包括主诉、病史概要、体格检查。根据这些信息来解答与诊断和治疗相关的问题,有些问题可能彼此关联。模型也需要能提供问题的解决方案。在与考官进行的对话模拟中,模型需要展现出其诊断和治疗能力。

实验:医疗大模型和通用大模型分别能力几何?

CMB 选用了 7 个中文开源医疗模型(HuatuoGPT[1],BianQue-2[2],ChatMed-Consult[3],MedicalGPT[4] , ChatGLM-Med[5],Bentsao[7],DoctorGLM[6]),2 个中文通用模型(ChatGLM-2[8],Baichuan-13B-Chat[9])以及 ChatGPT 和 GPT-4,在对齐超参的条件下,在 CMB-Exam 和 CMB-Clin 上对比表现。

CMB-Exam 实验

CMB 对比了 Zero-shot 条件下各模型的表现,在通用语言模型中,GPT-4 在医学领域的表现远超过其他模型,但仍然有很多问题回答错误。中文通用模型 ChatGLM2-6B 和 Baichuan-13B-chat 紧随 GPT-4 之后。值得一提的是,参数量仅为 6B 的 ChatGLM2 模型甚至超过了 ChatGPT,显示了国产大模型的在医疗领域的卓越能力。

在医疗领域的模型中,中文医疗模型的发展似乎落后于通用大型模型。其中,BianQue-2[2] 和 DoctorGLM 由于输入长度的限制和指令跟随能力的不足,使得无法在模型回答中抽取到答案,因而分数较低。

在不同临床职业的评分中,LLM 在各个临床专业领域表现不一,如药剂师相关问题得分较低,而护士相关得分较高。这可能是因为护士需要的基础知识相对直接,而药剂师需要处理的药名和药效差别较大。尽管在专业领域中的表现存在差异,但模型表现出一致的趋势,不特别偏向特定职业。

另外,研究还检验了 AI 模型和人类对考试难度感知上的一致性(Figure 2)。结果显示,医师和护士模型的准确率随着职业等级的提升而降低,但医学技术人员则呈现出相反的趋势,其主管技师考试的准确率最高。这可能是因为此类考试更侧重于人员管理和交流,而这并非医学专业的内容,而是可以从大量的通用语料库中学习的。而对于药师,CMB 发现涉及到传统医学的问题难度较大,这也说明了为中文医学领域开发大模型的必要性。

此外,CMB 还探索了 Few-shot 和 CoT 策略的效果,发现 CoT 并不总能提高模型的精度,可能其反而会给模型带来不相关的背景信息,妨碍了模型的推理能力。而 Few-shot prompting 策略在模型已经展现出较高准确性的情况下效果最明显。在表现欠佳的模型中,使用这种策略可能反而会损害模型的结果。后者的原因可能有两个:一是模型在处理大段输入时遇到困难,二是模型可能需要进一步的优化,以更好地利用上下文中的示例。

CMB-Clin 实验

CMB 从四个维度(流畅性、相关性、完整性、医学知识专业性),用人工评估和自动评估的方式对语言模型在 CMB-Clin 评测数据集上的输出进行打分。上表是 GPT-4 基于参考答案和评分标准得出的模型分数。同时 CMB 对自动评估和专家评估的一致性进行了量化统计,发现自动评估和专家评估之间的结果存在高度的一致性,两者的结果排名 Spearman 系数为 0.93 ,分数的 Pearson 系数为 0.84 。

其次,CMB-Exam 和 CMB-Clin 两组数据的排名结果也非常一致,Spearman 系数达 0.89。研究者希望模型在 CMB-Exam 的训练集上进行微调后,仍然能在 CMB-Clin 上获得不错的分数,与社区的期望进行对齐:既有足够的医学知识,又能和患者进行有效交流,帮助解决实际问题。

CMB 还探索了不同解码温度下的结果之间的差异。研究发现,当解码温度从 0 增加到 1.5 时,模型的整体表现有所下滑,这可能是因为较高的温度会导致输出的随机性(多样性)增加,而在医学领域,社区更偏好准确的内容。同时,CMB 也发现在不同的解码温度下,模型的排名结果的稳定性都非常高。

总结

CMB 从现实医学考核和临床应用出发,结合选择题和复杂病历问诊来全面检验模型在医学知识与诊断能力上的表现。研究者真诚地希望,CMB 可以为医学大模型的研发者们提供有力的反馈,帮助更快地完善模型,促进中文医学领域语言模型的持续创新和应用。CMB 将在近期加入更多中文模型测评,论文也将在近期更新。

相信在共同努力下,未来医疗大模型的社会接受度和应用场景将不断扩大,为人口老龄化,医疗资源分配不均,医生超负荷工作和成长空间受限等问题,提供 AI 社区的缓解方案。

OpenCompass 开源项目链接:

https://github.com/open-compass/opencompass

论文题目:

CMB: A Comprehensive Medical Benchmark in Chinese

论文链接:

https://arxiv.org/abs/2308.08833

代码链接:

https://github.com/FreedomIntelligence/CMB

官网链接:

https://cmedbenchmark.llmzoo.com/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenMMLab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
Zabbix 3.0 从入门到精通(zabbix使用详解)
惨绿少年
2017/12/27
5.5K0
Zabbix 3.0 从入门到精通(zabbix使用详解)
alma8飞速搭建zabbix6、微信报警、windows、linux、交换机监控
一、环境 zabbix所在服务器系统为alma8,zabbix6要求的mariadb版本为10.5-10.6,同时zabbix提供了zabbix-selinux-policy来配置selinux,所以安装中也不再要求关闭selinux。
王忘杰
2022/09/22
1.2K0
alma8飞速搭建zabbix6、微信报警、windows、linux、交换机监控
如何使用Zabbix Agent2监控MongoDB节点和集群
Zabbix Agent 2可以让我们通过最少的配置来监控一整套新系统。不需要再编写自定义监控脚本、部署额外的包或配置ODBC了。Zabbix Agent 2的一个很好的用例是监控最流行的NoSQL数据库后端之一的MongoDB。本文分享该用例的详细描述和操作指南。
Zabbix
2022/04/07
1.8K0
如何使用Zabbix Agent2监控MongoDB节点和集群
zabbix入门学习
zabbix是一个开源的企业级性能监控解决方案,可以实时监控服务器/网络设备等硬件资源与其相关的各项指标是否是正常的,而且能够更加方便的、集中的监控他们;同时还提供了对被监控主机进行检查、信息收集等操作,保证服务器系统的安全运营,当被监控主机出现异常时,能够及时报警通知管理员;
全栈工程师修炼指南
2020/10/13
1.1K0
zabbix入门学习
zabbix是一个开源的企业级性能监控解决方案,可以实时监控服务器/网络设备等硬件资源与其相关的各项指标是否是正常的,而且能够更加方便的、集中的监控他们;同时还提供了对被监控主机进行检查、信息收集等操作,保证服务器系统的安全运营,当被监控主机出现异常时,能够及时报警通知管理员;
全栈工程师修炼指南
2022/09/28
7480
zabbix入门学习
Zabbix监控详解
Zabbix是什么 Zabbix 是由Alexei Vladishev创建,目前由Zabbix SIA在持续开发和支持。 Zabbix 是一个企业级的分布式开源监控方案。 Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。这样可以快速反馈服务器的问题。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。这些功能使得Zabbix成为容量规划的理想方案。 Zabbix支持主动轮询和被动捕获。Zabbix所有
用户1173509
2018/03/28
5.1K0
Zabbix监控详解
Zabbix 监控配置及实战
该文章是一篇关于Zabbix监控系统的技术博客,主要介绍了Zabbix监控系统的原理、架构、安装、配置和使用。文章还通过一个具体的实例,详细阐述了如何通过Zabbix监控系统来实现对网络设备、服务器、应用程序等设备的监控。此外,还介绍了如何设置报警、创建监控项、配置主机和创建模板等功能。对于想要使用Zabbix监控系统的企业和团队来说,这篇文章提供了非常详细和实用的指导,有助于快速了解和掌握Zabbix监控系统的使用。
魏豪
2017/05/24
5.8K0
一文读懂zabbix5-自动发现自动注册客户端
zabbix基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案
QGS
2023/12/07
4274
利用Zabbix部署一个简易的MySQL监控系统
SCL(Software Collections)可以让你在同一个操作系统上安装和使用多个版本的软件,而不会影响整个系统的安装包。
GreatSQL社区
2023/02/24
5660
Z投稿|基于Centos7 Zabbix agent2监控MySQL数据库(基于linux)
用zabbix agent2自带模板监控MySQL的Threads,Queries,InnoDB buffer pool,Operations, Connections 简单易懂,不需要自己写监控脚本。当数据库性能超过阈值时,生成告警通知管理员 ,DB可以快速排查故障问题以及规划容量 。
Zabbix
2021/06/22
1.3K0
Z投稿|基于Centos7 Zabbix agent2监控MySQL数据库(基于linux)
一文读懂zabbix5添加自定义key模板和邮件报警
zabbix_get -s 'IP' -p 10050 -k 'login.user'       IP为被监控端(客户端)地址
QGS
2023/12/25
3900
Zabbix分布式监控系统从理论到实践
Zabbix介绍 Zabbix是一个企业级的分布式开源监控方案。Zabbix是一款能够监控各种网络参数以及服务器健康性和完整性的软件。Zabbix使用灵活的通知机制,允许用户为几乎任何实践配置基于邮件的告警。这烟花可以快速反馈服务器的问题,基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。 Zabbix是一个高度集成的网络监控解决方案,一个简单的安装包中提供多样性的功能。
宝耶需努力
2022/12/13
4450
Zabbix分布式监控系统从理论到实践
从源码编译安装ZABBIX
首先,需要前往Download Zabbix sources 下载所需的源码包,本文中将使用6.0LTS版本,因为6.2并没有附带LTS长期支持的标识,而6.4仍处于开发中的状态。
SakuraRain
2023/02/08
1.5K0
如何使用Zabbix官方模板轻松实现Docker容器监控?
本文将介绍通过Zabbix监控Docker容器。使用官方模板 Docker by Zabbix agent2 template 很容易实现Docker容器监控。模板下载链接和配置步骤可以在 Zabbix 集成页面上找到。
Zabbix
2022/06/14
3.1K0
如何使用Zabbix官方模板轻松实现Docker容器监控?
开源监控系统Zabbix简介
每个模块工作职责: 1、Zabbix Server:Zabbix Server为核心组件,用来获取agent存活状况及监控数据。所有的配置、统计、操作数据均通过Server进行存取到database; 2、Database Storage:用户存储所有配置信息,以及存储由Zabbix Server收集到的数据; 3、Web Interface:Zabbix的GUI接口,通常与Server运行在同一台主机上; 注意:如果采用SQLite作为数据库,web接口和Zabbix Server必须运行在同一台主机上 4、Zabbix Proxy:常用于分布监控环境中,代理Server收集部分被监控的监控数据并统一发往Server端;(通常大于500台主机需要使用) 5、Zabbix Agent:部署在被监控主机上,负责收集本地数据发往Server端或Proxy端; 二、具体工作原理:
用户5521279
2019/06/03
1.5K0
zabbix环境搭建部署(一)
zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。 zabbix能监视各种网络参数,保证服务器系统的安全运行;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。 zabbix由2部分构成,zabbix server与可选组件zabbix agent。 zabbix server可以通过SNMP,zabbix agent,ping,端口监视等方法提供对远程服务器/网络状态的监视,数据收集等功能,它可以运行在Linux,Solaris,HP-UX,AIX,Free BSD,Open BSD,OS X等平台上。
星哥玩云
2022/06/09
8980
zabbix环境搭建部署(一)
Zabbix 企业级分布式监控
在 部 署 Zabbix Server 之 前 , 首 先 要 配 置 LNMP 环 境 , LNMP 是 Linux+Nginx+MySQL+PHP 的简写,是 Linux 系统下常用的 php 脚本语言运行环境。
不凡
2021/08/04
7010
Zabbix 企业级分布式监控
构建企业级监控平台系列(七):Zabbix 基础配置介绍
可用性和性能检查支持SNMP(trapping或polling),IPMI,JMX,VMware的监控,自定义检测,按照自定义时间间隔收集所需数据,通过server/proxy和agent来执行监控。
民工哥
2023/10/10
2K0
构建企业级监控平台系列(七):Zabbix 基础配置介绍
centos7飞速搭建zabbix5.0并添加windows、linux监控
zabbix所在服务器系统为centos7,监控的服务器为windows2016和centos7。
王忘杰
2022/09/22
7060
centos7飞速搭建zabbix5.0并添加windows、linux监控
在LAMP架构中部署Zabbix监控系统及邮件报警机制
[root@localhost ~]# yum install httpd mariadb mariadb-server php php-mysql php-gd libjpeg* php-ldap php-odbc php-pear php-xml php-xmlrpc php-mhash -y
星哥玩云
2022/07/24
5070
在LAMP架构中部署Zabbix监控系统及邮件报警机制
推荐阅读
相关推荐
Zabbix 3.0 从入门到精通(zabbix使用详解)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验