Fig. 1: Schematic illustration of the development and evaluation of our diagnostic generalist.
所提出的LLM和数据集特征概述
LLM在常见疾病跨专科的表现
Fig. 2: Performance of the LLMs for diagnosis of common diseases across various specialties.
LLM在罕见疾病方面的表现
Fig. 3: Performance of the LLMs for diagnosis of rare diseases across various specialties.
LLM与医生的表现比较
Fig. 4: Performance evaluation between the AI system and human physicians for diagnosis.
LLM辅助诊断在工作流程中的表现
Fig. 5: Examples of AI-assisted diagnosis evaluation.
人工智能诊断能力的人类评估框架
训练组件对大型语言模型性能的影响
Fig. 6: Performance analysis of LLM training components for various diagnostic tasks.
数据集
预训练数据集用于开发MedFound
微调和对齐数据集以开发MedFound-DX-PA
LLM诊断性能评估数据集
模型概述
为开发MedFound进行预训练
无
微调诊断推理
无
开发MedFound-DX-PA的PA
基准模型
临床研究
研究设计和参与者
AI与医生诊断准确性比较
在工作流程中使用LLM进行辅助诊断的准确性
LLM诊断能力的人类评估框架
实施
统计分析
报告摘要