令人惊喜的是,其中不乏将医学与生物信息学结合的研究。接下来,我将挑选几篇具有代表性的文章,分享给大家。
另外:我们是否也可以尝试《ChatGPT+医疗|生信》来发表论文呢?这种方法可能会带来新的视角和深入的讨论。
文献地址:https://www.nature.com/articles/d41586-024-01243-w
在永无止境地探索以前未知的CRISPR基因编辑系统的过程中,研究人员已经搜索了从温泉和泥炭沼泽到便便甚至酸奶的所有微生物。现在,由于生成式人工智能(AI)的进步,他们可能只需按一下按钮即可设计这些系统。
ChatGPT正改变医学和科学领域,作者评估了它在解读神经心理筛查数据的准确性。他们向ChatGPT提供了一位轻度阿尔茨海默病患者的神经心理数据,并请它与两位神经心理学家一起解读这些数据。ChatGPT准确地解读了各项测试的分数。但它未使用标准化分数,也未指明可能受损最严重的认知领域。相比之下,神经心理学家使用标准化分数确定患者主要受到记忆力下降的影响。
研究评估了 ChatGPT-3.5、ChatGPT-4.0 和 Google Bard 这三家LLMs公司在对常见近视相关查询提供准确响应方面的表现。
https://pubmed.ncbi.nlm.nih.gov/37625267/
ChatGPT-4.0 表现出卓越的准确性,80.6% 的回复被评为“良好”,而 ChatGPT-3.5 和 Google Bard 的这一比例分别为 61.3% 和 54.8%(Pearson 的卡方检验,均为 0.009 ≤)。所有三个LLM聊天机器人都显示出较高的平均综合性得分(Google Bard:4.35;ChatGPT-4.0:4.23;ChatGPT-3.5:4.11,满分5分)。
所有LLM聊天机器人也表现出强大的自我纠正能力:66.7%(三分之二)的 ChatGPT-4.0、40%(五分之二)的 ChatGPT-3.5 和 60%(五分之三)的 Google Bard 的回答在自我纠正后有所改善。在“治疗和预防”领域,ChatGPT-4.0 的表现仍然更胜一筹,获得了 70% 的“良好”评级,而 ChatGPT-3.5 为 40%,Google Bard 为 45%(Pearson 的卡方检验,均为 p ≤ 0.001)。
人工智能 (AI) 程序能够回答复杂的查询,包括医学专业考试问题。本研究的目的是比较骨科住院医师(ortho resident)与 Chat Generative Pretrained Transformer (ChatGPT)-3.5 和 GPT-4 在骨科评估考试中的表现。
DOI: 10.5435/JAAOS-D-23-00396
总体而言,GPT-3.5、GPT-4和骨科住院医师的测试成功率分别为29.4%、47.2%和74.2%。三组之间的测试成绩存在显著差异,骨科住院医师的得分高于ChatGPT-3.5和GPT-4(P<0.001和P<0.001)。GPT-4的得分高于ChatGPT-3.5(P=0.002)。
通过将问题分为不含图片的问题和含图片的问题进行了亚组分析。在仅文本问题与含图片问题的比较中,ChatGPT-3.5的正确率更高(分别为37.8%和22.4%,OR=2.1,P=0.033),ChatGPT-4也表现更好(61.0%对35.7%,OR=2.8,P<0.001)。住院医师在仅文本问题和含图片问题的正确率分别为72.6%和75.5%,差异不显著(P=0.302)。
评估了大型语言模型ChatGPT 4.0在回答美国医学执照考试(USMLE)第二阶段考试问题以及基于公开病例报告的临床小结生成鉴别诊断的能力。
https://www.nature.com/articles/s41598-024-58760-x
结论:在 ChatGPT 输入的 109 个问题中:
ChatGPT 3.5 和 ChatGPT 4.0 分别正确回答了 52 个 (47.7%) 和 95 个 (87.2%) 问题 (p 0.35)。然后,我们选择了 ChatGPT 4.0 进入数据收集和分析的下一部分(即病例报告测试),因为它在所有类别的应试准确率方面领先 40%
总结
通过上述例子,我们可以看出通过ChatGPT相关主题发表论文的可行性。作为当前热门话题,ChatGPT相关的文章自然具有吸引力。其次,医学、生信科学与ChatGPT的结合是一个前景广阔的领域。虽然现阶段AI在医疗领域尚有局限,但随着人工智能技术的不断进步,但其结合应用正逐步成为未来发展的趋势。