看一篇论文的实例:2016年发表在Crit Care Med的一项观察性队列研究,对于住院患者运用机器学习(Machine Learning)的方法早期预测疾病恶化。
研究者对五家医院2008年至2013年的住院信息进行分析,运用患者人口学特征、实验室检查和生命体征等临床常规指标,对疾病恶化(心脏骤停、转入ICU或死亡)做预测。(SCI IF=7.1分)
本研究的亮点是:下图对比了多种预测模型构建方法后,得出机器学习的方法对本数据的预测能力最高,AUC=0.801。值得注意的是,目前临床上常用的MEWS评分的预测能力是最低的,表明机器学习做预测要比传统的方法靠谱很多。
机器学习得出各个因素对预测的重要性排序,下图可以看出排在第一位的是呼吸频率,第二位的是心率。这个图如何做呢?下面软件操作部分会分享。
机器学习、人工智能(AI)和神经网络等名称,相信大家在不同场合都听说过。机器学习的方法学瓶颈,通常是阻碍临床医生做科研的障碍。2018年易侕软件增加了机器学习的方法,使之前需要花费很多人力物力才能做到的分析,只在一个点击间完成。具体如何操作呢?
第一步是收集数据,最常见的数据格式是一个患者一行,第一行是变量名。这相当于把医生的临床经验记录下来。
第二步:运用易侕软件数据分析-诊断试验与预测方程-机器学习与预测分析模块。
直接得出一系列的图表结果(包括图片和PDF矢量图格式)。后台是R语言,具体的R程序可以在结果输出界面查看并调用R编改程序,爱好学习R的朋友可以研究。
下图是每个指标对预测的重要程度排序,建议这个图可以放在论文中,例如本文开头的SCI论文,好处是一目了然知道哪些变量重要。
得出预测模型评价的指标,包括准确度、Kappa值、敏感度和特异度等。其中重要的是ROC曲线下面积(AUC),这里AUC=0.8052,这个值越大越好,通常需要写在SCI论文摘要的结果中。
到此为止,预测模型就做好了。
如何更加优化?
可以把研究对象分成建模和验证两组,好处是对模型进行了验证,提高了证据级别。具体软件操作:设置训练集(Training sample)比例,如果填100表示所有样本用于建模;如果填75表示建模用75%,验证用25%的样本。做验证是锦上添花的操作,如果研究样本量不大,也可以只做建模不做验证。
机器学习预测分析(XGBoost)适用范围:
1.自变量(X)可以是二分类、多分类、连续变量
2.结局指标(Y)可以是二分类、连续变量
3.如果结果变量与X变量的关系不是线性的,本模块预测效果要好于线性模型。
2018年易侕软件会继续完善机器学习模块
敬请关注!
相关内容
领取专属 10元无门槛券
私享最新 技术干货