发表在《JMIR医学信息学》的研究论文显示,利用自然语言处理和机器学习技术从非结构化文本中提取有效信息,准确率(accuracy)可达92.7%,精确率(precision)达93.6%,识别效果大大优于传统的大数据分析算法。该研究由威斯康辛大学麦迪逊分校(University of Wisconsin Madison)马什菲德诊所(Marshfield clinic)和爱尔兰都柏林电子工程师学会(Institute of Electrical and Electronic Engineers)的研究人员完成。
本次研究是从海量非结构化数据中提取分析药物不良反应、计量错误影响、相互作用等药物不良事件,以为临床决策提供信息支持,提高医疗质量,同时拓宽临床科研课题设计思路,加速医学的临床转化,使患者尽快受益于更新、更安全的药物和治疗手段。
人工智能可快速有效进行大规模文本识别
研究小组表示,2007-2016年间共发表了超过342,000篇药物分析、评估相关的文章,假设以PDF的标准长度计算,这些文章等同于超过1TB的非结构化数据。“研究人员、科学家、医生不可能短时间完成这么大量的医学文献阅读和处理,但保持知识的及时更新对他们非常重要,因此,开发基于大数据的智能解决方案,以有效地处理这些数据愈发重要。”
该研究选取了 PubMed Central 的145万份期刊文章,和 WebMD 等医疗网站上的近42万篇博客文章,目的是验证从全文本中提取既定的、高质量医学信息的可行性,以及应用领先NLP和机器学习算法进行大规模语义识别的效果,以应对海量生物医学文本分析和识别的挑战,高效、准确获取对临床治疗有益的信息。
研究小组利用人工智能算法提取与ADE相关的句子,并进行标准化处理,通过分析句子中的词及词义,来确定是否发生了ADEs。训练数据:包括145万份期刊摘要和全文文章中提取的9720多万个句子,42万篇博客文章中提取的252万个句子。训练数据由三个医学专家进行人工标准,并定义为“ADEs”和“No-ADEs”两个类别,被归类为“ADEs”的句子,表示该句子的内容涉及药物不良事件。
最终识别结果显示,人工智能算法从期刊文章中共提取了12,265个有关ADEs的句子,从健康网站博客文章中提取了181个有关ADEs的句子,发现了28种药物不良事件,并对结果进行了可视化输出,清晰展示常见药物与其已知副作用之间的明确关联。
例如,该研究结论显示:华法林常见的严重副作用是出血,可能诱因是饮食调整、药物相互作用或假性生理变化。该算法还发现了一些较为罕见的情况,例如在服用二甲双胍时可能发生乳酸性酸中毒。
自然语言处理方法也有它的局限性。研究小组说,“我们的系统发现恶心和呕吐与地塞米松有关,虽然地塞米松确实能引起这些反应,但通常是化疗引起的恶心和呕吐居多。如果没有上下文线索,我们无法确定地塞米松在这种情况下是一种疗法还是一个致病因素。成功地分类这些少见案例可能需要额外的研究。”
自然语言处理未来更关注实时的临床数据
本次研究是利用人工智能发现药物不良事件,这些发现对患者安全研究具有积极的意义。虽然研究有其局限性,但这种从非结构化数据中提取有效信息的方法,可以扩展应用到很多其他领域,
例如,利用大数据分析进行新药或新疗法的开发,特别是综合患者的基本信息、家族史、疾病史等分析疗法的安全性和有效性等。机器学习和自然语言处理工具可以加快召回或重新定位新药物、新疗法,以确保患者的安全并针对性改进以提供更好的疗效,这对改善医疗质量和在临床决策过程提供证据支持意义重大。
此外,此次研究语料采用了已发表的期刊和网站博客文章,这些文章的结果可能存在偏向性,尤其是期刊论文更关注一些罕见案例。未来,人工智能大数据分析应当更关注那些临床试验以外的、临床实际发生的异常情况,需要更多地从电子病历实时数据中获取真实数据,以提升大数据的可信度和决策支持的精度。
参考文献:
P Tafti A, Badger J, LaRose E, Shirzadi E, Mahnke A, Mayer J, Ye Z, Page D, Peissig P
Adverse Drug Event Discovery Using Biomedical Literature: A Big Data Neural Network Adventure
JMIR Med Inform 2017;5(4):e51
URL: http://medinform.jmir.org/2017/4/e51
DOI: 10.2196/medinform.9170
PMCID: 5741828
领取专属 10元无门槛券
私享最新 技术干货