编译 | 明知不问
机器学习方法在人们的语言中发现了一种隐藏的线索,这种线索可以预测精神疾病。Emory Health Sciences研究人员开发了一种新的机器学习方法,更精确地量化人们会话语言的语义丰富性,这是一种已知的精神病指标。
研究结果表明,对两种语言变量的自动分析——更频繁地使用与声音相关的单词和低语义密度或模糊性的语言,可以预测一个有风险的人后来是否会发展为精神病,准确率达到93%。
语言异常与精神疾病
即使是训练有素的临床医生,也不容易注意到患有精神病风险的人使用与平均相关的更多单词,尽管异常的听觉感知是临床前的症状。
该论文的第一作者Neguine Rezaii表示,“试图在与人交谈中听到这些微妙之处,就像试图用眼睛看微小细菌一样,我们开发的自动化技术是检测这些隐藏模式的一种非常敏感的工具,它就像一个用于治疗精神病警示标志的显微镜。”
埃默里心理学教授资深作者Phillip Wolff说,“以前研究人员已经了解到潜在精神病的微妙特征存在于人们的语言中,但我们已经使用机器学习来实际发现有关这些特征的隐藏细节。”
研究结果是新颖的,并且增加了证据显示使用机器学习识别与精神疾病相关的语言异常的可能性的证据。
使用结构化访谈和认知测试,训练有素的临床医生可以预测精神病,准确率为80%。机器学习研究是许多正在进行的努力之一,旨在简化诊断方法,识别新变量并提高预测的准确性。
Walker说:“如果我们能够识别出早期存在风险的人并使用预防性干预措施,像认知行为疗法这样的治疗可以延缓发病,甚至可能减少精神疾病的发生。”
训练模型
研究人员首先使用机器学习来建立会话语言的规范。他们为计算机软件程序提供了Reddit的30000名用户的在线对话,名为Word2Vec的软件程序使用算法将单个单词更改为向量,根据其含义为每个单词分配一个位置。具有相似含义的那些具有比具有不同含义的那些更接近的位置。
Wolff实验室还开发了一个计算机程序,用于执行研究人员称之为“向量分解”的内容,即分析单词使用的语义密度。之前的研究测量了句子之间的语义一致性,向量分解允许研究人员量化每个句子中包含的信息量。
在生成“正常”数据的基线后,研究人员将同样的技术应用于40名参与者的诊断访谈,这些访谈由训练有素的临床医生进行,是NAPLS研究的一部分,主要针对临床精神病高风险的年轻人。
然后将参与者样本的自动分析与正常基线样本,和关于参与者是否转变为精神疾病的纵向数据进行比较。
结果显示,与声音相关的单词的使用率高于正常使用,加上使用具有相似含义的单词的较高比率,意味着精神疾病可能出现。
这项研究的优势在于,它只使用了两个简单的变量,在保留数据集中复制结果,以及预测的准确度高达90%以上。
Rezaii说,“在临床领域,我们往往缺乏精确性,我们需要更多量化的,客观的方法来衡量微妙的变量,例如那些隐藏在语言使用中的变量。”
Rezaii和Wolff现在正在收集更大的数据集,并测试方法在各种神经精神疾病中的应用。
领取专属 10元无门槛券
私享最新 技术干货