AI涌现编译
作者:Hidetaka Taniguchi, Hiroshi Sato, Tomohiro Shirakawa
译者:李泽荃
【导读】人类在学习的过程中可以从少量样本中归纳出一个新概念。相比之下,传统的机器学习方法需要大量的数据来解决相同类型的问题。究其原因,人类拥有促进快速学习的独特的认知偏见。越来越多的研究人员已经注意到此问题,并且展开了大量的研究,就像本文提到来自于日本防卫大学的研究团队。他们开发了一种方法,将认知偏见加入模型,有效地减少了人类和机器之间的差距。
【关键词】机器学习;认知偏见;少样本数据
2018年5月9日,《Nature》在线刊登了来自于日本防卫大学Hidetaka Taniguchi等人的一项研究成果,他们将人类独有的认知偏见引入到机器的推理模型中,发现在垃圾邮件分类问题上,明显优于目前最流行的方法,如朴素贝叶斯、支持向量机、神经网络、Logistic回归和随机森林等。
机器学习已被广泛关注,并为我们日常生活提供了贡献,如自动翻译、图像识别和垃圾邮件分类等。机器学习的一个显著的方法是监督学习,它从一组标记的训练数据中归纳出概念。例如,垃圾邮件分类器使用训练数据,其形式是被标记为垃圾邮件和非垃圾邮件两类,以对新的未分类电子邮件进行分类。
通常,这些分类模型需要一个巨大的、良好平衡的样本数据集以保证预测精度。然而,在实际中,样本比例往往是偏颇的。例如,在2012的垃圾邮件中有超过90%的邮件被识别,而常见的训练数据集(如Spasasasin和LIN SPAM)仅占垃圾邮件标签数据20-30%。也就是说,真实数据更可能是不平衡的。
相反,人类可以从一个小样本和有偏差样本中推理一个新概念出来。例如,通过在动物园里第一次看到河马,一个婴儿可以获得很多关于新物体的信息:它看起来像什么,它有多大,以及区别河马和其他动物的特征。而在机器学习中,可能需要数百或数千个训练样本来处理同样的问题。此外,人类不需要大量的负样本来学习区别正样本。
近年来的研究发现,主要原因是人类的认知偏见能有效地支持概念的获取。一般概括为两种认知偏见,对称偏见和互斥偏见,可以有效地应用于机器学习任务中。
Hidetaka Taniguchi等人同时考虑了对称偏见和互斥偏见,提出了松散对称朴素贝叶斯模型(LSNB)和增强松散对称朴素贝叶斯模型(eLSNB),通过在数据集上进行测试,他们的模型与传统的机器学习模型相比,在基于小样本和有偏差样本的学习中获得了优越的性能。
本文为AI涌现原创,转载请联系本公众号获得授权。
领取专属 10元无门槛券
私享最新 技术干货