AI君分分钟带你读懂AI技术
线性判别分析
Linear Discriminant Analysis
概述
这篇文章里,AI君想要跟大家讲讲线性判别分析,英文全称Linear Discriminant Analysis,简称LDA。
线性判别分析(LDA)属于机器学习中的监督式学习方法,广义的LDA是指所有的判别函数均为线性函数。其中最经典的则是“Fisher判别分析”。
这一方法应用广泛,尝尝被用来做特征提取、数据降维和任务分类,在人脸识别、人脸检测等领域发挥了重要的作用。
线性判别分析的核心思想是寻找到最佳的投影方法,将高维的样本投影到特征空间(feature space),使得不同类别间的数据“距离”最大,而同一类别内的数据“距离”最小。
示例
下面举例说明LDA算法的实现过程。如下图所示是一个二元分类(binary classification)的例子,我们的任务就是把所有的二维数据点投影到一条直线上,在全部可能的投影直线(projection line)中,找到把数据分类做的最好那一个。
为了达成这个目标,我们有两种思路:是寻找可以让不同类别的平均点“距离最远”的投影方式;是寻找可以让同类别的数据“挨的最近”的投影方式。
第一种思路下的投影结果见上图中的左半部分所示。很明显,这种方法表现并不够好,不同类别的数据在投影直线上有很多重叠。
第二种思路下的投影结果见上图中右半部分所示,可以看到不同类别的数据重叠最少,因此更优。
在数学优化中,上面两种思路,分别对应了两种优化方法:最大化类间方差(maximize between class covariance);最小化类内方差(minimize within class covariance)。
线性判别分析算法综合了上述两种思想,使投影后的样本在新的子空间有最大的“类间距离”和最小的“类内距离”,从而能更好地完成分类问题。
总结
我们刚以一个二元分类二维数据的例子解释了线性判别分析算法的基本思想,这种方法在多元分类(multiclass classification)和高维数据中仍然适用。
通过线性判别分析,高维的原始样本数据可以被投影到最适合分类的特征空间。线性判别分析常被用来在数据挖掘过程中进行分类信息抽取和特征空间(feature space)维数压缩等。
后话
《技术词条》这一栏目主要针对人工智能领域内的专业技术或算法,AI君会基于领域内的经典论文和教材,尽量用通俗易懂的语言为你解释清楚,不废话不凑字,直达最核心的内容。
留言你的想法,告诉AI君你最想了解的人工智能算法,我就会优先发布你想看的文章哦。
祝好!
AI君
2017年12月31日 于欧洲
图片来源
Bishop, C. M. (2006). Pattern recognition. Machine Learning, 128. Figure 4.6
http://5b0988e595225.cdn.sohucs.com/images/20171218/7f674ca0edbb467a8548227b6cc1f80e.jpeg
参考文献
Fisher, R. A. (1938). The statistical utilization of multiple measurements. Annals of Human Genetics, 8(4), 376-386.
Bishop, C. M. (2006). Pattern recognition. Machine Learning, 128.
感谢阅读,记得打CALL
领取专属 10元无门槛券
私享最新 技术干货