线性判别分析(Linear Discriminant Analysis,LDA)是一种监督学习算法,常常用于数据降维。 LDA是为分类问题服务的,因此需要先找到一个投影方向
,使得投影后的样本尽可能按照原始类别分开。 简单的二分类问题,存在两个类别的样本,
。两个类别的均值分别为
我们则希望投影之后,尽可能把这两个数据集分开,即在投影上距离越大越好。距离表示:
其中
表示两类的中心在
方向上的投影向量,
。需要优化以下问题
我们需要找到尽可能大的类间距离投影方式,但是又同时使得类内方差最小。
因此有
其中
为单位向量,
分别表示两类投影后的方差
然后定义类间散度矩阵
,类内散度矩阵
化简得
一般二分类,
和
是两个数,令
从最大化类间距离和最小化类内距离出发,拥有较好对噪声的鲁棒性,模型也很简单。
相关阅读:
本文分享自 Python与MySQL 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!