该系列的宗旨为:少公式,简洁化,掌握核心思想,面向对机器学习感兴趣的朋友。
ps:主要源自李航《统计学习方法》以及周志华《机器学习》,水平所限,望大牛们批评指正。
背景:在高维情形下出现数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难”
途径:缓解维数灾难的一个重要途径是降维,即通过某种数学变换将原始高维属性空间转变成一个低维“子空间”
可以进行降维的原因:在很多时候,人们观测或收集到的数据样本虽然是高维的,但与学习任务密切相关的也许仅仅是某个低维分布,即高维空间中的一个低维“嵌入”(embedding)
主成分分析(Principal Component Analysis,PCA)
对于正交属性空间中的样本点,找到一个超平面(直线的高维推广)对所有样本进行恰当的表达。
超平面需要具有的性质:
1)最近重构性:样本点到这个超平面的距离都足够近
2)最大可分性:样本点在这个超平面上的投影能尽可能分开
故需要使得投影后样本点的方差最大化。
输入:样本集D=;
低维空间维数d'
过程:
1)对所有样本进行中心化:
2)计算样本的协方差矩阵
3)对协方差矩阵做特征值分解
4)取最大的d'个特征值所对应的特征向量w1,w2,...wd'
输出:投影矩阵W*=(w1,w2,...wd').
呀,好久没写了,前段时间小吴出去玩了一下,调整状态,迎接新的生活。
领取专属 10元无门槛券
私享最新 技术干货