首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

每天一个ml模型——降维

该系列的宗旨为:少公式,简洁化,掌握核心思想,面向对机器学习感兴趣的朋友。

ps:主要源自李航《统计学习方法》以及周志华《机器学习》,水平所限,望大牛们批评指正。

背景:在高维情形下出现数据样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难”

途径:缓解维数灾难的一个重要途径是降维,即通过某种数学变换将原始高维属性空间转变成一个低维“子空间”

可以进行降维的原因:在很多时候,人们观测或收集到的数据样本虽然是高维的,但与学习任务密切相关的也许仅仅是某个低维分布,即高维空间中的一个低维“嵌入”(embedding)

主成分分析(Principal Component Analysis,PCA)

对于正交属性空间中的样本点,找到一个超平面(直线的高维推广)对所有样本进行恰当的表达。

超平面需要具有的性质:

1)最近重构性:样本点到这个超平面的距离都足够近

2)最大可分性:样本点在这个超平面上的投影能尽可能分开

故需要使得投影后样本点的方差最大化

输入:样本集D=;

低维空间维数d'

过程

1)对所有样本进行中心化:

2)计算样本的协方差矩阵

3)对协方差矩阵做特征值分解

4)取最大的d'个特征值所对应的特征向量w1,w2,...wd'

输出:投影矩阵W*=(w1,w2,...wd').

呀,好久没写了,前段时间小吴出去玩了一下,调整状态,迎接新的生活。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180721G0XUZE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券