1.简介:K最近邻算法是机器学习分类算法中最简单的方法之一。所谓K最近邻,就是K个最近邻居的意思,说的是每个样本都可以用它最接近的K个邻居来代表。
2.距离:空间有任意两个点P(x1, x2,…,xn),Q(y1,y2,…,yn),两点之间的距离公式有以下四种:
(1)闵可夫斯基距离:
(2)欧氏距离:当p=2时,
(3)曼哈顿距离:当p=1时,
(4)切比雪夫距离:当p趋向于无穷时,
3.算法步骤:
(1)选择k值,也即新的数据点旁边的K个点,K一般默认为5
(2)根据欧式距离(或其他距离),取距离新的数据点最近的K个邻居
(3)在这K个邻居点中,计算出这些点在每个分类中的数目
(4)把新的数据归结到数目最大的那个分类中
4.例子:
(1)选取K=5
(2)根据距离公式,距离新的数据点的最近的5个点为以下5个点
(3)计算这5个点在每个分类中的数目,其中分类1的数目=3,分类2的数目=2
(4)将这个新的数据点归于分类1
5.实例:自变量为年龄与薪水,因变量是购买意愿,属于分类变量,其中1代表愿意购买,代表不愿意购买。
(1)读取数据及其描述性分析
(2)分离出训练集和测试集
(3)数据的归一化
(4)KNN算法的应用
(5)预测
(6)模型评估
(7)训练集的可视化
(8)测试集的可视化
领取专属 10元无门槛券
私享最新 技术干货