Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >机器学习算法:K-NN(K近邻)

机器学习算法:K-NN(K近邻)

原创
作者头像
数据科学工厂
发布于 2023-01-19 11:07:17
发布于 2023-01-19 11:07:17
4.8K018
代码可运行
举报
运行总次数:18
代码可运行

导读

本文将介绍机器学习中的 K-最近邻算法K-Nearest Neighbors 是一种机器学习技术和算法,可用于回归和分类任务。

1. 简介

K-Nearest Neighbors
K-Nearest Neighbors

k-最近邻算法,也称为 kNNk-NN,是一种非参数、有监督的学习分类器,它使用邻近度对单个数据点的分组进行分类或预测。虽然它可以用于回归问题,但它通常用作分类算法,假设可以在彼此附近找到相似点。

对于分类问题,根据比重分配类别标签,即使用在给定数据点周围最多表示的标签。虽然这在技术上被认为是plurality voting(多数表决),但majority vote一词在书面语中更常用。这些术语之间的区别在于,majority voting在技术上需要超过 50% ,这主要适用于只有两个类别的情况。当您有多个类别时 - 例如四个类别,您不一定需要 50% 才能对一个类别做出结论;您可以分配一个占比超过 25% 的类别标签。Wisconsin-Madison大学用了一个例子很好地总结了这一点。

`kNN` diagram
`kNN` diagram

回归问题使用与分类问题类似的概念,但在这种情况下,取 k 个最近邻的平均值来对分类进行预测。主要区别是分类用于离散值,而回归用于连续值。但是,在进行分类之前,必须定义距离。欧几里得距离是最常用的,我们将在下面深入研究。

值得注意的是,kNN 算法也是lazy learning模型家族的一部分,这意味着所有计算都发生在进行分类或预测时。由于它严重依赖内存来存储其所有训练数据,因此也称为基于实例或基于内存的学习方法。

Evelyn Fix 和 Joseph Hodges 在 1951 年的这篇论文中提出了围绕 kNN 模型的最初想法,而 Thomas Cover 在他的研究中扩展了他们的概念,“Nearest Neighbor Pattern Classification”。虽然它不像以前那么受欢迎,但由于其简单性和准确性,它仍然是人们在数据科学中学习的首批算法之一。然而,随着数据集的增长,kNN 变得越来越低效,影响了模型的整体性能。它通常用于简单的推荐系统、模式识别、数据挖掘、金融市场预测、入侵检测等。

2. 距离度量

kNN距离指标计算

回顾一下,k-最近邻算法的目标是识别给定查询点的最近邻,以便我们可以为该点分配一个类标签。为了做到这一点,kNN 有几个要求:

  • 确定距离度量

为了确定哪些数据点最接近给定查询点,需要计算查询点与其他数据点之间的距离。这些距离度量有助于形成决策边界,将查询点划分为不同的区域。您通常会看到使用 Voronoi 图可视化的决策边界。

虽然您可以选择多种距离度量,但本文仅涵盖以下内容:

欧几里得距离(p=2):这是最常用的距离度量,仅限于实值( real-valued )向量。使用下面的公式,它测量查询点和被测量的另一个点之间的直线。

欧几里得距离公式
欧几里得距离公式

曼哈顿距离(p=1):这也是另一种流行的距离度量,它测量两点之间的绝对值。它也被称为出租车(taxicab)距离或城市街区(city block)距离,因为它通常用网格可视化,说明人们如何通过城市街道从一个地址导航到另一个地址。

曼哈顿距离公式
曼哈顿距离公式

闵可夫斯基(Minkowski)距离:该距离度量是欧几里得和曼哈顿距离度量的广义形式。下面公式中的参数 p 允许创建其他距离度量。当 p 等于 2 时,这个公式表示欧几里得距离,p 等于 1 表示曼哈顿距离 。

Minkowski距离公式
Minkowski距离公式

汉明(Hamming)距离:这种技术通常与布尔或字符串向量一起使用,识别向量不匹配的点。因此,它也被称为重叠度量。可以用以下公式表示:

Hamming距离公式
Hamming距离公式

例如,如果您有以下字符串,Hamming距离将为 2,因为只有两个值不同。

Example
Example

3. K

k-NN 算法中的 k 值定义了将检查多少个邻居以确定查询点的分类。例如,如果 k=1,实例将被分配到与其单个最近邻相同的类。定义 k 是一种平衡行为,因为不同的值可能会导致过拟合或欠拟合。较低的 k 值可能具有较高的方差,但较低的偏差,较大的 k 值可能导致较高的偏差和较低的方差。k 的选择将很大程度上取决于输入数据,因为有许多异常值或噪声的数据可能会在 k 值较高时表现更好。总之,建议 k 使用奇数以避免分类歧义,交叉验证策略可以帮助您为数据集选择最佳 k。

4. Operates

KNN 算法在执行时经历了三个主要阶段:

  1. 将 K 设置为选定的邻居数。
  2. 计算测试数据与数据集之间的距离。
  3. 对计算的距离进行排序。
  4. 获取前 K 个条目的标签。
  5. 返回有关测试示例的预测结果。

希望深入研究,可以通过使用Pythonscikit-learn 来了解有关 k-NN 算法的更多信息。以下代码是如何使用 kNN 模型创建和预测的示例:

代码语言:python
代码运行次数:18
运行
AI代码解释
复制
from sklearn.neighbors import KNeighborsClassifier

model_name = ‘K-Nearest Neighbor Classifier’

`kNN`Classifier = KNeighborsClassifier(n_neighbors = 5, metric = ‘minkowski’, p=2)

`kNN`_model = Pipeline(steps=[(‘preprocessor’, preprocessorForFeatures), (‘classifier’ , `kNN`Classifier)])

`kNN`_model.fit(X_train, y_train)

y_pred = `kNN`_model.predict(X_test)

5. 应用

k-NN 算法已在各种问题中得到应用,主要是在分类中。其中一些用例包括:

  • 数据预处理

数据集经常有缺失值,但 kNN 算法可以在缺失数据插补的过程中估计这些值。

  • 推荐问题

使用来自网站的clickstream(点击流)数据,kNN 算法已用于向用户提供有关其他内容的自动推荐。这项研究表明,用户被分配到特定组,并根据该组的用户行为,为他们提供推荐。然而,考虑到 kNN 的应用规模,这种方法对于较大的数据集可能不是最优的。

  • 金融

它还用于各种金融和经济用例。例如,一篇论文展示了如何在信用数据上使用 kNN 可以帮助银行评估向组织或个人提供贷款的风险。它用于确定贷款申请人的信用状况。

  • 生命健康

kNN 还应用于医疗保健行业,预测心脏病发作和前列腺癌的风险。该算法通过计算基因的表达来工作。

  • 模式识别

kNN 还有助于识别模式,例如文本和数字分类。这对于识别在表格或邮寄信封上的手写数字特别有帮助。

6. 优缺点

就像任何机器学习算法一样,k-NN 也有其优点和缺点。根据实际情况,它可能是也可能不是最优的选择。

6.1. 优势

  • 易于实现

鉴于算法的简单性和准确性,它是新数据科学家将学习的首批分类器之一。

  • 适应性强

随着新训练样本的添加,算法会根据任何新数据进行调整,因为所有训练数据都存储在内存中。

  • 超参数少:

kNN 只需要一个 k 值和一个距离度量,与其他机器学习算法相比,参数是很少的。

6.2. 不足

  • 数据规模

由于 kNN 是一种惰性算法,与其他分类器相比,它占用了更多的内存和数据存储。从时间和金钱的角度来看,这可能是昂贵的。更多的内存和存储将增加业务开支,而更多的数据可能需要更长的时间来计算。虽然已经创建了不同的数据结构(例如 Ball-Tree)来解决计算效率低下的问题,但根据业务问题,采用其他的分类器可能更好。

  • 维度

kNN 算法往往会成为维度灾难的受害者,这意味着它在高维数据输入时表现不佳。这有时也称为峰值现象,在算法达到最佳特征数量后,额外的特征会增加分类错误的数量,尤其是当样本尺寸更小。

  • 过拟合

由于“curse of dimensionality”(维度灾难),kNN 更容易出现过拟合。虽然利用特征选择和降维技术可以防止这种情况发生,但 k 的值也会影响模型的行为。较低的 k 值可能会过度拟合数据,而较高的 k 值往往会“平滑”预测值,因为它是对更大区域或邻域的值进行平均。但是,k 值太高,模型可能会欠拟合。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器学习算法-k近邻
k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。简单地说,k-近邻算法就是采用不同特征值之间的距离来进行分类,算法主要特点为:
皮大大
2021/02/08
8130
机器学习算法-k近邻
【机器学习】K近邻算法
K近邻算法(K-Nearest Neighbors, KNN)是一种简单但非常实用的监督学习算法,主要用于分类和回归问题。KNN 基于相似性度量(如欧几里得距离)来进行预测,核心思想是给定一个样本,找到与其最接近的 K 个邻居,根据这些邻居的类别或特征对该样本进行分类或预测。
摆烂小白敲代码
2024/11/24
2160
【机器学习】K近邻算法
【机器学习基础】k近邻算法
  本文就将介绍一个最基本的分类和回归算法:k近邻(k-nearest neighbor, KNN)算法。KNN是最简单也是最重要的机器学习算法之一,它的思想可以用一句话来概括:“相似的数据往往拥有相同的类别”,这也对应于中国的一句谚语:“物以类聚,人以群分”。具体来说,我们在生活中常常可以观察到,同一种类的数据之间特征更为相似,而不同种类的数据之间特征差别更大。例如,在常见的花中,十字花科的植物大多数有4片花瓣,而夹竹桃科的植物花瓣大多数是5的倍数。虽然存在例外,但如果我们按花瓣数量对植物做分类,那么花瓣数量相同或成倍数关系的植物,相对更可能属于同一种类。
Francek Chen
2025/01/22
2220
【机器学习基础】k近邻算法
机器学习 | KNN, K近邻算法
k近邻法 (k-nearest neighbor, k-NN) 是一种基本分类与回归方法。是数据挖掘技术中原理最简单的算法之一,核心功能是解决有监督的分类问题。KNN能够快速高效地解决建立在特殊数据集上的预测分类问题,但其不产生模型,因此算法准确 性并不具备强可推广性。
数据STUDIO
2021/06/24
1K0
《机器学习实战》学习笔记:K-近邻算法入门及实战|万字长文
作者:崔家华 东北大学|模式识别与智能系统研究生 量子位 已获授权编辑发布 在模式识别领域中,K-近邻算法(KNN算法)是一种用于分类和回归的非参数统计方法。 在这篇文章中,作者先详细介绍了K-近邻算法的基础知识,接着在Python 3中演示了约会网站配对实战和sklearn手写数字识别。形象生动,简明易懂。 在文章正式开始前,可能你需要这些信息—— Github代码获取: https://github.com/Jack-Cherish/Machine-Learning/ Python版本: Python3
量子位
2018/03/27
1.2K0
《机器学习实战》学习笔记:K-近邻算法入门及实战|万字长文
K近邻(K-Nearest Neighbors,简称KNN)算法
K近邻(K-Nearest Neighbors,简称KNN)算法是一种基本的机器学习算法,主要用于分类和回归问题。以下是对KNN算法的详细介绍:
jack.yang
2025/04/05
2680
零基础掌ML(2) — k-NN算法
k-NN 是一种监督学习算法,全称 K-Nearest Neighbor,中文称之为 K近邻算法。
WEBJ2EE
2023/10/30
3510
零基础掌ML(2) — k-NN算法
Python快速实战机器学习(9) K近邻
KNN(K近邻)算法是懒惰学习的一个典型示例。之所以称为“懒惰”并不是由于此类算法看起来很简单,而是在训练模型过程中这类算法并不去学习一个判别式函数(损失函数)而是要记住整个训练
HuangWeiAI
2019/12/25
4690
Python快速实战机器学习(9) K近邻
ARKit+Swift 版本的机器学习算法 k-NN
在模式识别领域中,最近邻居法(KNN算法,又译K-近邻算法)是一种用于分类和回归的非参数统计方法[1]。在这两种情况下,输入包含特征空间(Feature Space)中的k个最接近的训练样本。
iOSDevLog
2019/04/18
7840
ARKit+Swift 版本的机器学习算法 k-NN
机器学习中的关键距离度量及其应用
在当今的数据驱动世界中,机器学习算法扮演着至关重要的角色,它们在图像分类、面部识别、在线内容审核、零售目录优化和推荐系统等多个领域发挥着重要作用。这些算法的核心在于它们能够识别和利用数据之间的相似性。而实现这一点的关键,就在于选择合适的距离度量。
用户3578099
2024/07/15
2650
机器学习中的关键距离度量及其应用
k-近邻算法概述,k-means与k-NN的区别对比
k近邻(k-nearest neighbor, k-NN)算法由 Cover 和 Hart 于1968年提出,是一种简单的分类方法。通俗来说,就是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 k 个实例,这 k 个实例的多数属于某个类,就把该输入实例分类到这个类中(类似于投票时少数服从多数的思想)。接下来读者来看下引自维基百科上的一幅图:
zhangjiqun
2024/12/14
2390
k-近邻算法概述,k-means与k-NN的区别对比
100天搞定机器学习|Day7 K-NN
最近事情无比之多,换了工作、组队参加了一个比赛、和朋友搞了一些小项目,公号荒废许久。坚持是多么重要,又是多么艰难,目前事情都告一段落,我们继续100天搞定机器学习系列。想要继续做这个是因为,一方面在具体应用中,发现很多之前遗漏的点,可以在这里查漏补缺,巩固知识点。另一方面,也是想大家一起打卡学习,一起探讨。
Ai学习的老章
2019/04/23
3880
100天搞定机器学习|Day7 K-NN
教程 | 用Scikit-Learn构建K-近邻算法,分类MNIST数据集
选自TowardsDataScience 作者:Sam Grassi 机器之心编译 参与:乾树、刘晓坤 K 近邻算法,简称 K-NN。在如今深度学习盛行的时代,这个经典的机器学习算法经常被轻视。本篇教
机器之心
2018/05/08
1.4K0
教程 | 用Scikit-Learn构建K-近邻算法,分类MNIST数据集
机器学习之鸢尾花-K近邻算法
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。
python与大数据分析
2022/03/11
5640
机器学习之鸢尾花-K近邻算法
100天搞定机器学习|Day7 K-NN
最近事情无比之多,换了工作、组队参加了一个比赛、和朋友搞了一些小项目,公号荒废许久。坚持是多么重要,又是多么艰难,目前事情都告一段落,我们继续100天搞定机器学习系列。想要继续做这个是因为,一方面在具体应用中,发现很多之前遗漏的点,可以在这里查漏补缺,巩固知识点。另一方面,也是想大家一起打卡学习,一起探讨。
Ai学习的老章
2019/04/08
5370
100天搞定机器学习|Day7 K-NN
【机器学习与实现】K近邻算法
K值取3时,判断绿色点的类别为蓝色; K值取5时,判断绿色点的类别为红色为了能得到较优的K值,可以采用交叉验证和网格搜索的办法分别尝试不同K值下的分类准确性。
Francek Chen
2025/01/22
1960
【机器学习与实现】K近邻算法
小测试:KNN算法的基础知识
问题与答案 1) [正确或错误]:K – NN算法在测试时间上做的计算比训练时间多。 A)正确 B)错误 答案:A 该算法的训练阶段只包括存储训练样本的特征向量和类标签。 在测试阶段,测试点是通过分
AiTechYun
2018/03/05
1.7K0
小测试:KNN算法的基础知识
KNN算法与案例:K-近邻的应用与优化
K-近邻算法(K-Nearest Neighbors, KNN)是一种简单而强大的监督学习算法,广泛应用于分类和回归任务。它的核心思想是通过计算样本之间的距离,将一个数据点的类别或数值预测为其最邻近的K个点的类别或数值。KNN算法具有直观的实现和较强的实际应用能力,尤其在数据较小、类别之间具有明显区分时,表现非常出色。
LucianaiB
2025/01/19
4860
K近邻算法KNN的简述
K近邻算法又称KNN,全称是K-Nearest Neighbors算法,它是数据挖掘和机器学习中常用的学习算法,也是机器学习中最简单的分类算法之一。KNN的使用范围很广泛,在样本量足够大的前提条件之下它的准确度非常高。
AiTechYun
2019/05/13
1.5K0
K近邻算法KNN的简述
常见面试算法:k-近邻算法原理与python案例实现
k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法。
机器学习AI算法工程
2019/10/28
1.2K0
常见面试算法:k-近邻算法原理与python案例实现
相关推荐
机器学习算法-k近邻
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验