本文中介绍的机器学习中最基础的一个算法:k-近邻算法,将从如下方面展开:
k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法。简单地说,k-近邻算法就是采用不同特征值之间的距离来进行分类,算法主要特点为:
有人曾经统计过很多电影的打斗镜头和接吻镜头,如下图显示的电影打斗镜头和接吻镜头:
假设有一部未看过的电影,如何确定它是爱情片还是动作片呢?我们看看下表的数据:
当我们不知道未知电影史属于何种类型,我们可以通过计算未知电影和其他电影的距离,按照电影的递增排序,可以找到k个距离最近的电影。在距离最近的电影中,选择类别最多的那部电影,即可判断为未知电影的类型。
比如k=5,这5部电影中3部是爱情片,2部是动作片,那么我们将未知电影归属为爱情片。
k
个最相似的数据,一般k是小于20
k
个点;k
个点所在类别的出现频率;k
个点所出现频率最高的类别作为当前点的预测分类。下面?列举了机器学习中常用的向量距离度量准则:
首先给出KNN算法的伪代码(对未知类别属性的数据集中的每个点依次执行以下操作):
下面给出实际的Python3的代码。使用内置的collections
模块来解决:
import pandas as pd
import numpy as np
import collections
"""
名称:创建数据集
参数:无
返回值:
group - 数据集
labels - 分类标签
"""
def createData(): # 创建数据集的函数
# 四组二维特征
group = np.array([
[1,101], # 第1个数表示打斗次数,第2个表示接吻次数
[5,89],
[108,5],
[115,8]
])
# 每个特征对应的标签
labels = ["爱情片","爱情片","动作片","动作片"]
# 返回每个特征和标签值
return group, labels
"""
名称:KNN算法,分类器
参数:
inX:用于分类的数据,测试集
dataSet:用于训练的数据集,训练集
labels:分类标签
k:算法参数,选择距离最小的k个点
"""
def classify(inX,dataSet,labels,k):
# 计算欧式距离
dist = np.sum((inX-dataSet) ** 2, axis=1) ** 0.5
print("dist:",dist)
# k个最近的标签:
# argsort():距离从小到大排列,取出前k个数据;将前k个对应的label标签全部取出来
k_labels = [labels[index] for index in dist.argsort()[0:k]]
print("k_labels:",k_labels)
# 出现最多次数的标签即为最终类别
label = collections.Counter(k_labels).most_common(1)[0][0]
print("label:",label)
return label
if __name__ == "__main__":
# 创建数据集
group ,labels = createData()
# 传入测试数据
test = [98,17]
# KNN分类
test_class = classify(test,group,labels,3)
# 打印结果
print("test_class:",test_class)
运行上面的代码,显示的结果为:
["动作片","动作片","爱情片"]
1、函数首先需要生成数据集:关于给出的前4部电影,已知打斗次数和接吻次数,同时还有电影的分类情况;
2、现在新出现了一部电影:打斗次数是98,接吻次数是17,如何确定其属于哪种类型的电影?
打斗次数 | 接吻次数 | 电影分类 | |
---|---|---|---|
1 | 1 | 101 | 爱情片 |
2 | 5 | 89 | 爱情片 |
3 | 108 | 5 | 动作片 |
4 | 115 | 8 | 动作片 |
待预测 | 98 | 17 | ? |
不使用collections模块如何解决?
import numpy as np
import operator
"""
名称:创建数据集
参数:无
返回值:
group - 数据集
labels - 分类标签
"""
def createData(): # 创建数据集的函数
# 四组二维特征
group = np.array([
[1,101], # 第1个数表示打斗次数,第2个表示接吻次数
[5,89],
[108,5],
[115,8]
])
# 每个特征对应的标签
# labels 包含的元素个数等于group矩阵的行数
labels = ["爱情片","爱情片","动作片","动作片"]
# 返回每个特征和标签值
return group, labels
"""
名称:KNN算法,分类器
参数:
inX:用于分类的数据,测试集
dataSet:用于训练的数据集,训练集
labels:分类标签
k:算法参数,选择距离最小的k个点
返回值: sortedClassCount[0][0] 分类结果
欧式距离计算:
dis = ((x_2-x_1)^2 + (y_2-y_1)^2) ** 0.5
"""
def classify(inX,dataSet,labels,k):
# shape函数返回行数和列数
datasetsize = dataSet.shape[0] # 返回的是行数
# 将待预测的数据(datasetsize, 1)的大小
diffMat = np.tile(inX, (datasetsize, 1)) - dataSet
print("tile:\n", np.tile(inX, (datasetsize, 1)))
# 二维特征相减再平方
sqDiffMat= diffMat ** 2
# sum(0)行相加,sum(1)列相加
sqDistances = sqDiffMat.sum(axis=1)
# 开方求出距离
distances = sqDistances ** 0.5
print("距离大小:\n", distances)
# 返回从小到大排序后的索引值
sortedDistIndices = distances.argsort()
print("排序后的索引值:\n",sortedDistIndices)
# 假定一个字典来记录类别的次数
classCount = {}
for i in range(k):
# 取出前k个元素的类别
voteLabel = labels[sortedDistIndices[i]]
# 字典的get方法:dict.get(key,default=None),返回指定的值,如果不存在则返回的是默认值
classCount[voteLabel] = classCount.get(voteLabel,0) + 1
# reverse降序排序字典
# operator.itemgetter(1):对值进行排序
# operator.itemgetter(0):对键进行排序
sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)
# 返回次数最多的类别,即所要的分类结果
return sortedClassCount[0][0]
if __name__ == "__main__":
# 创建数据集
group, labels = createData()
# 待预测数据
test = [98,20]
# KNN分类
test_class = classify(test,group,labels,3)
# 打印结果
print(test_class)
classfiy函数有4个输入参数:
其中标签向量的元素数目和矩阵dataSet的行数相同
看看具体的解释:
1、原始数据是什么样子?
打印出来的效果:
2、为什么使用np.tile方法?
为了和dataSet的shape保持一致,方便后续的求距离
3、每个距离和相对的索引关系
下面也是通过一个模拟的电影数据来讲解如何在jupyter notebook
中使用KNN
算法,大致步骤分为:
构建一个包含接吻镜头、打斗镜头和电影类型的数据集
2、求距离
求出待预测分类的数据和原数据的欧式距离
3、距离排序
将求出的距离进行升序排列,并取出对应的电影分类
4、指定取出前k个数据
取出指定的前k个数据,统计这些数据中电影类型的频数,找出频数最多的类型,即可判断为未知待预测电影的类型
1、模拟数据:
2、求解距离
3、对距离升序排列
4、取出前k个数并统计频数
将上面的整个过程封装成函数:
import pandas as pd
"""
函数功能:KNN分类器
参数说明:
inX:待预测分类的数据
dataSet:原数据集,训练集
k:k-近邻算法中的超参数k
返回值:分类结果
"""
def classify0(inX, dataSet,k):
result = []
# 1、求新数据和每个原数据的距离
dist = list(((data.iloc[:6,1:3] - new_data) ** 2).sum(1) ** 0.5)
# 2、将求出的距离和电影标签放在一起
dist_labels = pd.DataFrame({"dist":dist,"labels":data["电影类型"].tolist()})
# 3、根据距离升序排列,取出前k个
dist_sorted = dist_labels.sort_values(by="dist")[:k]
# 4、排序之后取出标签,并统计频数
res = dist_sorted.loc[:,"labels"].value_counts()
result.append(res.index[0])
return result
利用上面模拟的数据测试一下我们封装的代码,结果是相同的
1、《机器学习实战》一书
3、《统计学习方法》-李航老师
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。