机器学习第8天：SVM分类

Nowl

发布于 2024-01-18 19:49:12

1160

发布于 2024-01-18 19:49:12

文章被收录于专栏：NowlNowl_AINowlNowl_AI

介绍

作用：判别种类 原理：找出一个决策边界，判断数据所处区域来识别种类

简单介绍一下SVM分类的思想，我们看下面这张图，两种分类都很不错，但是我们可以注意到第二种的决策边界与实例更远（它们之间的距离比较宽），而SVM分类就是一种寻找距每种实例最远的决策边界的算法

特征缩放

SVM算法对特征缩放很敏感（不处理算法效果会受很大影响）

特征缩放是什么意思呢，例如有身高数据和体重数据，若身高是m为单位，体重是g为单位，那么体重就比身高的数值大很多，有些机器学习算法就可能更关注某一个值，这时我们用特征缩放就可以把数据统一到相同的尺度上

示例代码

from sklearn.preprocessing import StandardScaler
import numpy as np

# 创建一个示例数据集
data = np.array([[1.0, 2.0, 3.0],
                 [4.0, 5.0, 6.0],
                 [7.0, 8.0, 9.0]])

# 创建StandardScaler对象
scaler = StandardScaler()

# 对数据进行标准化
scaled_data = scaler.fit_transform(data)

print("原始数据：\n", data)
print("\n标准化后的数据：\n", scaled_data)

# 结果是
# [[-1.22474487 -1.22474487 -1.22474487]
#  [ 0.          0.          0.        ]
#  [ 1.22474487  1.22474487  1.22474487]]

StandardScaler是一种数据标准化的方法，它对数据进行线性变换，使得数据的均值变为0，标准差变为1。

解释上面的数据

在每列上进行标准化，即对每个特征进行独立的标准化。每个数值是通过减去该列的均值，然后除以该列的标准差得到的。

第一列：(1−4)/9=−1.22474487(1−4)/9=−1.22474487，(4−4)/9=0(4−4)/9=0，(7−4)/9=1.22474487(7−4)/9=1.22474487。
第二列：(2−5)/9=−1.22474487(2−5)/9=−1.22474487，(5−5)/9=0(5−5)/9=0，(8−5)/9=1.22474487(8−5)/9=1.22474487。
第三列：(3−6)/9=−1.22474487(3−6)/9=−1.22474487，(6−6)/9=0(6−6)/9=0，(9−6)/9=1.22474487(9−6)/9=1.22474487。

这样，标准化后的数据集就符合标准正态分布，每个特征的均值为0，标准差为1。

硬间隔与软间隔分类

硬间隔分类就是完全将不同的个体区分在不同的区域（不能有一点误差）

软间隔分类就是允许一些偏差（图中绿和红色的点都有一些出现在了对方的分区里）

硬间隔分类往往会出现一些问题，例如有时候模型不可能完全分成两类，同时，硬间隔分类往往可能导致过拟合，而软间隔分类的泛化能力就比硬间隔分类好很多

主要代码

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC


model = Pipeline([
    ("scaler", StandardScaler()),
    ("linear_svc", LinearSVC(C=1, loss="hinge"))
])

model.fit(x, y)

代码解释

在这里，Pipeline的构造函数接受一个由元组组成的列表。每个元组的第一个元素是该步骤的名称（字符串），第二个元素是该步骤的实例。在这个例子中，第一个步骤是数据标准化，使用StandardScaler，命名为"scaler"；第二个步骤是线性支持向量机，使用LinearSVC，命名为"linear_svc"。这两个步骤会按照列表中的顺序依次执行。

参数C是正则程度，hinge是SVM分类算法的损失函数，用来训练模型

非线性SVM分类

上述方法都是在数据集可线性分离时用到的，当数据集呈非线性怎么办，我们在回归任务中讲过一个思想，用PolynomialFeatures来产生多项式，再对每个项进行线性拟合，最后结合在一起得出决策边界

具体代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.preprocessing import PolynomialFeatures
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

# 生成非线性数据集
X, y = datasets.make_circles(n_samples=100, factor=0.5, noise=0.1, random_state=42)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 使用多项式特征和线性SVM
degree = 3  # 多项式的次数
svm_classifier = make_pipeline(StandardScaler(), PolynomialFeatures(degree), SVC(kernel='linear', C=1))
svm_classifier.fit(X_train, y_train)

# 预测并计算准确率
y_pred = svm_classifier.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)


# 绘制决策边界
def plot_decision_boundary(X, y, model, ax):
    h = .02
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))

    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)

    ax.contourf(xx, yy, Z, alpha=0.8)
    ax.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o', s=80, linewidth=0.5)

    ax.set_xlim(xx.min(), xx.max())
    ax.set_ylim(yy.min(), yy.max())


# 绘制结果
fig, ax = plt.subplots(figsize=(8, 6))
plot_decision_boundary(X_train, y_train, svm_classifier, ax)
ax.set_title('Polynomial SVM Decision Boundary')
plt.show()

运行结果