输入都由输入空间转换到特征空间,支持向量机的学习是在特征空间进行的。
超平面
关于样本
的函数间隔:
超平面
关于数据集
的函数间隔:对所有点,取
超平面
关于样本
的几何间隔:
超平面
关于数据集
的几何间隔:对所有点,取
函数间隔、几何间隔的关系
,那么函数间隔和几何间隔相等。
SVM学习的基本想法:能够正确划分,且几何间隔最大的分离超平面
线性可分SVM学习最优化问题:
求得最优化问题的解为
,
,得到线性可分支持向量机,分离超平面是
分类决策函数是
“重要的”
训练样本确定对偶问题:
通常,通过求解 对偶问题 学习线性可分支持向量机,即首先求解对偶问题的最优值
,然后求最优值
和
,得出分离超平面和分类决策函数。
分离超平面是
分类决策函数是
的样本点称为支持向量,其一定在间隔边界上。
线性可分SVM学习方法,对线性不可分训练数据是不适用的,怎么将它扩展到线性不可分,需要修改硬间隔最大化,使其成为软间隔最大化。
引入松弛变量
,
是惩罚参数,线性SVM学习的凸二次规划问题,
原始最优化问题:
求解原始最优化问题的解
和
,得到线性SVM,其分离超平面为
分类决策函数是
线性不可分支持向量机的解
唯一,但
不唯一。
对偶问题:
线性支持向量机的对偶学习算法,首先求解对偶问题得到最优解
,然后求原始问题最优解
和
,得出分离超平面和分类决策函数。
分离超平面是
分类决策函数是
对偶问题的解
中满足
的实例点
称为(软间隔)支持向量。
支持向量可在间隔边界上,也可在间隔边界与分离超平面之间,或者在分离超平面误分一侧。最优分离超平面由支持向量完全决定。
线性SVM学习 等价于 最小化二阶范数正则化的 合页函数
合页损失函数 不仅要正确分类,而且确信度足够高时损失才是0。也就是说,合页损失函数对学习有更高的要求
核技巧(kernel trick)不仅应用于支持向量机,而且应用于其他统计学习问题。
用线性分类求解非线性分类问题分为两步:
用核函数来替换前面式子中的内积。
核函数表示,通过一个非线性转换后的两个实例间的内积。具体地,
是一个核函数,或 正定核,意味着存在一个从输入空间 x 到特征空间的映射
,对任意
,有
对称函数
为正定核的充要条件:
对任意
,任意正整数
,对称函数
对应的 Gram 矩阵是半正定的。
线性支持向量机学习的对偶问题中,用核函数
替代内积,求解得到的就是非线性SVM
对于任意函数,验证其对任意输入集,验证 K 对应的 Gram 矩阵是否是半正定的,很困难,所以用已有的核函数。
选取适当的核函数
, 适当的参数
, 构造最优化问题:
求解对偶问题得到最优解
,选择
的一个正分量
,计算
分类决策函数是
当
是正定核函数时,上面问题是凸二次规划问题,解存在。
SMO(sequential minimal optimization)算法是SVM学习的一种快速算法
特点:不断地将原二次规划问题分解为只有两个变量的二次规划子问题,并对子问题进行解析求解,直到所有变量满足KKT条件为止。
这样通过启发式的方法得到原二次规划问题的最优解。因为子问题有解析解,所以每次计算子问题都很快,虽然计算子问题次数很多,但在总体上还是高效的。
官方文档 :sklearn.svm.SVC
class sklearn.svm.SVC(C=1.0, kernel='rbf', degree=3, gamma='scale', coef0=0.0,
shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None,
verbose=False, max_iter=-1, decision_function_shape='ovr', break_ties=False,
random_state=None)
参数:
- C:正则化参数C,默认值是1.0
C越大,相当于惩罚松弛变量,希望松弛变量接近0,即对误分类的惩罚增大,
趋向于对训练集全分对的情况,这样对训练集测试时准确率很高,但泛化能力弱。
C值小,对误分类的惩罚减小,允许容错,将他们当成噪声点,泛化能力较强。
- kernel :核函数,默认是rbf,可以是‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’
– 线性:u'v
– 多项式:(gamma*u'*v + coef0)^degree
– RBF函数:exp(-gamma|u-v|^2)
– sigmoid:tanh(gamma*u'*v + coef0)
- degree :多项式poly函数的维度,默认是3,选择其他核函数时会被忽略。
- gamma : ‘rbf’,‘poly’ 和‘sigmoid’的核函数参数。
- coef0 :核函数的常数项。对于‘poly’和 ‘sigmoid’有用。
- probability :是否采用概率估计? 默认为False
- shrinking :是否采用shrinking heuristic方法,默认为true
- tol :停止训练的误差值大小,默认为1e-3
- cache_size :核函数cache缓存大小,默认为200
- class_weight :类别的权重,字典形式传递。设置第几类的参数C为weight*C(C-SVC中的C)
- verbose :允许冗余输出?
- max_iter :最大迭代次数。-1为无限制。
- decision_function_shape :‘ovo’, ‘ovr’, default=‘ovr’
- random_state :数据洗牌时的种子值,int值
主要调节的参数有:C、kernel、degree、gamma、coef0。
# -*- coding:utf-8 -*-
# @Python Version: 3.7
# @Time: 2020/3/20 14:23
# @Author: Michael Ming
# @Website: https://michael.blog.csdn.net/
# @File: 7.SupportVectorMachine.py
# @Reference: https://github.com/fengdu78/lihang-code
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn.svm import SVC
def create_data():
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['label'] = iris.target
data = np.array(df.iloc[:100, [0, 1, -1]])
for i in range(len(data)):
if (data[i, -1] == 0):
data[i, -1] = -1
return data[:, :2], data[:, -1]
X, y = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)
clf = SVC()
clf.fit(X_train, y_train)
print(clf.score(X_test, y_test))
习题7.2:已知正例点
,负例点
,试求最大间隔分离超平面和分类决策函数,并在图上画出分离超平面、间隔边界及支持向量。
解:
# 计算最优alpha*
import numpy
data = numpy.array([[1, 2], [2, 3], [3, 3], [2, 1], [3, 2]])
label = numpy.array([1, 1, 1, -1, -1])
m = 10000;
a = []
for a1 in numpy.linspace(0,5,30):
for a2 in numpy.linspace(0,5,30):
for a3 in numpy.linspace(0,5,30):
for a4 in numpy.linspace(0,5,30):
if a1+a2+a3-a4 >= 0:
ans = 2*a1**2+a2**2+0.5*a3**2+a4**2+2*a1*a2-2*a1*a4+a2*a3+a3*a4-2*a1-2*a2-2*a3
if ans < m:
a = [a1, a2, a3, a4, a1+a2+a3-a4]
m = ans
print(m,a)
w1 = 1*a[0]+2*a[1]+3*a[2]-2*a[3]-3*a[4]
w2 = 2*a[0]+3*a[1]+3*a[2]-1*a[3]-2*a[4]
b = label[0] - sum(a[i]*label[i]*numpy.dot(data[i],data[0]) for i in range(5))
print(w1,w2, b)
-2.4970273483947683 [0.5172413793103449, 0.0, 2.0689655172413794, 0.0, 2.586206896551724]
# w1, w2, b
-1.0344827586206886 2.06896551724138 -2.103448275862071
w 的比例跟下面 sklearn 算的是一致的,截距项有点偏差
对上面结果除以 w 的 2范数 2.31317
得到的 w1,w2,b 是 -0.447,0.894,-0.909(w跟下面sklearn算的一致(除以范数后的结果),截距项不一致,是因为sklearn 用的是软间隔最大化,有松弛变量,解出来的 b 是不唯一的)
# -*- coding:utf-8 -*-
# @Python Version: 3.7
# @Time: 2020/3/20 14:23
# @Author: Michael Ming
# @Website: https://michael.blog.csdn.net/
# @File: 7.SupportVectorMachine.py
# @Reference: https://github.com/fengdu78/lihang-code
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from sklearn.svm import SVC
def create_data():
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['label'] = iris.target
data = np.array(df.iloc[:100, [0, 1, -1]])
for i in range(len(data)):
if (data[i, -1] == 0):
data[i, -1] = -1
return data[:, :2], data[:, -1]
X, y = create_data()
data = pd.DataFrame([[1, 2], [2, 3], [3, 3], [2, 1], [3, 2]])
label = pd.DataFrame([1, 1, 1, -1, -1])
plt.scatter(data[:3][0], data[:3][1], c='r', marker='o', label='+')
plt.scatter(data[3:][0], data[3:][1], c='g', marker='x', label='-')
X = data
y = label
clf.fit(X, y)
xi = np.linspace(-1, 4, 20)
yi = (clf.coef_[0][0] * xi + clf.intercept_) / (-clf.coef_[0][1])
plt.plot(xi, yi, 'b', label='分离超平面')
plt.legend()
plt.title("练习7.2")
plt.rcParams['font.sans-serif'] = 'SimHei' # 消除中文乱码
plt.rcParams['axes.unicode_minus'] = False # 正常显示负号
plt.show()
print(clf.support_vectors_)
print(clf.coef_)
print(clf.intercept_)
print(clf.support_)
print(clf.n_support_)
[[2. 1.] # 支持向量
[3. 2.] # 支持向量
[1. 2.] # 支持向量
[3. 3.]] # 支持向量
[[-0.6664 1.3328]] # w 除以2范数后 为 -0.447, 0.894
[-0.99946667] # b 除以2范数后 为 0.671
[3 4 0 2]
[2 2]