前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >线性分类器 VS 非线性分类器

线性分类器 VS 非线性分类器

作者头像
CSDN技术头条
发布于 2018-02-09 09:57:15
发布于 2018-02-09 09:57:15
2.2K0
举报
文章被收录于专栏:CSDN技术头条CSDN技术头条

在这一小节,我展示了Naive Bayes和Rocchio这两个学习方法,它们都属于线性分类器,大概也是文本分类器中最重要的一组,接着我把它们和非线性分类器做了一个比较。为了简化讨论部分,我在这一节将只考虑二类分类器,并将不同特征的线性组合和阈值做比较从而定义一个线性分类器为一个二类分类器。

图 14.8:有无数个可划分这两个线性可分类的超平面

在二维空间里面,一个线性分类器是一条线。图14.8展示了五个分类例子。这些线有一个函数形式w1x1­+w2­x2=b。线性分类器的分类规则是:如果w1x1­+w2­x2>b,就把一个文档归类为,如果w1x1­+w2­x2<=b,就把它归类为。在这里,(x1,x2)T是文档的二维向量表示,(w1,w2)是参数向量,和b一起决定决策边界。此外,在图 15.7中给出了线性分类器的另一种几何解释。

正如我们之前在公式 140中处理的那样,我们可以通过定义一个超平面将一个二维线性分类器映射到更高维空间,这里我重复一下之前的公式,即公式 144:

然后,分类标准更改为:如果,就归类为,如果,就归类为。我们把使用的超平面作为一个线性分类器的决策超平面。

图14.9 线性分类算法

图 14.9展示的是在M维空间中对应的线性分类算法。首先,从给出的这个简化算法表述来看,线性分类似乎是很简单的。然而,困难的是线性分类器的训练,也就是基于数据集来确定参数和b。我们用于评估学习算法性能的标准是通过比较经过学习得到的线性分类器在新数据上的表现效果来确定的,通常会有一些学习算法最后会计算出优于其它算法的参数。

现在,我们来证实下Rocchio和Naive Bayes这两个线性分类器。让我们先来看看Rocchio,可以看出如果一个向量到两个类质心的距离相等,那么它就位于决策边界上。

我们可以从它的决策规则中推导出Naïve bayes的线性,它选择有最大的作为类别(如图 13.2 , 页码 13.2 ),其中:

表示的是词表中包含的词在文档中出现的个数。对立类别用表示,我们可以得到log概率:

如果概率大于1,或是log概率大于0,我们就归类为。很容易看出,公式 147 是公式 144 的一个实例,其中,xi=d中ti的出现次数,。这里,下标i, 指的是词表中的词(并不是和k一样,指词在文档d中的位置;参见variantmultinomial),x和w是M维向量。因此,在log空间中,朴素贝叶斯是一个线性分类器。

一个线性分类器。在Reuters-21578中用于分类interest(如interest rate)的线性分类器的维数

和参数

,阈值

。像dlr和world这样的术语有负权重,因为它们是用于另一个类别“货币”的标志。

工作例子。表14.4定义了一个用于在Reuters-21578(见 13.6节,页 13.6)中分类interest的线性分类器。我们把文档`

`rate discount dlrs world''分为interest,因为

。我们把`

`prime dlrs''分为对立类(不在interest中),因为

。为了简化,我们在这个例子中假设一个简单的二类向量可以表示为如下形式:1表示出现的术语,0表示没有出现的术语。工作例子到此为止。

一个有噪声数据的线性问题。在这个假设的web页面分类场景中,全是中文的网页用实心圆标记,中英混合的网页用正方形表示。这两类被一个线性分类边界(虚线、短虚线)区分开,除了三个噪声文档(使用箭头标记)

图 14.10是线性问题的图例,我们的定义表明两个类的潜在分布

中有一条分隔线。我们把这条分割线称作类边界。这是两类的“true”边界并且我们把它从决策边界(学习方法计算类边界的近似值)中识别出来。

在典型的文本分类中,如图 14.10 (使用箭头标记的部分)有一些噪声文档,没有很好的拟合类别的整体分布。在 13.5 小节(页码 13.5 ),我们把噪声特征定义为误导特征,当文档中包含有噪声特征时,分类误差会均匀地增加。类似的,当训练集中包含噪声文档时,那么它将会误导学习方法并且增加分类错误率。直觉上,将代表空间划分为不同的区域,区域内的大部分样本类别都相同。一个文档如果不属于它所在区域的主要类别,那么它就是噪声文档。

噪声文档是使训练线性分类器变得困难的一个原因。在选择分类器决策超平面时,如果我们过于关注噪声文档,那么分类器在新的数据上就会表现得的不精确。最根本的是,通常很难决定哪一个文档属于噪声文档并因此潜在的误导我们。

如果存在一个超平面能够完美的的划分两个类别,那么我们称这两个类别为线性可分。事实上,如果具有线性可分性,那么会有无数条线性分割线(练习 14.4 ),如图 14.8 所示,可分割超平面是无限的。

图 14.8表明了在训练线性分类器中的另一挑战。如果我们处理的是一个线性可分问题,那么我们需要一条标准从所有的决策超平面中来进行选择,让其能够完美的划分训练数据。通常这些超平面,有些可以在新数据上表现的很好,而另一些则表现的不尽人意。

图14.11 非线性问题

非线性分类器的一个典型例子就是kNN。从图 14.6这个例子可以看出,kNN的非线性是直观清晰的。kNN的决策边界(如14.6的 两条线 )是局部线性划分,但通常有一个复杂的形状,并不等同于二维空间中的一条线或是更高维空间中的一条超平面。

图 14.11是另一个非线性问题的例子:在

分布和

分布中没有一条很好的线性分割线,因为在图的左上角还有一个环形包围的“区域”。

线性分类器会误分圆形内部的部分,所以在处理这种类型的问题时,如果训练集足够大的话,像kNN这样的非线性分类器反而会表现得更加精确。

如果一个问题是非线性问题并且它的类边界不能够用线性超平面估计得很好,那么非线性分类器通常会比线性分类器表现得更精准。如果一个问题是线性的,那么最好使用简单的线性分类器来处理。

练习:

证明二分类中线性分割线的个数要么是无穷个,要么是零。

原文链接: Linear versus nonlinear classifiers(译者/刘帝伟 审校/赵屹华、朱正贵、李子健 责编/仲浩)

译者简介: 刘帝伟,中南大学软件学院在读研究生,关注机器学习数据挖掘及生物信息领域。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2015-09-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CSDN技术头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
线性分类器
线性分类器是一种在机器学习和统计学中广泛使用的分类算法,它的基本思想是通过一个线性函数将输入数据映射到不同的类别中。以下是对线性分类器的详细解释:
jack.yang
2025/04/05
830
【分类战车SVM】第二话:线性分类
分类战车SVM (第二话:线性分类) 1. 回顾 上一集我们大致介绍了机器学习世界的一种新武器——支持向量机,代号为SVM(微信公众号“数说工作室”中回复“SVM1”查看)。它具有以下优良特性: 小样本——SVM配备“支持向量”识别系统,精准打击 非线性——SVM嵌入了尖端前沿的“高维映射”技术。 高维度——SVM配备了“核函数”子装置,有效节省成本,轻便节能。 关注结构风险——SVM装备风险自我识别系统,为驰骋疆场提供全面的保驾护航。 另外,SVM与logistic都是线性分类器的一种,那么它们有什么
数说君
2018/03/28
7090
【分类战车SVM】第二话:线性分类
【分类战车SVM】第二话:线性分类
分类战车SVM (第二话:线性分类) 回复“SVM”查看本《分类战车SVM》系列的内容: 第一话:开题话 第二话:线性分类 第三话:最大间隔分类器 第四话:拉格朗日对偶问题(原来这么简单!) 第五话:核函数(哦,这太神奇了!) 第六话:SMO算法(像Smoke一样简单!) 附录:用Python做SVM模型 ---- 1. 回顾 上一集我们大致介绍了机器学习世界的一种新武器——支持向量机,代号为SVM(微信公众号“数说工作室”中回复“SVM1”查看)。它具有以下优良特性: 小样本——SVM配备“支持向量”识
数说君
2018/03/28
8130
【分类战车SVM】第二话:线性分类
文本分类学习 (八)SVM 入门之线性分类器
SVM 和线性分类器是分不开的。因为SVM的核心:高维空间中,在线性可分(如果线性不可分那么就使用核函数转换为更高维从而变的线性可分)的数据集中寻找一个最优的超平面将数据集分隔开来。
ShenduCC
2018/08/01
1.1K0
文本分类学习 (八)SVM 入门之线性分类器
CS231n:2 线性分类器
如下图就是线性分类器的工作过程,对于一张图片,假设是个黑白的 2*2 的图片,我们首先将其展开成一个 4*1 的列向量。假设我们一共有三个类比(猫,狗,船),下图中红色的表示识别猫的分类器,绿色的表示识别狗的分类器,蓝色表示识别船的分类器,三个分类器的参数堆叠在一起组成了评估函数的参数矩阵。将参数矩阵与原始数据相乘并加上对应的偏置项,得到每个分类器的得分,可以看到猫的得分为 -96.8,狗的得分为437.9,这说明,分类器认为这张图片最可能是只狗,最不可能是只猫,对于图中的例子,这无疑是个很不好的结果(因为输入图片是一只猫)。
Here_SDUT
2022/08/08
4300
CS231n:2 线性分类器
线性分类器全解析:Logistic 回归、Softmax 回归、感知器和支持向量机
文章链接:https://cloud.tencent.com/developer/article/2472469
小说男主
2024/12/03
2110
线性分类器全解析:Logistic 回归、Softmax 回归、感知器和支持向量机
支持向量机
支持向量机(Support Vector Machine,SVM)是一个非常优雅的算法,具有非常完善的数学理论,常用于数据分类,也可以用于数据的回归预测中。支持向量机在许多领域都有广泛的应用,如文本分类、图像识别、生物信息学、金融预测等。
@小森
2024/03/15
1790
支持向量机
模式识别: 线性分类器
1.感知器的学习过程是不断改变权向量的输入,更新结构中的可变参数,最后实现在有限次迭代之后的收敛。感知器的基本模型结构如图1所示:
流川疯
2019/01/18
9590
机器学习面试中常考的知识点,附代码实现(四)
支持向量机(Support Vector Machine,SVM)是众多监督学习方法中十分出色的一种,几乎所有讲述经典机器学习方法的教材都会介绍。关于SVM,流传着一个关于天使与魔鬼的故事。
AI研习社
2019/09/09
5660
SVM分类---识别舰船和飞机
SVM网上已经有说的非常好的,有浅显易懂的也有从最基础的公式上一步步推导的,参考大神July的这篇关于SVM的博客,希望深入了解的可以看看这篇讲的非常好。
GavinZhou
2019/05/26
9120
我是这样理解--SVM,不需要繁杂公式的那种!(附代码)
支持向量机(Support Vector Machine,SVM)是众多监督学习方法中十分出色的一种,几乎所有讲述经典机器学习方法的教材都会介绍。关于SVM,流传着一个关于天使与魔鬼的故事。
mantch
2019/07/30
1.1K0
我是这样理解--SVM,不需要繁杂公式的那种!(附代码)
彻底搞懂机器学习SVM模型!
自从大半年前接触到SVM以来,感觉一直没怎么把SVM整明白。直到最近上的《模式识别》课程才仿佛打通了我的任督二脉,使我终于搞清楚了SVM的来龙去脉,所以写个博客作个总结。
算法进阶
2023/08/28
1.4K0
彻底搞懂机器学习SVM模型!
机器学习中的算法:支持向量机(SVM)基础
导语:最近一段时间看了看关于SVM(Support Vector Machine)的文章,觉得SVM是一个非常有趣,而且自成一派的方向,所以今天准备写一篇关于关于SVM的文章。另外,小编Tom邀请你一
IT派
2018/03/29
9470
机器学习中的算法:支持向量机(SVM)基础
SVM 概述
支持向量机的线性分类:是给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于他们落在间隔的哪一侧来预测所属类别。
为为为什么
2022/10/28
1.2K0
SVM 概述
SVM原理与实现
支持向量机(Support Vector Machine,SVM)是众多监督学习方法中十分出色的一种,几乎所有讲述经典机器学习方法的教材都会介绍。关于SVM,流传着一个关于天使与魔鬼的故事。
大数据技术与机器学习
2019/11/20
1.2K0
支持向量机
border="0" width="430" height="96" src="//music.163.com/outchain/player?type=2&id=493784890&auto=1&h
李玺
2021/11/22
6730
支持向量机
线性分类器
线性分类 上一篇笔记介绍了图像分类问题。图像分类的任务,就是从已有的固定分类标签集合中选择一个并分配给一张图像。我们还介绍了k-Nearest Neighbor (k-NN)分类器,该分类器的基本思想是通过将测试图像与训练集带标签的图像进行比较,来给测试图像打上分类标签。k-Nearest Neighbor分类器存在以下不足: 1. 分类器必须记住所有训练数据并将其存储起来,以便于未来测试数据用于比较。这在存储空间上是低效的,数据集的大小很容易就以GB计。 2. 对一个测试图像进行分类需要和所有训练图像作
昱良
2018/04/08
8350
线性分类器
教程 | 详解支持向量机SVM:快速可靠的分类算法
选自Monkey Learn 作者:Bruno Stecanella 参与:李泽南、李亚洲 当处理文本分类问题时,你需要不断提炼自己的数据集,甚至会尝试使用朴素贝叶斯。在对数据集满意后,如何更进一步呢?是时候了解支持向量机(SVM)了:一种快速可靠的分类算法,可以在数据量有限的情况下很好地完成任务。在本文中,Bruno Stecanella 将对这一概念进行通俗易懂的解释,希望能对你有所帮助。 或许你已经开始了自己的探索,听说过线性可分、核心技巧、核函数等术语。支持向量机(SVM)算法的核心理念非常简单,而
机器之心
2018/05/08
1.5K0
教程 | 详解支持向量机SVM:快速可靠的分类算法
支持向量机SVM:从数学原理到实际应用
支持向量机(SVM, Support Vector Machines)是一种广泛应用于分类、回归、甚至是异常检测的监督学习算法。自从Vapnik和Chervonenkis在1995年首次提出,SVM算法就在机器学习领域赢得了巨大的声誉。这部分因为其基于几何和统计理论的坚实数学基础,也因为其在实际应用中展示出的出色性能。
TechLead
2023/10/21
2.3K0
支持向量机SVM:从数学原理到实际应用
SVM原理详解
SVM入门(一)至(三)Refresh 按:之前的文章重新汇编一下,修改了一些错误和不当的说法,一起复习,然后继续SVM之旅. (一)SVM的简介 支持向量机(Support Vector  Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。  支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样
triplebee
2018/01/12
1.4K0
SVM原理详解
相关推荐
线性分类器
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档