01
监督学习
所谓监督学习,顾名思义其有两个核心概念组成:“监督”+“学习”。
学习:与传统意义的学习概念一样,在监督学习中,所谓学习指的就是通过一次次的思考并改正错误,从而获取正确的知识,最终达到学习的目的。
监督:与传统意义的监督概念也一样,在监督学习中,所谓监督指的就是当前的学习过程是受到监督的,当你产生错误时,监督者会告诉你当前发生了错误,并且要求你往正确的方向学习。
上述概念中提到的学习,那么这个过程中究竟在学习怎么样的知识呢?下图直观的展示了这个学习过程究竟在学习什么。如图所示,展示的是给出一个n维的向量X,经过一个盒子,最终输出一个向量Y的过程。该过程主要学习的就是红色问号部分的映射规则。映射规则就是指盒子对输入所做的操作。而监督学习的核心就是利用监督的手段来学习得到这个映射规则,从而得到一个无人的智能系统。该系统能够根据给定的输入,输出符合规则的输出。当前火热的基于有监督的深度学习,其实做的就是这件事情。
而当前很火的机器学习、深度学习模型,(如VGG16,VGG19,Inception,ResNet等等网络模型)就是对图中的盒子构建的数学模型。并通过类似于梯度下降的策略来进行模型参数的学习,最终得到一个基于模型和参数的黑盒,用于实现所谓的智能决策。
02
分类和回归
如上图所示,在监督学习中,输入经过盒子决策后得到输出。而对于分类和回归问题,该输出的形式存在差异。该差异对应着深度学习,机器学习所对应的落地场景。比如解决图像分类任务,那么就要应用分类网络;若解决预测类问题,那么就要应用回归网络。
分类与回归,这两者都属于监督学习的范畴,都是学习的方法。之所以会去两个不同的名字,就是因为其对应的输出值形式不同,仅此而已。对于回归任务其输出值是连续的实数值,而对于分类任务其输出值为离散的类别数。因此这两者的本质是一样的,仅仅是输出形式不同而已。当然由于其输出形式不同,在构建误差函数(就是监督系统中的使得盒子往正确答案发展的驱动装置)时会有区分,这里对于分类和回归的误差函数的设计不多做介绍,后续会单独聊一聊。
利用一个例子来更好的解释,分类与回归的本质是一致的。
举例:解决一个简单的水果分类问题。假设当前的水果种类有:苹果,西瓜,桃子和葡萄四种,对应的类别标签(监督值)为0,1,2,3。假设当前给定的训练数据集中的输入特征为一个二维向量X=(颜色,大小),训练数据集中的输出(监督值)为对应种类的类别值(0,1,2,3)。要求我们设计一个网络模型,使得该模型能够根据任意的二维向量,得到对应的类别输出。
正常情况下,我们很容易想到利用监督学习中的分类策略来解决当前问题,这很直观就不做解释。而当前问题中,为了解释分类与回归的本质其实是一致的,我们尝试是否可以用回归的策略来解决这个分类问题?答案是肯定的。
已知当前的训练集中输入为二维向量X=(颜色,大小),训练数据集中的输出(监督值)为对应的种类的类别值(0,1,2,3)。利用回归任务解决当前问题时,我们将0,1,2,3这几个数字看做是一系列连续的实数值中的几个,而不认为类别标签。因此利用回归网络仍然可以训练当前模型。我们会认为网络输出的实数值更加接近于哪个数字,来驱动网络的学习。当然显而易见利用回归的方法得到的结果必定比不过分类策略。本文仅仅想告知分类和回归的本质是一致的,其区别仅仅是输出形式不同而已。
Note:上述关于分类和回归的本质,并没有得到过多理论上的验证,仅仅是本人的臆想以及实验尝试,所以仅供参考,且有不同观点欢迎批评指正。
领取专属 10元无门槛券
私享最新 技术干货