我们常说的算法到底是什么?机器学习又是什么?模型起到了什么作用?相信很多小伙伴在刚开始学习的时候都有过这样的疑问,接下来我们就以这三个问题开头,开启我们的算法修仙之路。
《人工智能标准化白皮书(2021 版)》对于机器学习是这样定义的。
机器学习(Machine Learning)是一门多学科交叉专业,涵盖概率论知识,统计学知识,近似理论知识和复杂算法知识,使用计算机作为工具并致力于真实实时的模拟人类学习方式,并将现有内容进行知识结构划分来有效提高学习效率。
简单来讲就是机器学习是让计算机模拟人类学习方式的一种方法。而根据学习策略的不同,又将机器学习分为直接采用数学方法的机器学习与模拟人脑的机器学习,模拟人脑的机器学习就是我们常说的神经网络,而直接采用数学方法的机器学习就是我们接下来要讲的重点,它是通过各种数学公式组建合适的数学模型,选择合适的超参数对数据进行分析,达到我们想要的效果。
直接采用数学方法的机器学习有三个要素:模型、策略与算法,这就又回到了我们之前的问题,什么是算法?什么是模型?别急,接下来我们对这两个概念一一进行解释。
下面我们利用一个图来描述一下上面所说到三者的关系:
现在搞定了名词解释,我们接下来就开始涉及到一点机器学习内的概念问题。
在机器学习领域有几个名词和我们刚开始学习机器语言敲的第一行代码是输出“Hello World!”一样,必须要经历知道的,为了方便大家记忆,在这里我将这些名词按照是否定义数据本身做了简单的两类划分,一类与数据本身相关,一类与数据的划分相关,下面我们就开始了解一下这几个名词。
机器学习涉及到的理论基础都需要数据(Data)实践,本身又有自己的特征(Feature),特征分析之后又会衍生出数据自身的标签(Label)。
为了确保机器学习模型的高效训练与准确评估,通常会将数据科学地划分为训练集(Train)、验证集(Validation)和测试集(Test)。
---------------------------------------------------------------------------------------------废话---------------------------------------------------------------------------------
好了学习了上述的概念之后你已经领先别人一大截了,接下来的内容休息一下再看,修仙要懂得劳逸结合,现在已经进入炼体了,可以怡情养性听听曲儿了。
诸位道友毅力恐怖如斯啊,居然还要看,那我们话不多说,开始第二场。
-----------------------------------------------------------------------------------------到这里结束----------------------------------------------------------------------------
机器学习根据学习方式的不同可以分为监督学习(Supervised Learning)、无监督学习(Unsupervised Learning)以及强化学习,接下来我们重点了解一下监督学习与无监督学习。
监督学习(Supervised Learning)是机器学习中的一种学习范式。它使用标记(labeled)的数据进行训练,即训练数据集中的每个样本都包含输入特征(input features)和对应的目标标签(target label)。模型通过学习输入特征和目标标签之间的映射关系,从而能够对新的、未见过的输入数据进行预测并输出相应的标签。
简单来讲就是训练数据中有正负样本标签,模型根据数据之间的特征去学习拟合正负样本的差异,训练完成之后的模型,输入数据之后可以对新数据进行预测输出相应的标签。
监督学习问题又可以划分为回归问题(Regression)和分类问题(Classification),下面我们对这儿两种问题进行解释说明。
回归(Regression):回归是一种用于预测连续数值型变量的监督学习任务。目标是找到输入特征(自变量)与连续输出标签(因变量)之间的函数关系。给定一组输入特征的值,模型的输出是一个连续的数值,这个数值通常是对目标变量的预测估计。
举个例子说明一下回归问题:
)、房龄(
)、卧室数量(
)等作为输入特征,房屋价格(
)作为输出标签。我们使用回归模型(如线性回归)来学习这些特征和价格之间的关系。模型可能会学习到一个类似
的函数,其中
、
、
是权重,
是偏差。通过对大量带有价格标签的房屋数据进行训练,模型可以根据新房屋的面积、房龄和卧室数量等特征来预测其价格。
分类(Classification)是监督学习中的一种任务类型,其目标是将输入数据划分到不同的类别标签中。给定一组输入特征,模型输出一个类别标签,这个标签是离散的。分类问题可以是二分类(只有两个类别),也可以是多分类(有多个类别)。
分类问题有多分类和二分类两中,下面分别解释一下这两种分类的不同。
二分类:
多分类:
从上面的举例可以看出,二分类与多分类的区别就在于最终输出的标签数量,二分类多输出的是“是”、“否”类的对立结果,而多分类输出的结果往往是多种不同的中性标签,他们之间可能有很大区别,但往往没有太多的对立感在里面。
接下来我们就看一下与监督学习相对的无监督学习,看它们之间到底有什么不同。
无监督学习(Unsupervised Learning)也是机器学习的一种学习方式,它处理的是未标记(unlabeled)的数据。算法的目的是在数据中发现内在的结构、模式或规律,例如数据的分组(聚类)、数据的低维表示(降维)等,而不需要事先知道数据的类别或目标值。
简单来讲无监督学习处理的是无标签的数据,它是通过数据内部的规律去训练模型,最终输出的也是通过数据内部规律所拟合的数据聚类。这种模式更像是让机器自学,没有外界明确的指导。
无监督学习主要可以分为以下几类:
聚类分析(Clustering)聚类是将数据集中相似的数据点划分到同一组(簇,cluster)的无监督学习方法。它的目标是发现数据中的自然分组结构,使得同一簇内的数据点相似度较高,而不同簇之间的数据点相似度较低。聚类算法并不依赖预先定义的类别标签,而是通过数据自身的特征来确定分组。
降维(Dimensionality Reduction) 降维是指在高维数据中找到一个低维表示,同时尽可能保留原始数据的重要信息。高维数据可能包含大量的特征,这些特征之间可能存在冗余信息或者噪声,降维的目的是简化数据表示,便于后续的数据分析、可视化和模型构建等操作。
降维就像是把文件压缩,但又不损坏文件内的数据特性。
关联规则学习(Association Rule Learning)关联规则学习是一种在数据集中发现不同变量之间关联关系的无监督学习方法。它旨在找出数据中频繁出现的模式,特别是变量之间的因果关系或相关性,通常以“如果 - 那么”的规则形式表示。
下面我简单整理了一份机器学习中监督学习与无监督学习涉及到算法,供大家参考。
|----监督学习
| |
| |----回归问题
| | |
| | |----线性回归
| | |
| | |----岭回归
| | |
| | |----决策树回归
| | |
| | |----支持向量回归
| | |
| | |----神经网络回归
| | |
| | |----随机森林回归
| |
| |
机器学习 ---- | |----分类问题
| |
| |----逻辑回归
| |
| |----K近邻分类
| |
| |----决策树分类
| |
| |----支持向量机分类
| |
| |----朴素贝叶斯分类
| |
| |----神经网络分类
| |
| |----随机森林分类
|
|
|----无监督学习
|
|----聚类
| |
| |----K均值聚类
| |
| |----层次聚类
|
|
|----降维
|
|----主成分分析
|
|----因子分析
OK,知道这些大家就正式迈入了炼体巅峰,可以开始修炼了,各位道友来日方长,再见!