内容摘要
机器学习以数据为基础,通过训练构建出算法模型,然后就能够基于数据模型进行预测,其学习过程通常可以划分为:数据采集、数据预处理、特征工程、模型选择(模型训练和预测)、模型评价(效果评估)五个阶段。
文章编号:AI-0006-V1.1
所属类别:人工智能
文章正文
我们可以从结构组合和实施流程两个角度,认识机器学习的方法,本文侧重从机器学习实施流程的角度,将其分为五个步骤,我们称之为五步法。
从结构组合的角度看,机器学习包括:数据、算法、模型3个要素。
数据是基础,算法是动力,模型是目标。
从实施流程的角度看,机器学习分为:数据采集、数据预处理、特征工程、模型选择(模型训练和预测)、模型评价(效果评估)五个步骤。如下图所示:
第一步:数据采集
数据采集的源头可能来自于企业的内部IT系统/平台、采集设备、外部互联网等。
例如, CRM系统的客户、产品、订单等数据,通信网关GGSN、SGSN等的用户上网记录数据,或者互联网电商平台的商户信息、客户评价等。
第二步&第三步:数据预处理&特征工程
这个阶段主要完成学习前的准备工作。
样本数据中的标签数据是在原始数据中预先设置好的,比如预测结果为垃圾邮件和正常邮件,那么类别标签值可以设置为1和0。
预处理包括:特征提取与特征缩放、特征选择、降维、抽样等工作。特征类似于数据表中的字段,首先需要从原始数据中提出和机器学习目标相关的特征,为了提高计算性能、节省空间占用,有时则需要做降维处理。
数据集也会分为训练数据集和测试数据集,借助交叉验证手段和性能度量指标,比如正确率、精准率、召回率、F1分数等,确定模型的好坏优劣。
第四步:模型选择(数据训练和预测)
数据集准备完毕后,需要进入机器学习阶段。
学习阶段包括模型选择、交叉验证、性能度量、超参调优。
模型选择对应算法选择,逻辑回归、决策树、朴素贝叶斯、支持向量机等算法的特点和适用场景是不同的,我们需要根据业务特点和需求作出选择。
数据集的分布对于机器学习效果影响也很大,最好的情况是同样特征的样本数据是分散排布的。
以从仓库中挑选出好的或者腐败的、坏的玉米粒这样的场景为例,如果好的玉米粒全部放到训练数据集,坏的玉米粒全部放到测试数据集,那么这样的数据就没有代表性,因此构建的模型也没有通用性,无法用于预测。
通常需要对样本数据按照不同的比例分割,多次切分打散后,形成类别分布合理的训练数据集和样本数据集,这样训练出的模型才会有实用价值。
每个算法模型缺省都有输入参数,在机器学习领域叫做超级参数。
这些参数应该根据实际情况进行调整和优化。这个比较好理解,如果我们把算法比作二元一次方程,自变量有两个,那么自变量对应的常量参数就相当于算法模型超级参数,对其进行调优才能让模型有更强的预测能力。
如果你将预测模型想象成直角坐标系上的一条斜线,自变量对应的常量决定了直线的斜度,而斜度决定了分类(预测)的能力。
第五步:模型评估(效果评估)
最终模型其实是在多次的验证和评估后形成的,包括:数据集分割调整、交叉验证、超参调优、模型更换等手段,最后采用性能度量的量化手段,决定最终的算法模型。
算法模型确定后,这是就可以输入新数据执行预测了,输出的标签数据就是基于模型预测后的结果。
这个也很好理解,模型就像一个多元方程式,自变量前面的常量是通过反复训练确定的,多个自变量对应着新的输入数据,多元方程式计算后输出结果值,结果值对应模型预测后的标签值。
以垃圾邮件识别为例,预测结果是1代表是垃圾邮件,为0为正常邮件。
以上是《人工智能100讲》中机器学习的分类和机器学习中有监督学习的五个步骤,后面我们会以具体实例和代码的形式进行深入介绍。
领取专属 10元无门槛券
私享最新 技术干货