内容摘要
鸢尾花分类是机器学习教科书的经典案例,数据集需要切分为训练和测试两份,前者用于构建算法模型,后者用于验证算法模型,原始数据经过标准化以后,采用分类算法进行训练,用准确率指标验证模型性能,借助图形化方式查看分类效果。
文章编号:AI-0007-V1.1
所属类别:人工智能
文章正文
鸢尾花分类已经成为机器学习教科书的经典案例,下面我们就一起看看机器学习是如何实现鸢尾花分类的。
分类方法有很多,最为简单的一种是线性分类法,线性分类法又分为可线性分和不可线性区分两种情况,如下图所示:
从上面可以看出,左图中用蓝色加号和红色圆圈代表的两类数据。用一条直线区分,属于可线性区分。
右图是红色圆圈的一类数据包围了用蓝色加号标识的另一类数据,很明显,两类数据不太可能用一条简单的直线区分出来,因为为不可线性区分。
中间图中蓝色加号和红色圆圈相互混杂交叉,一条直线也难以分开两类数据,同样属于不可线性区分。
机器学习分为有监督学习和无监督学习两大类型,而本文所说的有监督学习包括分类和回归两种类型,实现分类的步骤为:
1、选择特征并收集打标签的训练样本数据;
2、选择性能指标;
3、选择分类与优化算法;
4、评估模型性能;
5、算法优化。
鸢尾花分类属于有监督学习分类,实现过程如下:
1、提取并加载鸢尾花样本数据;
2、将样本数据集切分为训练数据集和测试数据集;
3、对训练数据集和测试数据集进行标准化处理;
4、对标准化后的训练数据集进行训练,以构造算法模型;
5、查看模型预测结果的准确度;
6、图形化显示模型预测结果。
可以采用Python、Scikit-learn等软件工具,实现鸢尾花分类结果的可视化,如下图所示:
从上图可以直观地看到鸢尾花分类的结果,红色方块0代表类别1、蓝色叉号1代表类别2、绿色圆圈2代表类别3,测试数据集中鸢尾花的类型用白色圆圈表示。
领取专属 10元无门槛券
私享最新 技术干货