本文根据以前学习的知识,来一次相对完整的实战。
1.基础知识储备2.代码详解2.1导入数据集并获得数据信息
结果如下:
2.2 数据集划分为训练集和测试集
结果为:
由结果可知,采用随机抽取,三种不同样本的数量基本还是一致的。
2.2 采用标准模型学习并预测
正常运行,没有报错:
2.3 模型评估
结果如下:
混淆矩阵中,列标签为真实值,行标签为预测值。17个0(setosa)全预测正确,20个1(versicolor)有一个预测为了2(virginica),23个2有两个预测为了1。精确度为95%。
2.4 调参以及模型评估
采用网格搜索的方法遍历参数,以参数n_estimators以及max_features为例。
2.4.1 获得最佳参数
结果如下:
最佳模型参数并非系统默认值。
2.4.2 使用最佳模型预测
结果如下:
由结果可知,最佳的预测效果和默认的一样,这应该是由于样本数量较少的缘故,不过从侧面我们也可以看出,系统默认的各参数实际上预测的效果还是非常不错的。
3 小结
本文采用随机森林分类器,对鸢尾花数据进行学习,并采用网格搜索对参数进行优化。本文的流程是我们做机器学习的基本套路,各种细节后续将逐渐涉及。加油吧!
领取专属 10元无门槛券
私享最新 技术干货