首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

scikit-learn随机森林分类实战

本文根据以前学习的知识,来一次相对完整的实战。

1.基础知识储备2.代码详解2.1导入数据集并获得数据信息

结果如下:

2.2 数据集划分为训练集和测试集

结果为:

由结果可知,采用随机抽取,三种不同样本的数量基本还是一致的。

2.2 采用标准模型学习并预测

正常运行,没有报错:

2.3 模型评估

结果如下:

混淆矩阵中,列标签为真实值,行标签为预测值。17个0(setosa)全预测正确,20个1(versicolor)有一个预测为了2(virginica),23个2有两个预测为了1。精确度为95%。

2.4 调参以及模型评估

采用网格搜索的方法遍历参数,以参数n_estimators以及max_features为例。

2.4.1 获得最佳参数

结果如下:

最佳模型参数并非系统默认值。

2.4.2 使用最佳模型预测

结果如下:

由结果可知,最佳的预测效果和默认的一样,这应该是由于样本数量较少的缘故,不过从侧面我们也可以看出,系统默认的各参数实际上预测的效果还是非常不错的。

3 小结

本文采用随机森林分类器,对鸢尾花数据进行学习,并采用网格搜索对参数进行优化。本文的流程是我们做机器学习的基本套路,各种细节后续将逐渐涉及。加油吧!

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180106G0RJL700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券