首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用scikit-learn构建数据集

欢迎关注”生信修炼手册”!

数据是机器学习的必备条件,输入数据的质量高低,是影响机器学习模型效果的决定性因素条件之一。对于机器学习的学习者而言,拥有一个数据集来练手是第一步。在scikit-learn中,提供了多种构建数据的方法

1. 简单数据集

在机器学习领域,有很多常用的数据集,在scikit-learn中,内置了这些常用数据集,通过对应的函数可以直接加载,对于回归算法而言,常用数据集的加载函数如下

1. load_boston()

2. load_diabetes()

3. load_linnerud()

对于分类算法而言,常用数据集的加载函数如下

1. load_iris()

2. load_digits()

3. load_wine()

4. load_breast_cancer()

以load_iris为例,具体的用法如下

返回结果是一个类似字典的结构,data对应输入矩阵,每一行表示一个样本,每一列表示一个特征,target表示的是输入矩阵中的样本对应的标签。

也可以修改参数,分别返回data和taret两个数据,用法示意如下

2. 真实数据集

这里的真实数据集也是经典的数据集之一,只不过数据量较大,所以没有内置在模块中,采用了从网络上下载的方式,对于回归算法而言,有以下加载函数

1. fetch_california_housing()

对于分类算法而言,有以下加载函数

1. fetch_olivetti_faces()

2. fetch_20newsgroups()

3. fetch_20newsgroups_vectorized()

4. fetch_lfw_people()

5. fetch_lfw_pairs()

6. fetch_covtype()

7. fetch_rcv1()

8. fetch_kddcup99()

具体用法示例如下

3. 模拟数据集

scikit-learn模块内置了许多随机函数来生成对应的模拟数据集,make_blobs可以生成符合正态分布的数据,用于聚类,用法如下

返回值是一个元组,第一个元素是输入矩阵,第二个元素是标签矩阵,对其数据进行可视化

输出结果如下

除了该函数之外,还有一系列创建聚类数据集的函数,用法如下

针对分类算法,则采用make_classification函数,用法如下

针对回归算法,则采用make_regression函数,用法如下

4. 其他数据集

针对openml.org这一开源的机器学习网站,提供了下载其数据集的函数,用法如下

对于没有数据集练手的初学者而言,这个数据集的构建功能真的是及时雨,可以让我们更加专注于下游数据处理,模型搭建和验证的学习中去。

·end·

—如果喜欢,快分享给你的朋友们吧—

原创不易,欢迎收藏,点赞,转发!生信知识浩瀚如海,在生信学习的道路上,让我们一起并肩作战!

本公众号深耕耘生信领域多年,具有丰富的数据分析经验,致力于提供真正有价值的数据分析服务,擅长个性化分析,欢迎有需要的老师和同学前来咨询。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210118A0E1RE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券