前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >快速入门Python机器学习(二)

快速入门Python机器学习(二)

作者头像
顾翔
发布2022-05-22 10:26:32
5480
发布2022-05-22 10:26:32
举报
文章被收录于专栏:啄木鸟软件测试

快速入门Python机器学习(二)

二、常用数据

1 使用函数生成数据

1.1 生成一个随机回归问题

X,y = make_regression()

ln_samples:样本数。

ln_features:特征数(自变量个数)。

ln_informative:参与建模特征数。

ln_targets:因变量个数。

lnoise:噪音。

lbias:偏差(截距)。

lcoef:是否输出coef标识。

lrandom_state:随机生成器的种子。

返回:

lX:形状数组(n个样本,n个特征) 输入样本。

ly:n个形状数组(n个样本,)或(n个样本,n个目标) 输出值。

lcoef:基础线性模型的系数。仅当coef为True时才返回。

1.2 生成各向同性高斯斑点用于聚类

X,y = make_blobs()

ln_samples:表示数据样本点个数,默认值100。

ln_features:表示数据的维度,默认值是2。

lcenters:产生数据的中心点,默认值3。

lcluster_std:数据集的标准差,浮点数或者浮点数序列,默认值1.0。

lcenter_box:中心确定之后的数据边界,默认值(-10.0, 10.0)。

lshuffle:打乱样本和特征,默认值是True。

lrandom_state:随机生成器的种子。

返回:

lX:生成的样本。。

ly:每个样本的聚类成员的整数标签。

lcoef:每个星团的中心。仅当return_centers=True时返回。。

1.3生成一个随机n类分类问题

data=mak_classification()

ln_samples:样本数。

ln_features:特征个数= n_informative() + n_redundant + n_repeated。

ln_informative:多信息特征的个数。

ln_redundant:冗余信息,informative特征的随机线性组合。

ln_repeated=0:重复信息,随机提取n_informative和n_redundant 特征。

ln_classes:分类类别。

ln_clusters_per_class:某一个类别是由几个cluster构成的。

lweights:列表类型,权重比。

lflip_y:随机分配类别的样本分数。较大的值会在标注中引入噪声,使分类任务更加困难。请注意,默认设置flip_y > 0在某些情况下可能会导致y中少于n_classes。

lclass_sep:乘以超立方体大小的因子。较大的值分散了簇/类,并使分类任务更容易。

lhypercube:如果为真,则聚类被放置在超立方体的顶点上。如果为False,则簇被放置在随机多面体的顶点上。。

lshift:按指定值移动要素。如果没有,则按照[-class_sep,class_sep]中绘制的随机值移动要素。

lscale:将要素乘以指定的值。如果没有,则按[1,100]中绘制的随机值缩放要素。请注意,缩放发生在移位之后。。

lshuffle:打乱样本和特征,默认值是True。

lrandom_state:如果是int,random_state是随机数发生器使用的种子; 如果RandomState实例,random_state是随机数生成器; 如果没有,则随机数生成器是np.random使用的RandomState实例。

返回:

X:形状数组[n_samples,n_features]生成的样本。

y:每个样本的类成员的整数标签[n_samples, ]。

2 Sklearn数据库

引用

from sklearn.datasets import *

Sklearn自带数据如下

数据集

函数

介绍

鸢尾花数据集

load_iris()

用于分类任务的数据集

手写数字数据集

load_digits()

用于分类任务或者降维任务的数据集

乳腺癌数据集

load_breast_cancer()

简单经典的用于二分类任务的数据集

糖尿病数据集

load_diabetes()

经典的用于回归认为的数据集

波士顿房价数据集

load_boston()

经典的用于回归任务的数据集

体能训练数据集

load_linnerud()

经典的用于多变量回归任务的数据集

红酒数据集

load_wine()

经典的用于多变量回归任务的数据集

两个月亮集

make_moons()

二分类数据集,像两个月亮一样(太极)

函数

介绍

fetch_olivetti_faces()

脸部图片数据集

fetch_20newsgroups()

用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。返回一个可以被文本特征提取器。向量化后的数据fetch_20newsgroups_vectorized(),返回一个已提取特征的文本序列,即不需要使用特征提取器

fetch_lfw_people()

打好标签的人脸数据集

fetch_lfw_pairs()

该任务称为人脸验证:给定一对两张图片,二分类器必须预测这两个图片是否来自同一个人

fetch_covtype()

森林植被类型,总计581012个样本,每个样本由54个维度表示(12个属性,其中2个分别是onehot4维和onehot40维),以及target表示植被类型1-7,所有属性值均为number,详情可调用fetch_covtype()['DESCR']了解每个属性的具体含义

fetch_rcv1()

路透社新闻语料数据集

fetch_kddcup99()

KDD竞赛在1999年举行时采用的数据集,KDD99数据集仍然是网络入侵检测领域的事实Benckmark,为基于计算智能的网络入侵检测研究奠定基础,包含41项特征

fetch_california_housing()

加利福尼亚的房价数据,总计20640个样本,每个样本8个属性表示,以及房价作为target,所有属性值均为number,详情可调用fetch_california_housing()['DESCR']了解每个属性的具体含义

fetch_species_distributions()

物种分布数据集

在这些数据里面,以下数据是经常被用到的:

l鸢尾花数据集:load_iris(),用于分类任务的数据集;

n类别:3。

n每类样品:50。

n样本数:150。

n维度:4。

n特征:实数, 正数。

n通过load_iris().DESCR获得详细内容。

l红酒数据集:load_wine(),经典的用于多变量回归任务的数据集;

n类别:3。

n每类样品:[59,71,48]。

n样本数:178。

n维度:13。

n特征:实数,正数。

nload_wine ().DESCR获得详细内容。

l乳腺癌数据集:load_breast_cancer(),简单经典的用于二分类任务的数据集;

n类别:2。

n每类样品:212(M),357(B)。

n样本数:569。

n维度:30。

n特征:实数,正数。

nload_breast_cancer ().DESCR获得详细内容。

l糖尿病数据集:load_diabetes(),经典的用于回归认为的数据集;

n样本总数:442。

n维度:10。

n特征:实数-.2 < x < .2。

n目标:整数25 – 346。

nload_diabetes ().DESCR获得详细内容。

l波士顿房价数据集:load_boston(),经典的用于回归任务的数据集;

n样本总数:506。

n维度:13。

n特征:实数,正数。

n目标:real 5. - 50. 。

nload_boston().DESCR获得详细内容。

l两个月亮集:make_moons(),二分类数据集,像两个月亮一样(太极)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
主机安全
主机安全(Cloud Workload Protection,CWP)基于腾讯安全积累的海量威胁数据,利用机器学习为用户提供资产管理、木马文件查杀、黑客入侵防御、漏洞风险预警及安全基线等安全防护服务,帮助企业构建服务器安全防护体系。现支持用户非腾讯云服务器统一进行安全防护,轻松共享腾讯云端安全情报,让私有数据中心拥有云上同等级别的安全体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档