Scikit-Learn是Python下一个机器学习相关的库,它提供了强大的机器学习工具,包括数据预处理、分类、回归、聚类、预测和模型分析等。Scikit-Learn依赖于numpy、scipy和matplotlib,因此,需要提前安装这些库才能安装好Scikit-Learn,在Python里面,Scikit-Learn写作sklearn库。
创建一个机器学习的模型很简单,如下:
代码示例
所有模型提供的接口
model.fit():训练模型,对于监督模型来说是fit(X,Y),对于非监督模型是fit(X)。
监督模型提供的接口
model.predict(X_new):预测新样本。
model.predict_proba(X_new):预测概率,仅对某些模型有用(比如线性规划)。
model.score():得分越高,fit越好。
非监督模型提供的接口
model.transform():从数据中学到新的“基空间”。
model.fit_transform():从数据中学到新的基并将这个数据按照这组“基”进行转换。
(上述内容参考于《Python数据分析与挖掘实战》一书)
数据集
Scikit-Learn库提供了许多数据集,包括:
代码示例
数据可视化
线性回归
Kmean聚类
上面只是简单介绍了两种算法,除去之外,Scikit-Learn库还提供了支持向量机,朴素贝叶斯等等多种机器学习算法。你能快速的调用库,并进行数据挖掘。
数据分析常见库的阶段就此结束了,我们基本掌握了数据分析最常使用的工具,在下一阶段,我们将开始进行数据探索。
领取专属 10元无门槛券
私享最新 技术干货