Kailash Ahirwar,Mate Lab 联合创始人,Github的一位资深作者,也是一位活雷锋,近日在其Github个人主页上发表了一个机器学习/深度学习的代码速查表,包括:
五大工具库常用代码,以及
可以说极大方便了学习者的代码查找。
附上网址:https://github.com/kailashahirwar/cheatsheets-ai,在网页上可以下载高清大图。
我们来简单介绍下
1. Scikit-learn
Scikit-learn 是 Python 上著名的机器学习工具库,可以快速实现数据预处理、交叉验证、数据可视化和各种机器学习算法。这个库真的太酷了,曾经帮数说君省了很多时间,如果再有这个速查代码,连找资料的时间也省了。
本速查表提供了loading数据、快速建模、预测、模型评价、数据预处理等代码格式,直接套用即可。我就以Scikit-learn为例,详细介绍一下该速查表包括哪些常用代码块。
(1)简单实例
表开头作者先提供了一个简单的例子,熟悉一下整个建模的代码形态:

(2)Loading the data
要想使用Scikit-learn库来建模,数据要load成可接受的数值型形式,如 NumPy 数组形式、 SciPy 的稀疏矩阵、或者是 Pandas DataFrame。速查代码:

(3)将数据分割成训练集和测试集
用train_test_split来划分,我这里补一点,可以加语句train_size=0.5来指定训练数据集的占比,比如:train_test_split (x, y, random_state=0, train_size=0.5)。速查代码:

(4)数据预处理
我们在建模的时候,有时候会做一些数据预处理,比如标准化(Standardization)、正态化(Normalization)、缺失值填充(Imputing Missing Value)等等,这一步大家经常会忽略,但其实还是很重要的。速查代码:

(5)建模
本速查表提供了Linear Regression、SVM、Naive Bayes、KNN、PCA、K Means几种的简易代码,可以快速上手使用:

(6)模型拟合
Scikit-learn 的建模特点是,先创建一个模型,设置好参数,比如my_svc:
在用这个创建的my_svc来拟合数据:
速查代码:

(7)预测
模型之后用测试数据集进行预测。速查代码:

(8)模型评价
模型表现到底怎么样?速查表按分类、回归、聚类不同的模型类型,提供了不同的评价方法:


2、Keras
Keras是一个高层神经网络API,由纯Python编写而成并基Tensorflow或Theano。速查表如下:

3、Numpy
Numpy不用多说了,是Python科学计算的核心库。它提供高性能、多维度的数组对象,以及对这些数组进行运算的工具。速查代码:

4、Pandas
Pandas更不用多说,作者提供了三张速查表,其中2张是关于数据的基本操作,如sample、head、sort等:


这张是关于数据分析、统计:

5、SciPy
SciPy也是Python科学计算的核心库,提供了一些方便计算的函数,速查代码:

6、Matplotlib
Matplotlib是Python著名的绘图库,速查代码:

7、Neural Networks Zoo
作者提供了几乎所有类型的神经网络图:

原文链接 & 高清大图下载:https://github.com/kailashahirwar/cheatsheets-ai
- END -