根据问题特点选择适当的估计器estimater模型:
分类(SVC,KNN,LR,NaiveBayes,...)
回归(Lasso,ElasticNet,SVR,...)
聚类(KMeans,...)
降维(PCA,...)
一,分类模型的训练
二,回归模型的训练
三,聚类模型的训练
KMeans算法的基本思想如下:
随机选择K个点作为初始质心
While 簇发生变化或小于最大迭代次数:
四,降维模型的训练
PCA主成分分析(Principal Components Analysis)是最常使用的降维算法,其基本思想如下:将原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,从而保留样本尽可能多的信息,并且m个特征互不相关。
用几何观点来看,PCA主成分分析方法可以看成通过正交变换,对坐标系进行旋转和平移,并保留样本点投影坐标方差最大的前几个新的坐标。
通过PCA主成分分析,可以帮助去除样本中的噪声信息,便于进一步做分类或回归分析。
五,管道Pipeline的训练
使用管道可以减少训练步骤
有时候,我们可以用管道Pipeline把多个估计器estimater串联起来一次性训练数据。
管道的原理是把上一级估计器的输出作为下一级估计器的输入,相当于一条数据流水线。
例如下面常用的管道有3级,第一级进行数据预处理,第二级完成数据降维,第三级实现分类、回归或聚类功能。
管道中除最后一个之外的所有estimators都必须是变换器(transformers),最后一个estimator可以是任意类型(transformer,classifier,regresser)
管道本身可以看成一个超级estimater,可用GridSearchCV等方式进行超参数优化。
六,使用特征联合FeatureUnion
Pipeline是estimater的串联,而FeatureUnion则是estimater的并联。但是FeatureUnion并联的只能transformer转换器.
FeatureUnion 合并了多个转换器对象形成一个新的转换器,该转换器合并了他们的输出。输出的样本向量被横向连接成更长的向量。
可以结合FeatureUnion 和 Pipeline 来创造出更加复杂的模型。
Python与算法之美
(Python_Ai_Road)
领取专属 10元无门槛券
私享最新 技术干货