学习机器学习已经有近半年时间了,从最初的数据统计,到数据分析,再到数据挖掘,再到机器学习,感觉一直在不断积累和深入。再次回过头来看时,似乎一切都没有想象的那么困难,技术本身都是比较简单的,难的是应用现有技术解决定向的问题,所以真正去讲解机器学习,可以用非常简要的方法来介绍。
大数据,数据挖掘,机器学习,深度学习其实是被大众喊烂的概念,不同的领域,不同知识储备的人会有不同的认知,有一张图能够戏剧性的解释这个现象:
通常解决定向问题,我们要做的就是利用现有成熟的机器学习库,简要编程语法,来进行计算训练,最终得出比较适用的模型来解决问题。那么通常我们机器学习所解决的问题类型分为分类问题、回归问题、聚类问题以及降维问题,这些问题我们可以利用scikit learn库来非常简单的完成,如下图:
根据不同的样本数量以及不同的数据特征,我们应用不同的模型算法来进行样本训练,通常我们的前辈已经有过N次试验,总结出许许多多场景和算法的最优配对,我们其实需要分析定向问题属于哪些场景,最终套用这些模型算法进行应用,从中省去了大量试错和训练的时间,比如下面论文中几种算法的实验结论分析:
当然,如果我们需要进行科研分析,或者遇到了一个非常特殊的场景,或者已有的资源和实验结论不能够满足解决当前问题场景,我们需要对于各个模型算法以及算法参数和超参数有足够的认识,并且需要大量大量大量的时间和实验去不断的调优,最红解决我们当前的问题。关于特征工程以及模型算法调优,超参数调优话题都是一个非常有深度的话题,后期我们会逐个进行极简介绍。
领取专属 10元无门槛券
私享最新 技术干货