我就在这里等你关注,不离不弃
——A·May
R-55T-68
模型篇再总结
1.甄别模式
待补充
无监督的甄别模式
非均衡数据的处理方法
2.关联算法
待补充
关于复杂网络的分析
3.分类
待补充
详细的决策树
分类回归树
详细的SVM支持向量机
4.聚类
待补充
EM聚类
BIRCH聚类
SOM网络聚类
DBSCAN聚类
5.回归模型
主成分
时间序列
待补充
完整的时序分析过程
假设检验(差异分析)
学习心得
R语言有多难?学学就知道。
最开始,以为R语言只是数据分析软件,学会运用R中的共享包就可以了。谁知道,R里面有那么多包,每个包里还有数量不等的函数,每个函数里还有数量不等的参数。然后就觉的我以为的我以为,还只能是我以为。如果,你有那种越学越发现自己学的知识R语言中的一丁点东西,那么恭喜你,因为你已经在敲R的大门了。如果,你发现R怎么这么难学,怎么学也记不住,可能有的东西理解都是问题,这也恭喜你,因为这样的你已经在R的世界开始里撞车了。
那么,怎样才能算学好R呢?这个标准我现在也说不清。在我看来,R世界里最顶尖的人物,就是能够参加R会议的那些大佬们,不知道你们有没有看他们的主题演讲稿,真的是厉害。然后,还有在统计之都和R语言中文社区的中发文的超级牛人。明显感觉他们的研究层次是S级的话,我现在在做的事也就是个C级,可能C级的水平还不到。
在思考这个问题的过程中,我给自己制定了3个关于学好R语言的标准——流畅的数据管理编码书写、能够表清意义的绘图操作和有目的性的数据分析。
流畅的数据管理的编码书写,如何实现这个标准呢?我的答案也有三点,首先,做好基本数据管理的练习,基本数据管理的练习包括十个方面,参考R语言 Again—新发现2;其次,熟练掌握sqldf的使用,也就是SQL语言的使用,这也是我学习SQL的主要原因,sqldf可以实现数据管理的绝大部分操作,在一定程度上代替自定义函数不是问题;最后,是懂得apply族函数,因为这一类函数能应用自定义函数,学习R,不学习R编程,你会感觉少一步,质的飞跃,无论怎样,建议学习。
能够表清意义的绘图操作。一方面,利用plot函数实现在数据探索性分析和描述性分析过程中的绘图操作,请参考R语言基础绘图&探索性分析【1】等一系列文。另一方面,专注ggplot2三十年不动摇,没有什么原因,这是应该的。
有目的性的数据分析,实际上这句话再加上一个实用性,是最好的不过了。这里的数据分析是指CRISP-DM整个数据挖掘流程,而非是狭义的建模分析,这个过程我觉的需要训练三个方面的内容:第一,理解案例。这个东西需要不断的看案例,独立分析案例,可以不用R实现分析过程,但是需要懂得一个案例存在什么问题、能够分析什么问题、这些问题有哪些分析方法、这些方法的适用性和限制条件、以及如何评价,这是金字塔原理的S部分。第二,懂得统计学和建模原理。培养对有关数字或者数据问题统计学意义的敏感度,简单问题的原理,我们可能不需要掌握,但是一些有深度的模型,其建模的参数和其原理是联系在一起的,你不学?不学的话,做出模型看不懂呀!第三,在类别问题和处理类别问题的模型上要有侧重,比如聚类问题,最易懂的层次聚类是一定要学好的,但是高级的方法比如SVM或者B-P神经网络,也要掌握一个,这个掌握的程度是能够直接写出模型的编码来!!!。但是一定要所有的方法都会用么?不用的,懂得原理就好了,用的时候,我可以来公众号里查,当然你们也行。
学海无涯,无论学好R的标准究竟是什么,学习始终是一件不能停下来的事,即使现在的我可以做到上面的三个标准,但是还有例如R的爬虫等一系列的方法等着我去掌握。
其实,学R也不难,有决心,能坚持,就够了。
我是May,明天见!
R语言前部分的总结
都在下面
学习数据挖掘交流平台
领取专属 10元无门槛券
私享最新 技术干货