“借着年终总结,回顾个好用的数据挖掘工具。”
WEKA是一个貌似比较小众的数据挖掘工具,在应用的普遍性上远远不如R、Python等软件。我在机缘巧合之下,从一门课程里学到这个工具,其轻便性、用户友好性给我留下了很深的印象,在此广而告之。
01
—
WEKA简介
那么问题来了,WEKA是什么?
新西兰秧鸡?
不不不,不是这个WEKA。
02
—
界面展示
接下来展示一下WEKA的界面。
可以通过https://sourceforge.net/projects/weka/?source=directory下载weka。
一般使用探索环境就可以完成常用的挖掘分析任务了。
进入探索环境之后,主页是数据预处理选项卡,可以看到选项卡中还有分类、聚类、关联、变量选择和可视化几个。
在预处理界面中,可以选择并打开数据集、选择预处理方法、对数据集做基本的统计、各个变量的展示以及编辑记录和属性。
然而略坑爹的地方是,WEKA默认的数据格式是独有的。
WEKA在自带的data目录里有很多示例数据集,其他地方就真的木有见过arff这种文件格式了。
03
—
算法应用
既然选择了IRIS数据集,就以此为例探索分类算法的实现。让我们移步到classify选项卡。
WEKA的结果输出是我非常喜欢的一部分功能,模型介绍、分类准确率等都很整齐,很方便的对比几个模型的效果。
04
—
总结
总而言之,WEKA是一款轻便的、免费的数据挖掘的软件(对应于SPSS公司商业数据挖掘产品--Clementine )。界面式操作,使有数据挖掘基础的使用者轻松上手,不用再学习工具使用上花费时间。
WEKA的不足之处是,算法的专有名词太多,需要去看简介才能理解各个参数的含义;输入输出比较固定,使用上不够灵活,可以自己开发算法接入,但是需要写JAVA。
因此,WEKA比较适用的场景是,知道数据挖掘算法原理但不太会实际操作的统计人员轻松完成算法的实现,以及数据比较干净、使用常规方法即可解决问题懒得写代码的情况。作为一个数据挖掘从业人员,使用如此菜鸟的工具并没有觉得不够高级,毕竟各种工具的使用并不是为了限制我们的思路,而是为了快速精准的解决问题。
以下可以获得关于WEKA的帮助:
•下载: https://sourceforge.net/projects/weka/?source=directory
•优酷教学视频:http://list.youku.com/albumlist/show?id=19657545&ascending=1&page=1
领取专属 10元无门槛券
私享最新 技术干货