数据挖掘是指有组织有目的地收集数据、分析数据,并从这些大量数据提取出需要的有用信息,从而寻找出数据中存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。数据挖掘是一种从大量数据中寻找存在的规律、规则、知识以及模式、关联、变化、异常和有意义的结构的技术,是统计学、数据库技术和人工智能技术等技术的综合。
葫芦娃
数据正在以空前的速度增长,现在的数据是海量的大数据。现在,不缺乏数据,但是却面临一个尴尬的境地——数据极其丰富,信息知识匮乏。 海量的大数据已经远远超出了人类的理解能力,如果不借助强大的工具和技术,很难弄清楚大数据中所蕴含的信息和知识。重要决策如果只是基于决策制定者的个人经验,而不是基于信息、知识丰富的数据,那么,这就极大地浪费了数据,也极大地给我们的商业、学习、工作、生产带来不便和巨大的阻碍。所以,能够方便、高效、快速地从大数据里提取出巨大的信息和知识是必须面对的,因此,数据挖掘技术应运而生。数据挖掘填补了数据和信息、知识之间的鸿沟。
挖掘
数据挖掘常用的方法有:分类、聚类、回归分析、关联规则、神经网络、特征分析、偏差分析等。这些方法从不同的角度对数据进行挖掘。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。
算法
领取专属 10元无门槛券
私享最新 技术干货