数据挖掘是从大量数据(包括文本)中挖掘出隐含的、先前未知的、对决策有潜在价值的关系、模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程。
数据挖掘建模过程包括定义挖掘目标、数据取样、数据探索、数据预处理、数据建模和模型评价。
定义挖掘目标
我们必须分析应用领域,包括应用中的各种知识和应用目标,了解相关领域的情况,熟悉背景知识,弄清用户需求。要想充分发挥数据挖掘的价值,必须对目标有一个清晰明确的定义,即决定想干什么。
数据取样
抽取数据的标准包括:相关性、可靠性和有效性,而不是动用全部数据,同时进行数据取样,一定要严把质量关。衡量数据质量的标准如下:资料完整无缺,各类指标项齐全,同时数据准确无误,反应都是正常状态下的水平。
数据探索
当我们拿到一个样本数据集后,首先看样本中有没有明显的规律;有没有异常数据;属性之间有什么相关性;可以怎样分类进行探索,主要包括:异常值分析、缺失值分析、相关分析和周期性分析等。
数据预处理
采样数据中常常包含许多含有噪声、不完整,甚至不一致的数据,对数据挖掘所涉及的数据必须进行预处理,一般包括:数据筛选、数据变量转换、坏数据处理、缺失值处理、数据标准化、主成分分析、属性选择和数据规约等。
挖掘建模
样本抽取完成之后,采用分类、聚类、关联规则、回归和时序模型等对数据进行建模,包括模式发现、构建模型和验证模型等。
模型评价
模型评价的目的就是从这些模型中自动找出一个最好的模型,另外根据业务对模型进行解释与应用。包括设定评价标准、多模型进行对比和模型优化。
领取专属 10元无门槛券
私享最新 技术干货