什么是数据分析?
数据分析是利用计算机手段发掘并呈现大数据模式的价值潜力。数据分析的目标是获得结论并辅助决策。数据是历史信息的重要度量尺度,因此数据分析的过程也是对历史信息的一种回顾。数据分析的方法在2005年逐渐变得流行,很大程度上是因为谷歌对于数据分析方式的推崇。但是隐藏在数据分析背后的原理完全不是什么新潮的东西,但是却随着时间的推移逐渐衍生出许多新的展现方式,例如控制论、大数据分析、神经网络、模式学习、大数据统计、知识发掘、数据挖掘技术甚至是数据科学。
数据分析在近些年受到了追捧主要基于以下事实,即有很多组织已经具备了搜集大数据的能力并试图发掘隐藏在数据背后的价值,并很自然的试图利用这些分析结果去提升预测能力、辅助决策过程并最终提升效率。
什么是预测性分析
预测性分析是通过数据挖掘来获得具有价值和意义的结论的过程。数据分析需要遵从很多的原则,其中有一些数据分析模式的发展历史已经超过了100年的时间,包括模式识别、大数据统计、机器学习、人工智能以及数据挖掘。那么预测性分析与这些数据处理模式之间的区别到底在哪里呢?
首先,预测性分析是一种数据驱动的处理模式,这也就意味着相较于其他的数据处理方法,算法而非假定扮演着更为重要的角色。从另一个方面来说,这种模型的建立对数据的依赖程度更高。也正是由于这一原因,这种模型能够展现数据本身更多维度的特征、参数、体量和协同因数,因而也就更为复杂。
其次,预测性分析算法能够实现数据挖掘模式的自动化。有效的预测性分析模型不仅能够提升数据的处理效率和体量,并且能够将数据的价值放大到极致。例如决策树算法,不仅能够判断出达到多种可变目标所需要的最佳候选输入值,还能利用这些可变性结果对未来进行预测。其他的还有些算法能够被用于展示研究结果,利用极限化的算法找到最优输入值组以及相关模型参数。通过发掘出尽可能多的具有价值的变量逐渐减少模型的误差。与此同时,也可以通过同样的方式排除掉对辅助决策缺乏价值的变量。
这种算法存在的另一个便利性在于目前存在很多自动化的软件包和开源程序算法能够满足多变量输入的需要,这些技术也可被有效用于预测性分析模型。例如,如果在一个模型中存在数百种输入变量用于修正模型的精确度,你可以利用简单的预测性分析软件进行一次性的导入而不必手动逐条的输入。
如果给予足够的时间,预测性算法并不能完成其他算法用铅笔和纸张无法实现的功能,但这一算法的强大之处在于无需常识性参数的辅助。设想如果一种监督式学习管理数据库具有50个输入变量,但只具有二进制即和1的输出结果。例如这种算法我们能够同时判断出到底哪一种变量和每种输出结果具有强相关关系,结果可以用直方图的方式呈现。我们可以将目标变量在直方图上进行叠加,如图1.1。由于有50个输入变量,你需要比较50个直方图之间的数据差异,这种情况在预测性分析中非常常见。
如果某次数据处理任务中需要同时对两个变量进行处理,你可以利用散点图进行分析。如果一个模型具有50个变量,那么它可能的输出散点就能够达到1225个。我们可以建立某种个性化模型对这一情况进行精确模拟,但这需要我们投入大量的时间和精力。但是利用预测性分析模式,你可能仅需要同时面对3个变量,但通过这一过程,你可以同时输出19600个3D散点,从而在三个维度覆盖住所有可能的事件结果。
通过这种方法,你可以覆盖到输入变量尽可能多的组合方式,并可以基于这种方式判断出对于最终输出结果最具有影响价值的变量。而通过这种模式产生的分析结果,想要进行检验和验算无疑也非常简单。我们进一步依据输出的19600个三维散点结果,可以找到最重要的6个参数并可通过权重矫正提升模型的精确度。我们可以设置多个三变量组合取代其它模型中的双变量分析,使得结果更加准确。此时你就可以对得到的散点进行分类了:你可以将近20000个结果分成63类。这就是分析性预测的一个优越性之所在,即可以获得数据分析中不同变量的精确权重。
领取专属 10元无门槛券
私享最新 技术干货