以前我们总是会说我们已经步入信息时代,但是信息通常定义是指有价值的数据,因人因时因事而异。那么在这个自媒体空前繁荣、物联网逐渐兴起的新时代,人人都是数据的产生者,人人也都是数据的接受者,不妨将如今的这个时代称之为数据时代。那么如何在浩如烟海的数据之中发现有效数据?我想一从经验主义,既需要我们有一双饱含阅历的慧眼;二从技术角度,也需要我们拥有与之匹配的技术储备。
如何用数据解决实际问题
柏木吉基
也就是说用数据解决实际问题的能力,已经成为大数据时代人人必备的硬实力之一。本书摒弃了复杂的统计学原理和数学公式,紧贴多种工作场景,介绍了一套简单实用又立竿见影的方法和流程。根据本书的方法,即使没有专业背景也能轻易实现数据分析与解决问题的完美融合。
前面一段摘自书的简介,总结一下就是本书主要面向非数据分析行业的人员,是一本合格的扫盲书籍。实质上也是这样的,这本书主要使用的分析工具就是Excel,可以算是一个人人都会勇但很少有人能精通的工具,介绍的主要也是中位数、平均数、方差、标准差、一元线性回归、批量分析等一些相对浅显的概念,并没有什么高大上的算法或者什么了不得的工具。对于绝大多数从业者来说,用不到也不需要这些很复杂的东西,所以本书还是十分具有现实意义。
这里简单介绍一下书中一些所述:
一是平均数。平均数可能是应用最广、最具代表性、最便于计算的统计指标。用起来虽然方便,但是有一个陷阱。将大量的数据归纳为一个平均值,极有可能会忽略离群值的概念,数据波动越大,离群值就越多,其结果就是,“平均值未必是代表值”的可能性就越大。举个很极端的例子,假设对100个人进行问卷调查,其结果是50个人选择了“1.极不赞同”,而其余50个人全部选择了“5.极为赞同”。这种情况下的平均值是多少呢?平均值是3.然而没有一个受访者选择了“3.既不赞同也不反对”。那么这里的平均值没有太大意义,反而会掩盖掉人们意见集中在1和5的事实,这也就是不关注细节只关注整体的后遗症。
二是变异系数。标准差除以平均值得到的值叫做变异系数。能够消除数据大小的差异,就可以不必在乎原始数据的大小,从数值上来比较两者的波动程度。在下面这个例子为大规模店铺和小规模店铺的日销售额,如果只看标准差的话,显然大规模店铺的波动更大,但是事实真的如此?我们还需考虑二者的体量差异,计算变异系数可得小规模店铺的数据波动更大,也就是说,小规模店铺的经营风险相对更大。
三是相关系数。着手处理数据之前,应该首先确认目的或者问题,在此基础上提出假设,这一点非常的重要。防止主观臆断,或者将视野限定在平常所见的数据范围之内。(1)寻找接近结果的原因。最好在多个数据项中考察与结果的关系,选择关联更密切的拘束考察相关系数;(2)选择能够采取对策的原因。即使在理论上找到了很多原因,但是自己无法控制,那么在实际工作中这个分析结果也就索然无味。
上面简单说了三点,这篇文章写得很急,晚上8点多和爷爷躺在沙发上看电视才想起这周的读后感还没有写,噌噌噌的在我爸和Y同学双重干扰之中赶工排版,虽然我的flag残破不堪,但起码在2018年屹立不倒,2019继续加油。
领取专属 10元无门槛券
私享最新 技术干货