“你不必吃完整头牛,就能知道肉老。”
统计学的一个核心功能就是使用手中已有的数据进行合理推测,以回答我们还未掌握所谓信息“大”的问题。简言之,我们能够使用“已知世界”的数据对“未知世界”进行推断。
一、引子
这张图大家很熟悉吧,有没有想过360是如何知道你的开机时间怎么就击败了全国99%的电脑的?
最近一直在看统计学,突然意识到了360数据背后的原理,速度总结下来。
二、再谈正态分布
在前面一篇六西格玛是个P(3):正态分布与假设检验里面初步认识了正态分布以及均值和标准差。
摘自《正态分布_百度百科》:
正态分布也叫常态分布,是连续随机变量概率分布的一种,自然界、人类社会、心理和教育中大量现象均按正态形式分布,例如能力的高低,学生成绩的好坏等都属于正态分布。它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态。
结论:开机时间我们推断也是正态分布。
备注:参见六西格玛是个P(1)什么是P?,如何判断正态分布。
1、68-95-99.7规则
周五下班地铁上翻完了《统计的世界 上册》,再学习一下正态分布的68-95-99.7原则(记住这三个数字):
在任何正态分布中当中,大约有:
68%的观察值,落在平均数一个标准差的范围内。
95%的观察值,落在平均数两个标准差的范围内。
99.7%的观察值,落在平均数三个标准差的范围内。
2、利用68-95-99.7原则进行计算
知道了正态分布的均值μ、标准差σ以及当前的开机时间,就可以很快的推断中大致的概率分布(更精确的计算可以采用公式)。
这里有两个前提:
开机时间符合正态分布。
根据吃牛肉原理,360只是掌握了部分用户的数据(安装了360的用户),通过这些数据可以推断整体/全国的数据分布情况。
三、统计思维:大数据时代瞬间洞悉因果的关键技能
这是前几天也很想买的一本书的名字,大家有兴趣也可以找来看看。
要想搞清楚大数据,必须要了解一点统计学,在《赤裸裸的统计学》里面也提到:统计学是大数据了时代最炙手可热的学问。
了解点统计学才能更好的挖掘数据的价值。
长按不会怀孕,还能带你涨姿势!
领取专属 10元无门槛券
私享最新 技术干货