在上篇文章中我们说到,大数据就是“全数据”,就是把所有的数据都用上。区别于传统的统计学抽样调查。
其实这样说是不严谨的,即使是大数据也离不开抽样调查。在很多时候,即使把所有数据都用上,将数据作为一个整体去分析,仍然会出现偏差。这是因为,把所有数据作为一个整体来看,它本身就是一个大的抽样样本,它不能完全代表更大的整体,甚至由于这个样本抽取的随机性不够还会造成更大的错误。
在2016年的美国大选中,所有的大数据都预测希拉里的胜算更大,选举结果大跌眼镜:喜剧表演艺术家特朗普胜出,当选美国总统。
为什么科技如此先进的美国,大数据预测会失灵?
这是因为,大数据在源头就出现了问题。例如采集Twitter的帖子和评论来分析,可能会采集到上亿条数据,数据量足够大。但是即使如此之大的数据量,也只能代表Twitter用户的观点,而美国选民中的Twitter用户只占一部分,还有很大一部分是不用Twitter的。
收集Twitter数据来做分析,就等于在整体中进行抽样,只抽取了Twitter用户,如此抽样随机性会大打折扣。统计学家已经证明,抽样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。
根据选举后的分析,特朗普之所以能够胜出,是因为他赢得了众多美国底层白人的选票,而这些人很少有人使用Twitter。
虽然这次预测动用了大数据的分析能力,但是在最开始就犯了统计学里面抽样随机性低的错误,最后预测结果不准确就成了很正常的事。
另外,技术和成本也是重要的考量因素。当今社会数据的产生在爆炸式增长,但储存这些数据的技术成长速度并没有那么快。并且,收集、存储、调取、计算所产生的成本是巨大的。一家大型的数据公司其每年的电费就可能超过千万人民币。这时如果每次计算都调取整体数据,所造成的巨额成本可能得不偿失,随机调取一部分数据来推测整体就成了性价比最高的做法,
领取专属 10元无门槛券
私享最新 技术干货