每个想了解最新大数据资讯的人,都关注了我
文 / 数据君
在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。因果关系还是有用的,但是它将不再被看成是意义来源的基础。
在大数据时代,即使很多情况下,我们依然指望用因果关系来说明我们所发现的相互联系,但是,我们知道因果关系只是一种特殊的相关关系。
相反,大数据推动了相关关系分析。相关关系分析通常情况下能取代因果关系起作用,即使不可取代的情况下,它也能指导因果关系起作用。
曼哈顿沙井盖(即下水道的修检口)的爆炸就是一个很好的例子。
每年,因沙井盖内部失火,纽约每年有很多沙井盖会发生爆炸。重达300磅的沙井盖在轰然塌在地上之前可以冲出几层楼高。
这可不是什么好事。为纽约提供电力支持的联合爱迪生电力公司(Con Edison)每年都会对沙井盖进行常规检查和维修。过去,这完全看运气,如果工作人员检查到的正好是即将爆炸的就最好了,因为沙井盖爆炸威力可不小。
2007年,联合爱迪生电力公司向哥伦比亚大学的统计学家求助,希望他们通过对一些历史数据的研究,比如说通过研究以前出现过的问题、基础设施之间的联系,进而预测出可能会出现问题并且需要维修的沙井盖。如此一来,它们就只要把自己的人力物力集中在维修这些沙井盖上。
这是一个复杂的大数据问题。光在纽约,地下电缆就有15万公里,都足够环绕地球三周半了。而曼哈顿有大约51000个沙井盖和服务设施,其中很多设施都是在爱迪生那个时代建成的,而且有二十分之一的电缆在1930年之前就铺好了。
尽管1880以来的数据都保存着,却很杂乱,因为从没想过要用来进行数据分析。这些数据都是由会计人员或进行整修的工作人员记录下来的,因为是手记,所以说这些数据杂乱一点也不为过。
比如说,常见的“服务设施”代码就有38个之多,而计算机算法需要处理的就是这么混乱的数据:
SB,S,S/B,S.B,S?B,S.B.,SBX,S/BX,SB/X,S/XB,/SBX,S.BX,S&BX,S?BX,S BX,S/B/X,S BOX,SVBX,SERV BX,SERV-BOX,SERV/BOX,SERVICEBOX……
负责这个项目的统计学家辛西亚·鲁丁(Cynthia Rudin)回忆道:乍看这些数据的时候,我们从未想过能从这些未经处理的数据中找出想要的信息。我打印了一个关于所有电缆的表格。如果把这个表格卷起来的话,除非你在地上拖,不然你绝对提不起它来。
而我们需要处理的就是这么多没有处理过的数据。只有理解了这些数据,才能从中淘金,并倾己所有创建一个好的预测模型。
鲁丁和她的同事必须在工作中使用所有的数据,而不能是样本,因为说不定,这成千上万个沙井盖中的某一个就是一个定时炸弹,所以只有使用“样本=总体”的方法才可以。
虽然找出因果关系也是不错的,但是这可能需要一个世纪之久,而且还不一定找得对。
要完成这项任务,比较好的办法就是,找出它们之间的相关关系。相比“为什么”,她更关心“是什么”。但是她也知道当面对联合爱迪生电力公司高层的时候,她需要证明选择方案的正确性。预测可能是由虽然找出因果关系也是不错的,但是这可能需要一个世纪之久,而且还不一定找得对。最重要的因素是这些电缆的使用年限和有没有出现过问题。
讽刺的是,这个发现非常有意义,因为联合爱迪生电力公司的高层们可以在此基础上,迅速进行沙井盖事故可能性排序。但是,这些因素看起来会不会太过明显了?
好吧,既是又不是。因为一方面,就像数学家邓肯·沃茨(Duncan Watts)说的,“一旦你知道了结果,一切都很容易。”但是另一方面,我们不能忘记最开始的时候我们可是找出了106种预警情况。如何权衡以及优先修理成千上万个沙井盖中的哪一个,这不是那么容易做出决定的,因为各种各样的因素加入到了这个庞大的数据库中,而且这些数据记录的方式使得它本来就不适合处理分析。
这个例子说明了数据正在以新的方式帮助我们解决现实生活中的难题。
主题 |数据应用生活
插图 | 网络来源
作 者 介 绍
数据君:)
了解大数据,关注大数据观察
部分图文来自网络,侵权则删
我想给你一个理由 继续面对这操蛋的生活
领取专属 10元无门槛券
私享最新 技术干货