首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

你被真实的数据骗了

转眼间,麦肯锡提出"大数据"已经十年了,如今"除了上帝,所有人都必须用数据说话"已经成为众多管理者的信条,无数的PPT和分析报告充斥着海量的数据;国人也开始拒绝"差不多"、"大概"等含糊字眼,似乎有了数据才有说服力。

在这样的背景下,呈现出一种新的情况:被真实的数据欺骗。被骗的不仅是那些刚从信息封闭世界里走出的人群,也包括久经历练的成熟管理者,被骗,有的是因为数学不好,有的则是因为心理原因,而更主要的原因,是发展太快了。

【数据量加速膨胀】

数字化的时代,技术手段越来越强大,业务应用越来越丰富,产生的数据也越来越多。EMC曾经在2010年发布过《数字宇宙十年》的研究成果,以数字的形式展现出数据的飞速膨胀。报告中称每年创建的数字信息量,2009年到2020年将增长44倍,而目前看起来这个速度还是被低估的。

这就意味着,过去我们以为的海量数据,在未来都是微不足道的;而某一领域的"小数据"和小概率事件,都可能演化为我们如今理解的"大数据"。

十五年前,中国移动在全国范围建设数据仓库,那时中国移动的规模还算不上大,企业的影响力也有限。一次在与微软的交流时,我们屡次质疑微软数据仓库技术对规模化应用的成熟度,把微软的专家问急了,说:"你们总在质疑我们的技术能不能支持TB级,我其实一直怀疑你们有没有TB级的数据。"然后不顾瞠目结舌的我们,甩门而去。于是我们得出了这样的结论:微软公司缺乏电信运营商数据仓库建设经验。

经过几年的努力,我们自豪地宣布:中国移动建成了全球最大规模的数据仓库,系统容量达1600TB,其中有效数据容量800TB。

这是十年前我们的"世界第一",没过多久,大数据时代来了,中国移动在话音时代建立起的数据仓库,其规模在流量时代显得那么保守,甚至比不上某一个业务所产生的数据。以前基于某一个数量级的分析可以摸索出规律来,如今同样的分析可能得出的结论有很大局限性,在数据分析领域里曾经的经验都不牢靠了。在这个时代我们都是学生,需要不断学习才可能跟上发展,自以为是的结果只能是自讨苦吃,自欺欺人。

【幸存者偏差的误判】

伴随着权健的热点,"幸存者偏差"的概念呈现在公众面前。这是一种常见的逻辑错误,指的是只看到经过筛选产生的结果,而没有意识到筛选的过程以及被筛选掉的关键信息,因此形成了错误的结论。典型的被筛选掉的案例包括:吃了保健品没有康复的人、中弹后飞不回来的飞机等等。(如果对这段内容感兴趣,可以去搜索《权健密码:幸存者偏差》)

除了这种极端的案例,在日常中以偏概全的现象更多。完整的数据量太大,所以在数据处理之前先要进行数据的清洗和格式转换等,在这个过程中就会筛掉很多数据和信息。有些非常有价值的数据被当作"异常数据"洗掉了。最终在惊呼中出现的黑天鹅,其实早就有迹可循,是一步步向我们走来的灰犀牛。

数据没有错,错的是数据处理的过程,再往下探一层,就是进行数据处理的人。并不是说这些数据处理者主观上有什么不良动机,而是很多时候对异常数据的识别和处理需要业务经验,而有业务经验的人不屑于去做这些底层的"体力活",这种脱节导致了数据被错误处理。

随着时代的发展,统计学、概率论等数学基础能力的普及,越来越多的业务专家意识到数据的价值,带着各自的兴趣去观察、分析各种各样的数据信息,要想不被骗,必须把自己训练得更专业。

专业人员尚且如此,如果数据分析里的一些技巧被恶意运用,那么普通老百姓有多大的抵抗能力?包含着精准的数据和成功的案例,加上颇具煽动性的激情演讲,再有知名人士和权威媒体的站台,这样的套路你能躲开多少?

【强化偏见和执行】

在海量数据面前,在广阔的互联网天地中,再偏执的观点都可能拥有相当规模的支持者。也就是说即便有99.999%的人讨厌你,你仍然可以是个万人迷。在这种环境下,如果需要找数据和支持者来证明某些观点,太容易了。

我们看到很多文章和报道,都是作者预先设定立场和观点,再去做采访或者找数据,表面看这些证据能够充分证明作者的论点,实现逻辑自洽;但事实真相未必。最近一段时间,很多以讲故事的方式报道某极端事件的热点文章,过不了多久就被反转打脸,再回头看原报道,貌似严谨的逻辑和推演竟都是以偏概全的一面之词。

这样的问题发生在舆论媒体上,虽然会在一定程度引起混乱,但往往几天之后热度过去了,没啥大不了的。但是如果企业的决策者有这样的毛病,那问题可就大了。

在鼓励改革创新的时代,很多有理想有追求的企业经营管理者,不仅追求发展的整体目标,同时还希望在某一个方向或者领域留下自己的印记。这本来是好事,但如果设定的目标过于理想化,或者错误评估改变付出的代价,那么变革可能给企业带来严重的影响。

如果管理者尊重实际情况,开诚布公地与团队沟通协商,还是能找到正确的目标以及合理的演进路径。但偏偏有的管理者强调"执行力",强硬地对待反对声音,就会引发内部的另一种风气:拿数据来证明领导英明神武,用部分数据来说明改革的成功,文过饰非,看似一片歌舞升平,其实是在错误的道路上越走越远。

前面说过,如今数据太多,可以找到论证各种论点的依据。也就是说,根据结论去找数据,就能做出一篇漂亮文章来,活生生地把科学做成了艺术,貌似解的是数学题,本质上还是在做语文,这样做出来的分析报告和规划,从逻辑上无法判断其真伪,读者对内容半信半疑,失去了价值甚至存在意义。

【结语】

总之,现如今,从海量数据中筛选出有价值信息的难度越来越大,筛选的规则和方法可能存在偏差,还有人刻意利用数据来包装掩盖真相。数据本身不会说谎,但你确实可能被真实的数据欺骗,我很讨厌这样,但是又有什么好的解决办法呢?

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190106A07FRW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券