数据真正的价值,并不在于其统计或计算结果,而在于人们能对其做出正确的解读。
年轻人更爱保健品?
(PS,出于保密需要,这里暂且放一张P过的图来示意)
请问,哪个年龄段的人才是该产品的典型用户?对于这个问题,我一共听到过三种答案。
第一种认为是30—39岁。如果你问他为什么,很显然,因为那部分柱形图最高……
第二种认为是25—29岁。因为虽然它高度只是第二,但它的年龄跨度只有5岁,仅仅是30—39岁跨度的一半。
第三种则认为18—29岁都是,道理跟第二条类似,不再多解释。
那么,究竟哪种答案才更加正确呢?我估计大部分人都会选第二种或者第三种吧?
最开始我也是这样解读的,认为该产品的典型用户就是“年轻人”。(若按照国家统计局的标准,也就是15—34岁的人)
而实际上,该产品属于健康食品,主打“排毒”“减肥”“降三高”“治便秘”“抗酸”的功效(你先别笑它卖点太多不够聚焦),而这些功能属性,除“减肥”以外,我相信不少人都会跟我一样——若用常识来判断,它们应该更偏向中年人。
然而,数据结果却与常识判断相互矛盾……这时候,你到底该相信数据还是相信常识呢?
战斗机应该加固机身还是机翼
还有个故事,被很多人拿来说过。
在二战期间,盟军的战斗机在战斗中损失惨重,于是盟军总部秘密召集了一批物理学家、数学家来专门研究“如何减少空军被击落的概率”。
当时军方统计了所有返航飞机的中弹位置,发现机翼部分中弹比较密集,而机身和机尾的中弹比较稀疏,因此当时普遍的建议便是:应加强机翼部分的防护。
然而,统计学家沃德却提出了一个完全相反的观点,他认为应加强机身和机尾部分。
沃德教授说:“所有的样本都是成功返航的飞机,也就是可能正是因为机翼遭到攻击,机身和机尾没有遭到密集的攻击,所以才使得这些飞机能够成功返航。”
后来又经过一系列有力的论证后,军方果真采用了他的建议。事后也证明这的确是无比正确的决策,有效降低了空军被击落的概率。
这个故事讲的就是所谓的“幸存者偏差”
幸存者偏差是指:当取得资讯的渠道仅来自于幸存者时,此资讯可能会存在与实际情况不同的偏差。(因为死人不会说话)
那它跟之前用户画像的例子有什么关系呢?关系很大。
数据+常识,结论才更准确
在战斗机的故事里,开始的统计方法没有问题,收集到的数据也不会撒谎。
但它只能展示出有数据(幸存者)的那部分信息,而无法展示没有数据(阵亡者)的那部分信息,它是片面的。
而本文的第一个案例中,如果用收集到的用户数据来判断产品的用户特征,其实是忽略了那些使用了产品但没有扫码的用户的数据。而这里有很多可能的因素会影响结果,比如:
• 不同年龄段的人拥有不同的扫码习惯——可能年轻人更愿意扫码,而中、老年人大部分都没有扫码习惯。
• 扫码的人不一定是产品的用户——也许是年轻人买了该产品送给长辈,然后自己去扫了码。
• 说服人们扫码的文案也会有影响——假如你说“扫码享优惠”,那最终扫码的可能就更偏向于那些“精打细算”的用户,而不是所有用户。
大数据,虽然有一个大字,但毕竟不是所有的数据。因此,回到文章最开始的问题——哪个年龄段的人才是该产品的典型用户?
结论是:无法仅通过该数据就得出结论,或者说,即使得出一种论断,也不准确。
是的,到目前为止,我依然更偏向于结合常识再来解读,而不只是从数据本身——认为中年人才是它的典型用户。(估摸着至少也是30岁以上)
知识丰富,更能做出正确解读
常识又是什么?它是一个心智健全的成年人应该具备的基本知识,包括生存技能、基本劳作技能、基础的自然科学以及人文社会科学知识等。
不可否认的是,常识跟数据一样,都是片面的。并且每个人的常识都不尽相同,质量参差不齐。
不过这里想说的重点是:相比于数据,常识能从更多得多的角度去分析一个事物。
因为人类的大脑很奇妙,它能把很多看似无关的事物联系在一起,知识越丰富,就越能更好组合不同信息。这一点,是任何计算机都很难以数据的形式做到的。
这就是为什么,在期望得到一些分析时,我们更倾向于听到权威专家们的意见。他们掌握的知识更多,面对同样的数据,也往往能做出更为准确的解读。
- -
筷子哲学
人们可通过观察“一根筷子折得断,十根筷子折不断”的现象,解读出一个与之毫不相关的道理——团结就是力量。
而同一个现象如果交给计算机去处理,仅从数据来说,那最后的结果就肯定只能与“材料”“扭矩”和“力度”等相关...
- -
奶奶去世的真相
迈克·亚当斯曾做过的一项研究,他发现美国大学生期中考试临近时,奶奶去世的可能性是平时的10倍,而期末考试时是平时的19倍(数据来自各高校收到的请假邮件和推迟交论文的申请)。
若单看数据,你也许会认为学生的学术压力会对奶奶的健康造成影响(的确有科学家对此做过研究);但若用常识去思考,那就很简单了——为躲避考试,学生们编造了“奶奶去世”的请假借口。
这就是常识与数据的区别——常识是多维的,数据是单维的。
数据不骗人,但解读不好会坑人
我以前举过一个例子。据《2017社会大学英雄榜》显示,国内登上胡润百富榜的2000多位资产超二十亿的富豪中,有一半的人都是低学历(本科以下学历)。
请问,从这条新闻中你能读出什么结论?我想肯定有很多人会认为:学历的高低跟收入的确没什么关系。
然而,这种解读是错的。正确的解读方式是什么呢?
中国在2016年末大约有13.8亿人口,其中本科及以上的只有3800万,本科以下则有13.42亿——低学历的人本来就比高学历的人多得多(35倍),而它们进入榜单的人数基本相同。因此,拥有高学历的人进入百富榜的概率,是低学历的35倍。
在这个例子中,所有的数据都是真实的。但如果你只看到一部分数据,而没有看到其他数据,那就很容易被数据给坑了,得出错误的结论。
当然,要想得出更加准确的结论,这里还需挖掘更多的数据。比如富豪们的年龄分布,毕竟不同年龄段人群的学历分布是不一样的;所属行业的分布,不同行业对学历的要求与相关程度是不一样的;高学历的收入与低学历的收入的总体对比情况...
如果你不是专门学统计的,相信在加入这么多因素之后,一定会崩溃掉……不过你也不用慌,因为大部分情况下,你根本就没有机会能知道这么详尽的数据,只能尽可能多了解、多渠道解读。
对数据的正确解读,比其本身更有用
通过上面的种种案例,我们得出一个结论:数据真正的价值,并不在于其统计或计算结果,而在于人们能对其做出正确的解读。
在现代的餐饮业,数据的作用越来明显,我们要看数据的来源、体量,以及从什么角度解读。
显然,在下定论之前,多了解一点,犯错的几率就会小一点,多看到一面,你离客观的真相就更接近一点,这就是进步。
就像在餐饮业,数据和常识都会告诉我们,90后的消费者意见成为消费的主力军,那么我们就要去讨好90后吗?事实上,另一组数据证明,80后们更愿意在公开渠道为餐厅写点评,讨好他们后,才更容易为自己的品牌塑造良好的形象。
如果仅凭单方面数据就武断得出结论,并且笃定得不行,那无论数据样本有多大,你的结论和真实情况都很可能是天差地别的。
解读2018年的餐饮业,我们更全面
餐饮行业里,每天都在产生巨大的数据体量
怎么样分门别类去做分析?
怎样让数据落地到餐饮门店的运营中去?
解读,唯有多人、
多维度的深入解读,
才能真正发挥其价值。
领取专属 10元无门槛券
私享最新 技术干货