作为毕业2年的文字工作者,小编深知写作是件尤其苦逼的事。它真不是那种你只要坐下来、集中注意力,就能咔咔干的活儿。除了坐下来、集中注意力,恰到好处的氛围、不断升腾的情感、一种身体放松而意志紧绷的状态······这些都缺一不可,现在天天天的开放命题简直太烧脑了,好怀念高考那种“纯粹”的创作气氛。
Anyway,昨天又到了一年一度的“高考作文吐槽大会”,毕竟除了作文,现在的我们根本看不懂其他科目的题目了不是,看了各地的作文题目,小编一开始还暗自庆幸“还好自己生得早啊”,咦,只是刷到这道题时,
这个这个这个这个,对于诸葛君来说,摆明了是道送分题。
先来破题,这就是著名的“幸存者谬误”理论,喂啊~先别走,这理论一点儿都不高深,战斗机离咱太远,其实日常生活中就有很多来自于幸存者谬误的错觉,比如“情歌总是老的好”,并不一定是因为过去那个年代的词曲创作水平更高,更多可能是因为年深日久还能脍炙人口的,都是幸存下来的经典;比如“远到的和尚会念经”,倒不一定是逆向歧视,还真有可能是因为若非高僧大德真有两把刷子,谁会大老远的跑来跑去巡回讲经?类似的例子还有很多,比如我们读到的(被译成中文的)外国文学都那么经典,我们看到的(影视作品里的)外国人都那么漂亮,外国人觉得(到他们那儿来旅游的)中国人都那么有钱······
如果小编是这届考生,作文题就有了 《警惕大数据里的“谬误”》
一说到大数据,你会想到什么?我想到的是,密密麻麻的数字代码,如蜘蛛网般纵横交错,它们在我们不知道的地方,监视着我们的一举一动,令人心生畏惧。
你想啊,你走进KTV,点歌机推荐的歌曲居然都是你的“拿手曲目”,这是为什么?网上购物,曾经慢到让人“抓狂”的送货时间如今缩短到30分钟,这又是为什么?在原本可以堵出“怒路症”的道路上开车,突然连遇了20个绿灯,这又是为什么?
没错! 大数据正在走进我们的生活,哪里交通拥堵、哪里人流量增多、哪里的空气质量不好,这些都是大数据在背后帮你。真正的大数据时代才刚刚开始。不过,生性多”疑”的小编,又要不禁的问:“数据,真的准确无误吗?”“我们未来的吃穿住行,可以完全仰仗数据统计所提供的讯息吗”?
打个比方,你去某地游玩,想在当地找一家好吃的店,在手机上一搜再按评分排序,再看看评价,很快锁定了一家评分靠前、评价不错的小档口。但结果有没有让你失望过?那里的小吃是不是虽然不算难吃,但也真的算不上好吃呢?更谈不上能代表当地特色美食的水准吧?可是,为什么这样的小吃店在网站上的评价这么高?难不成他们雇佣了水军?
其实也没那么复杂。问题在于,数据是按照“所有人”统计得出的结果。味道好,但价格偏高的餐厅的评分一般趋于两极化,少数人会因为味道给高分,而多数人可能会嫌价格不划算、分量没吃饱,结果分值就被拉下来了。
而相反,如果这家餐厅走的是经济实惠风格,对于少数舌头比较挑剔的客人来说,他们一开始恐怕就不回来,来也是极少数人,他们在评分中所占的权重很小;而大部分客人对味道的要求不是那么严格,所以只要餐点的水准达到一定的程度,就会觉得这家店已经够好吃了,于是纷纷给高分,结果分值就拉高了。
明白了吧。不是评分不可靠,而是评分者的口味,呈现金字塔分布的时候,平均分越高的餐厅,往往越贴近于基础人群的标准。这种情况,我们在电影评分、流行音乐榜单中,也经常会看到。
这种统计学的陷阱,我们把它称为“辛普森悖论”。1951年,英国统计学家辛普森曾提出:在分组比较中都占优势的一方,在结果中反而变成劣势的现象。那么,发生这种现象的原因究竟是什么?简单来讲,就是因为权重不同导致了结果的不可信。只有我们意识到这些悖论的存在,我们才能在数据中分辨出来。当发现悖论发生时,需要结合环境找出导致这一现象的其他因素。
那我们知道了这一点之后,又有什么用呢? 当我们知道了点评网站是会受到“辛普森悖论”的误导,食客权重比例不一样,导致了结果的不可靠。那么,如果你是那种除了味道之外,对其他条件都不太在意的吃货,与其参考大数据的评分,倒不如还是去建立一个“焦点团体”,也就是重点参考你身边那些特别会吃的朋友的意见。
这也就是为什么举世闻名的米其林餐饮指南,他们对餐厅好坏的评鉴,不是开放由所有的顾客投票,而是派出专业的审查员,一家一家的打分,为的就是怕专业人士的评分,在不同的权重下被牺牲掉。
以上,就是一个吃货小编在数据上的一些发现和领悟,当然作为诸葛的小编,在文章结尾必须拔高下,咳咳
这样来看大数据可能会让人失望,但是这同样是我们需要大数据的理由,因为从数据中获得的见解越来越少,所以我们必须收集精准的数据让我们拥有科学的视角获得相对准确的洞察。
因此,当我们在分析数据/运行试验时,要对数据谬误保持警惕。当你在分析数据时,考虑以下因素可以降低你成为数据谬误受害者的几率:
1、分析数据或者运行试验之前,确保你已经提前定义假设条件。
2、思考你的数据:数据是怎样收集的?数据的收集方式是否会对你的试验结果产生潜在的偏离或者负面影响?
3、考虑还有哪些数据或者变量你没有发现。是否有其他研究与你的研究相矛盾?是否还有其他附加变量你没有考虑进去?
4、如果你再收集一次数据是否会得出不一样的结果?是否是随机变量影响了你的数据?
5、尝试将数据可视化而不是仅依靠数据统计度量。
-八大数据分析模型-
领取专属 10元无门槛券
私享最新 技术干货