首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

贝叶斯大脑

如果要从1到100里面猜一个和16最像的数,你会猜什么?

可能你会觉得无从下手,因为相像有无数可能性,可以是15或者17,因为数值相近;可以是96或者4,因为是16的倍数或者都是偶数;还可以是2,4,16,32,因为都是2的幂次。那接着告诉你,除了16之外,还有8,2,64也在同一组,那么你觉得下一个可能的数是什么?我想很多人会由此推断出要找的数是2的幂次;而如果说23,19,20和16是同一组呢,那么可能会推断是想找数值相近的数。

咋一看,这很显然。但细想,却很玄妙。在很多情况下,只给一个或少数几个例子,而且仅仅是正面例子,我们便可以从中学习、推断和做分类,这是一项神奇的能力,至少目前的机器学习算法还没有人类做得好。我们的大脑是怎么做到这一点的呢,这还要从Bayes,哦,不,Sheldon说起。

从Sheldon到Bayes定理

很多人都喜欢看《生活大爆炸》,欣赏里面Sheldon的绝顶聪明,上面的图片就出自《生活大爆炸》第四季第二集。里面的Sheldon非常担心,害怕自己活不到技术“奇点”的出现,也就无法通过意识上传获得永生。他根据家族成员的寿命和疾病史等,预期自己还有六十年可以活。他是怎么做到的呢?用的就是黑板上的贝叶斯定理,也是今天要讲的主题。

贝叶斯是18世纪英国的一位统计学家,他的生平事迹这里就不赘述,只需要知道他发现了这一定理的一种特别情况,后人因此用他名字给这一定理命名。这一定理看起来是如此的显然和稀松平常,以致于初次遇见可能会忽视它。而细究之下,又会发现,它的内涵是如此丰富,不仅仅改变了我们对概率论的看法,并且很多情况下,我们的思维和决策本身也是基于其基础之上的,就像前面所讲的例子。

在概率论中,设两个事件发生的概率分别是P(A)和P(B),那么他们同时发生的概率P(A,B)可以用两种方式计算,既可以表述为事件A发生的概率P(A)乘以事件A发生时事件B也发生的概率(条件概率)P(BA),也可以表述为事件B发生的概率P(B)乘以事件B发生时事件A也发生的概率P(AB),公式表达如下:

这就是贝叶斯定理的全部。很简单而且显然,对不对。只不过为了更好的理解其中的含义,我们把上述公式变换到它的标准形式:

通常情况下,B表示某一论断,例如“太阳每天从东方升起”,P(B)表示最初我们对这一论断的信念,称为先验概率prior。A表示对这一论断我们收集的证据,例如,今天太阳从东方升起。P(AB)表示假如论断成立,出现这一证据的可能性,称为似然概率likelihood。那么我们便可以根据上述公式对信念进行更新,从先验概率P(B)变到后验概率posterior P(BA)。

这里很重要的一点是,和我们平常所使用的概率方式不同,这里,一开始我们并没有假定“太阳每天从东方升起”一定正确,而是万事看证据,根据证据来修正我们对一件事物的看法。这一范式的改变发展出了概率论的贝叶斯学派,和传统的频率学派对概率论的解释形成对立,争论至今。

由此说开去,我们发现,不管是科学理论的建立还是发明创造,很多时候都是一条漫长曲折的寻找证据,并从证据中逐步抽象,建立起理论的道路。但在理论建立完备后,常常讲解的方式却是另外一种,高屋建瓴式的、抽象的、预设的前提假设出发,一步步小心求证,最后得到结论,这一方式发挥到极致的学科便是数学。后一种方法我们称之为演绎推理deduction,而前一种更多的是归纳推理induction。对归纳推理炉火纯青的应用,正是人类学习的一个很大优势。

认知的贝叶斯模型

回到开头提到的猜数字的游戏,有了贝叶斯定理的武装,我们便能更好的理解在这一任务中,大脑究竟发生了什么。这一例子出自Tenenbaum的博士论文,并被Murphy在《机器学习》[1]一书中采用,为了便于解释,我们截取Murphy书中的两张图:

只给出数字16,为了猜测下一数字,我们会先做各种模型假设,例如上图中给出的那些。根据贝叶斯公式,每一种假设,我们都会有一个先验概率P(h_i),它表示我们对这一假设的信念大小,见最左边的图。例如把数字分成奇数偶数比较常见,于是我们把相应模型的先验概率设得比较大。而对于“都是2的幂次但排除32”这样的规则,我们会觉得很不“自然”,相应的会给予很小的概率。对模型的偏好来自于我们的先验知识,在两个相同解释力的模型中,我们会偏好更简单的模型,这就是经典的Occam剃刀原则。

同样的,我们还需要知道对每一个既定假设,出现数字16的概率P(Oh_i),在我们的例子中,设假设h_i允许出现的结果有h_i种,那么每种结果出现的可能性便是:

每种假设的结果见中间的图。而最终对每种假设的信念便是两者的乘积,既要考虑到先验假设,也要考虑到似然概率。正如右边图中所显示的,对于”都是偶数“这样的假设,尽管先验概率比较大,但因为1到100间的偶数太多,出现16的概率仅1/50,如果恰恰出现了,我们会觉得是“惊人的巧合”,而不太会相信它是真的。这对应着贝叶斯版的Occam剃刀,在机器学习中,它化身为正则化项以防止模型过拟合。

这样,我们就有了知道数字16后各模型的后验概率P(h_iO),从中我们就可以选择概率最大的一个作为最大似然估计,图中,我们可以看到选出的模型是“都是4的幂次”。如果有更多的证据,模型便会快速收敛至真实情况。

那么我们又是如何猜测下一个数字x的呢?我们已经有了每个模型的后验概率,下一个数字是x的概率就可以表示为每个模型的后验概率和相应模型出现x的概率的乘积的求和,俗称贝叶斯模型平均。表示为:

上面图中各条线上的点便表示各模型假设允许出现的结果,而右侧的曲线表示各模型的后验概率,综合起来,就会得到图中上部所示的x的概率分布。可以看到,与我们料想的非常一致。

我们再看大脑推断中用到贝叶斯定理的两个例子。第一个例子同样来自Tenenbaum的论文[2],说的不仅仅是我们如何学习单个概念,还说明了我们是如何将概念对应到事物的不同范畴的。当指着一张标记为fep的达尔马提亚狗图片,来猜测fep的含义时,我们既可以认为fep表示上位范畴的动物,表示基本范畴的狗,也可以是表示下位范畴的达尔马提亚狗。而我们会倾向于推断fep的意思是狗。这是由基本范畴偏差(prior)造成的,因为我们日常处理事物大多都在基本范畴,这也是为什么基本范畴的中英文单词大多非常简单且长度很短。但当给了三张达尔马提亚狗的图片,而且每张都标记为fep的时候,我们却更可能推断fep意思是达尔马提亚狗而不是所有的狗。因为直观上来讲,如果fep表示的是所有的狗,但随机抽取的三个样本都是达尔马提亚狗,那将是“惊人的巧合”。

第二个例子来自刘未鹏的《暗时间》,里面提到了一个自然语言的二义性例子。

the girl saw the boy with a telescope.

对于上面这句话,我们既可以理解为那个女孩拿着望远镜看那个男孩,也可以理解为那个女孩看到那个拿着望远镜的男孩。那么为什么通常情况下,我们会想当然的理解为第一个意思而消除歧义?从语法结构上讲,两种结构都是成立的,在这里体现为先验概率P(h)大致一样,但是P(Oh)却很不一样。如果是第二种情况,那么为何偏偏那个男孩拿的是一个望远镜,而不是一本书或一只苹果呢?有很多不同的可能性,恰巧是望远镜的可能性是非常小的。但是如果用第一种语义理解就不一样了,女孩通过某种东西看男孩,那么,拿的是望远镜就很显然。

在很多情况下,贝叶斯原理很好用,我们大脑也用它做很多事。但另一方面,它也是认知偏差的孵化池。

认知偏差

在《机器人叛乱》一书中,斯坦诺维奇讲到了认知心理学文献中的琳达问题:

琳达今年31岁,单身、率真、非常聪明。她的专业是哲学。作为一个学生,她格外关心歧视和社会公正问题,也曾参加过反核示威游行。请根据可能性对下面的陈述进行评价,1代表可能性最高,8代表可能性最低。

a. 琳达是一名小学老师。

b. 琳达在书店工作,上瑜伽课。

c. 琳达积极参加女权运动。

d. 琳达是一名精神病学的社工。

e. 琳达是妇女选民联盟的一员。

f. 琳达是一名银行出纳。

g. 琳达是一名保险销售员。

h. 琳达是一名银行出纳,积极参加女权运动。

因为选项h是选项c和f的组合,所以从概率来看,肯定比两者来得小,但是研究表明,有85%的参与者出现了“组合偏差”,他们认为选项h比f的可能性更高。

这可以看成是混淆了似然概率与后验概率的区别。本来需要计算后验概率P(hO),却计算了似然函数P(Oh),或者说本来需要用induction的地方却错误的使用了deduction。因为按照似然函数的思路,相比于“琳达是一名银行出纳”的论断,“琳达是一名银行出纳,并且积极参加女权运动”的论断,更可能得到琳达关心歧视和社会公正问题等具体描述。而没有注意到,对于后验概率,还需要关注先验概率prior,而f选项的prior明显比h大得多。

类似的认知谬误比比皆是,我们可以再看赌徒谬误的例子,里面混淆了前提假设和后验概率。

赌徒谬误[3]说的是:

抛一枚公平的硬币,连续出现越多次正面朝上,下次抛出正面的机率就越小,抛出反面的机率就越大。

把这个谬误和热手谬误[4]及选择性记忆相结合,就不难理解为何赌徒永远赢不了。理性的分析容易看到,每次抛硬币都是相互独立事件,前面的结果不会对之后的结果产生影响。而我们又有了前提假设:硬币是无偏的。所以不管哪次抛掷硬币,出现正反的可能性都是1/2。

更精确的,我们可以用数学语言描述。假设硬币出现正面朝上的概率为h,已抛掷4次,每次都是正面朝上,这一事实表述为O. 硬币无偏,满足P(h=0.5)=1,则下一次出现正面朝上的概率为P(u,Oh=0.5)=0.5,出现反面朝上的概率也是P(d,Oh=0.5)=0.5.

但是,赌徒错误的使用了硬币无偏的结论,没有把它看成是前提假设,而看成是证据之后的推断,也就是后验概率。因为之前四次的正面朝上已经让硬币正面朝上的概率偏向于E(h)>0.5,为了维持硬币无偏的信念,那么我们期望的是下次的抛掷能使E(h)偏回来一点。

具体的,我们假设h的先验分布是均匀的(当然这里只是为了方便,用其他的分布不影响结论),那么抛掷四次正面朝上,使我们对h的概率预期变为:

可以得到期望E(hO)=5/6。和设想的一样,经过四次正面朝上后,我们的证据偏向于硬币是h>0.5的。然后我们计算,下一次抛掷结果分别为正面朝上u和反面朝上d,h后验概率的期望。具体的:

由此,计算可得E(hu,O)=6/7,而E(hd,O)=5/7.可以看到,确实下一次抛掷如果反面朝上便可以增强我们对硬币无偏的信念。不仅如此,我们还可以发现E(hO)介于两者之间。

总结

我歌月徘徊,我舞影零乱。我们的贝叶斯大脑以并行处理的方式快速对外界进行响应。这一方面让我们可以在稀疏的、少量的、只有正面的例子中快速学习,构建各种概念。但同时,也得警惕这种启发式的学习可能导致的各种认知谬误。

参考文献:

[1]: Murphy, K. P. (2012).Machine Learning: A Probabilistic Perspective(1 edition). Cambridge, MA: The MIT Press.

[2]: Xu, F., & Tenenbaum, J. B. (2007). Word learning as Bayesian inference.Psychological Review,114(2), 245.

[3]: [维基百科:赌徒谬误](https://zh.wikipedia.org/wiki/%E8%B3%AD%E5%BE%92%E8%AC%AC%E8%AA%A4)

[4]: 热手谬误认为某事多次发生则未来发生的机率会较大,见维基百科。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180204G0DDPA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券