贝叶斯定理,这个看似简单的公式,有着各种奇妙的运用,深深影响了我们决策的质量,甚至改变我们的命运。从人生选择,到投资创业,再到人工智能,贝叶斯定律可能是对世界影响最大的公式之一。
《数学思考法:解析直觉与谎言》 作者:[日]神永正博 译者:孙庆媛
癌症筛查中的“需详细检查”
如果你是 X 先生,那么当医生告诉你“需详细检查”时,感到焦虑是很自然的事情。实际得了癌症的病人,临床诊断为“需详细检查”的比率大约是 90%。了解这一点之后,当你在检查中遇到类似情况时,就会感觉自己也有很大的可能是患上了癌症。事实是否如此呢?这件事生死攸关,因此有必要在这里好好论证一下。
说到“比率”,最常见的就是超市里的“降价 30%”“八折大减价”等促销招牌。之所以超市经营者都采用这种表达方式,是因为顾客大都能够根据这上面的降价比例,计算出降价之后商品价格大约会是多少。虽然日常生活中我们很少意识到这一点,但是这件事反映出普通民众对“比率”这个数学概念的理解还是很到位的。这本身就是一件很了不起的事情。
不过,在比率的概念里,也有一些普通人很难搞清楚的计算方式。以计算盐水的浓度为例,假如让初中生来回答以下这个问题,想必给出的答案会五花八门。
问题:如果把 100 g 浓度 5% 的盐水,和 400 g 浓度 3% 的
盐水混合,那么最终配成的盐水浓度是多少?
肯定有学生会把答案写成“4%”,他们的逻辑很简单,取 5% 和3% 的中间值,那就是 4% 了。这个想法很容易理解,但是很遗憾,他们的答案是错误的。
正确答案是 3.4%。计算过程如下。
首先计算盐水中盐的总重量,即
0.05x100+0.03x400=5+12=17g
其次计算盐水的总重量,即100+400=500 g。因此,盐水的浓度为:
在这个例子中,单凭直觉是很难得出正确答案的。要得出最终的比率,必须经过周密计算。
这种比率的计算稍显复杂,但是还有较之比率计算更加复杂的,那就是概率。怎样理解概率?沿用上文中癌症筛查的例子,在这个例子中,有一个非常重要的、关于概率的数字希望大家一定预先理解清楚。这个数字就是被诊断为“需详细检查”的病人实际上真的得了癌症的概率。这个概念确实有点儿晦涩难懂。即使是搞数学的,如果不经过计算的话,也是搞不清楚的。我们还是以本节开头的 X先生的日记为例,来阐述一下这个概率该如何计算。
首先,我们需要给 X 先生的故事再增加一些假设。类似这样,事件 A 在另外一个事件 B 已经发生的条件下的发生概率,就叫作“条件概率”。增加了假设条件以后,我们现在要解决的问题就变成:在被诊断为需详细检查的前提条件之下,该病人确实患了癌症的条件概率是多少。
在上述假设条件之下,现在可以来思考 X 先生患上癌症的概率了。先大致估算一下,大家觉得是高于 50%,还是低于 50% 呢?如果完全凭直觉来看的话,应该是超过 50% 的吧。因为罹患癌症的病人,被诊断为需详细检查的概率是 90% ;而没有患上癌症,却因为出现阳性反应而需要详细检查的概率是 10%。也就是说,只要诊断报告上出现“需详细检查”,就意味着有 90% 的概率是得了癌症……是这样的吧?当然,如果稍微冷静一会儿,你也可能会这样安慰自己:“不要紧,现实中应该也有一部分幸运的人,虽然医生也要求他们做详细检查,但是结果什么事情都没有。”然而,即使用这种乐观的想法努力让自己沉住气,但在这种生死攸关的大事上,一般人也还是难以安心吧!
在这些纷繁的思绪之中,你可能会在某个瞬间想到,既然这些数据都有,道理也都懂,那就赶快计算一下实际的概率好啦。但是,真实情况是,即使是数学的研究者,也不一定听一遍问题就能马上计算出来。所以,现在静下心来,我们来一步一步地认真思考一下。
出现阳性反应却未罹患癌症的概率
首先,我们将假设条件 1、2、3 拆解开来。
假设 1 中,每 1000 人中罹患癌症的病人只有 1 人,也就是发病率为 0.1%。从这个假设来看,罹患癌症的比例其实非常小。
假设 2 中,罹患癌症的病人被诊断为需详细检查,即化验呈阳性的概率是 90%。乍一看,这种表述佷容易让人误以为是癌症病人被检查出来的概率很高。其实不然,认真读一下的话,这个假设条件其实说的是,确实得了癌症的人在初次筛选检查时,其诊断结果为需详细检查的概率是 90%。
假设 3 中,实际上没有患癌,但是却被误检出阳性反应,即假阳性情形发生的概率为 10%。
图 9 用树状图把这三个假设条件清晰地表现了出来。
根据图 9 的推理,确实患有癌症,并且化验结果呈阳性的概率,计算结果是0.1%x90%=0.09%。而并没有得癌症,但化验结果呈阳
性的误报概率是99.9%x10%=9.99%,即“未患癌症的概率”ד未患癌症但呈阳性反应的概率”。
而化验结果呈阳性的概率,则是这二者之和,即 0.09%+9.99%=10.08%。在所有呈阳性反应的人中,实际罹患癌症的概率则约为 0.9%。计算过程如下:
也就是说,X 先生患上癌症的概率,其实还不到 1%,比他预想的概率要低很多很多。看到这个还算令人欣喜的结果,X 先生应该能够松一口气了吧!
下面,我们再来参考一下现实生活中医学筛查的概率数据。由于年龄、地域、性别的不同,数据会略有偏差,不过胃癌筛查中确诊为胃癌的概率,即胃癌发病率大约为每 1000 人中有 1 人。而接受X 光检查之后,诊断为需进行更详细检查的概率为 11% 左右。这样看来,现实中的概率数字和前面所举的例子基本上相同。
现在,再回到专业的数学领域,类似我们在上文中进行的这种逻辑推理方式,被称为“贝叶斯定理”。贝叶斯定理是为了逆转事件的时间顺序而提出的一个定理。一般的逻辑是从事件的原因推导出结论,而贝叶斯定理却恰恰相反,是从结论逆向推导原因。更具体地说,在概率的计算中,贝叶斯定理是从事件的结果来推算导致事件发生的原因的概率,而非一般情况下的从原因来推算结果的概率。比如前面的癌症诊断的例子中,我们的推导就是从结果,即诊断中呈阳性反应这一事件的概率,来反向推导出原因,即接受诊断的病人确实患有癌症这一事件的概率。贝叶斯定理的一般数学表述其实是更为简单的形式,但是其中蕴含的逻辑与此是一致的。
贝叶斯定理推导出的结论经常会让人觉得很意外,与自己的直觉判断大相径庭。比如 X 先生患胃癌的概率实际不到 1%,和他自己的猜测差距就很大,原因何在?
下面我们还是用胃癌筛查的例子来说明。这里我们把假设条件稍微变动一下。假定 n 年以后,胃癌筛查的医学技术已经取得极大进展,如果病人确实患有癌症的话,有一种检测方法确诊率可以达到 100%。这种全新的检测手段,其近乎完美的精确程度,是前面案例中的陈旧的胃癌筛查方式根本无法企及的。这种技术可以使患有癌症的病人,在化验时出现阳性反应的概率上升到 100%。而另一种情况,即没有患病但在化验时出现阳性反应的误报概率,仍然维持在与上文相同的 10% 的水平。
假设 n 年以后的我,接受了这个全新的胃癌检测,但是很不幸,结果呈阳性。那个时候的我,应该会很震惊吧!这可是精确度100% 的检查啊,也就意味着我一定是患上了癌症,不是吗?不要着急,在做出判断之前,最好还是像之前一样,画一个树状图来梳理验证一下,看自己的理解是否正确。图 10 的树状图就可以很好地帮助我们计算“诊断结果呈阳性的病人,实际确实患上了癌症的概率
根据图 10 的推导,诊断呈阳性的病人实际患癌的概率可以如下计算:
结果为 0.99%,可以看到,这个数字也不是很大,还没到 1%。因此,即使采用了确诊率为 100% 的检测手段,并且计算得出的概率略高于之前的检测方法的 0.89% 的概率,但也还远远没有高到令人绝望的程度吧?
在这两个案例中,一般人的思维都很容易聚焦在“罹患癌症的病人化验结果呈阳性的概率”这个特定数字上,也就是前面所说的90%、100% 这两个数字,因而容易得出错误的主观判断。但是,如果静下心来梳理逻辑,并进行周密计算的话,就会发现这个数字其实没那么重要。真正对结果有重大影响的数字,是并未患癌但化验结果呈阳性,即通常所说的假阳性的概率。这个概率也可以说是为了避免在检查时漏掉实际患癌的病人而允许的容错空间吧。在我们使用的例子中,这个数字是 10%。在算式中,这个数字的大小才真正对最终的概率数字产生了较大影响。
垃圾邮件过滤器
贝叶斯定理的原理很简单,但是在日常生活中的应用却非常广泛。最具代表性的应用例子就是垃圾邮件过滤器。利用贝叶斯定理来对垃圾邮件进行区分的技术,在计算机领域被称为“贝叶斯过滤器”。
一般的电子邮件归类的过程应当是这样的。当你收到一封电子邮件,贝叶斯过滤器就会根据对标题或内容的分析将其区分为“垃圾邮件”或者“普通邮件”。不过,有一些邮件虽然是认识的人发来的,但内容却是没有价值的“垃圾”,这类邮件也许你也会把它列为“心理性的垃圾邮件”。因此,在最早期的垃圾邮件过滤技术中,一定程度上还需要依赖人工辨别。
如果认真研究垃圾邮件的话,就会发现,这类邮件中大多数都包含一些特定的词语。比如,邮件的标题中含有“免费”这个词语时,可以认为这封邮件有很高的概率是商业推广的垃圾邮件。含有性暗示相关词语的邮件,也很有可能是垃圾邮件。类似这样,某些特定的词汇可以被视作区分垃圾邮件的特征。在本书中,我们把含有这类词汇的邮件简称为“特征标识”邮件 7。
在这种情况下,垃圾邮件分类的问题就会转化为,在接收到的邮件带有特征标识的条件下,计算此邮件为垃圾邮件的概率是多少。这就和上文中癌症筛查的案例相同,变成了一个计算条件概率的数学问题。如果该条件概率值高于一定的预设基准值(如 90%),则该邮件可判定为垃圾邮件。常见的垃圾邮件过滤器的运行原理正是基于这一基本规则,将可疑度较高的邮件分类到垃圾邮件文件夹中。
在这个运行原理中,“90%”这个基准值被称为“临界值”。临界值的设置需要非常谨慎。如果这个值设置得过高,即使垃圾邮件的特征标识很明显,可疑度非常高,也有可能被漏掉;如果设置得过低,则特征标识度很低的邮件、稍微可疑的邮件也都有可能被分入垃圾邮件文件夹。
下面这个具体案例可以帮助我们更好地了解垃圾邮件过滤器的运行规则。
X 先生的电子邮箱中,接收到的垃圾邮件的数量占整体的30%。其中,又有 30% 的垃圾邮件,其标题中包含有“免费”一词。
而 70% 的正常邮件中,也有大约 1% 的邮件标题含有“免费”一词。在这种情形下,如果 X 先生收到一封含有“特征标识”的新邮件(即邮件标题中包含“免费”一词),如何计算这封邮件确实是垃圾邮件的概率呢?同样,使用胃癌检测案例中的推理方法,可以绘制如图 11 的树状图,来帮助我们思考。
首先,计算确实是垃圾邮件且带有“特征标识”的概率,即30%x30%=9%。其次,计算不是垃圾邮件但也带有“特征标识”的概率,即 70%x1%=0.7%。因此,X 先生收到的新邮件带有“特征标识”的概率,总计为9%+0.7%=9.7%。最后,我们可以求得:
即一封含有“特征标识”的新邮件确实是垃圾邮件的概率为93% 左右。这样的话,假设临界值定为 90%,那么这个数字就高于临界值,因而可以将这封邮件归类为垃圾邮件。
最终,这个分类是否正确,还需要邮箱的持有人 X 先生自己来判断。系统根据使用者每次的判断结果不断纠正更新自己的数据库。与此同时,条件概率的计算过程中的相关数字也随之不断更新,这就是垃圾邮件过滤器的完整的工作机制。
人们在买彩票的时候,往往都怀揣一夜暴富的美梦,即使心底里明明知道这是一件概率多么小的事情,但还是会幻想自己中了头奖以后欣喜若狂的景象。一等奖奖金 3 亿日元!尽管现实中中头奖的概率极其低,但是看到这些颇具煽动性的数字,我们发热的头脑中往往就会不自觉地夸大自己中奖的可能,进而毫不犹豫地掏出钞票去买彩票。“只关注个别的概率,而忽视了整体的概率”,这就是我们总是难以看清事物本质的原因。阅读完本节内容之后,当你再看到那些很具有煽动性的、夸张的数字时,请先冷静下来,去计算一下真正的概率是多少,相信你将极有可能得出截然相反的结论。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有