首发于微信公众号『运筹OR帷幄』
作者简介:霍华德 - 博士毕业于新加坡国立大学电子及计算机系,现就职于腾讯AI平台部,主要方向为搜索和自然语言处理。知乎帐号霍华德,现加入【运筹OR帷幄】担任AI板块主编。
AI板块简介: 致力于介绍AI最基本理论与发展前言,涵盖AI领域方方面面,包括但不限于:计算机视觉、自然语言识别、语音识别、强化学习及各种工程实践经验,如模型压缩与服务部署。
直观理解贝叶斯公式
先来一个问题:一机器在良好状态生产合格产品几率是90%,在故障状态生产合格产品几率是30%,机器良好的概率是75%,若一日第一件产品是合格品,那么此日机器良好的概率是多少?
看公式是不是很迷惑?我给大家画了一个很直观的图:
问题要求的机器良好的概率=左下角那个蓝色方格的面积/所有蓝色部分的面积,是不是很好懂?
先验概率是一般情况下机器良好的概率0.75(蓝色面积/总面积),在得知当天有合格产品产出后,灰色面积就没可能了,经过贝叶斯定律的计算后,就得到后验概率0.9(左下角蓝色面积/蓝色总面积)。
下面来给大家讲一个小故事
小红是小明正在追求的女神。今天,小明好不容易把小红约出来逛街,逛着逛着,女神小红说口渴了,两人来到西瓜摊前,这时,小红抿嘴一笑,突然想考察一下小明的姿势水平,说道:“小明你不是做机器学习的码农吗?如果要你用机器学习挑西瓜,你会怎么做?”
小明会心一笑,这不是撞我枪口上吗?看我的蒂花之秀~
是机器学习挑西瓜的基本思路是这样滴,先尽量观察西瓜的特征,从特征中找出和“好瓜”有关的特征,这样的特征非常多,让我们头脑风暴一波:
直观特征:包括但不限于西瓜的颜色、根蒂的形状、瓜皮的纹理、敲击的声音等等~外部环境特征:是不是本地瓜,瓜的品种,上市时间等等~还可以有很多其他特征: 如瓜店老板的诚信度,这个西瓜的销售情况等等~
小明呱啦呱啦一顿说得正起劲,小红说:stop!你说这么多我头都大了,你怎么知道那些特征有用那些特征没用呢?
小明缓缓道来:哈,这个简单,可以用贝叶斯方法!
用贝叶斯方法进行特征分析
这样
时便可以说明,”是好瓜“的概率比”不是好瓜“的概率大~但是实际上除法并不好,容易产生过小的数值,发生underflow,所以我们两边同时取对数log函数,得到:
公式左边是西瓜“是好瓜”的逻辑发生比,又称作logit,逻辑发生比大于0就说明是好瓜的概率较大。
接下来,我们假设所有特征之间是独立的,可以用条件独立假设:
将它们带入逻辑发生比公式:
我们发现等式右边变成了各个特征
的求和~特征的
值越大,说明这个特征对西瓜"是好瓜"的影响越大,相应的说明这个特征是一个显著特征。而值比较小的特征说明影响较小,不是一个很有效的特征,剔除掉也不会有很大的影响。
这样就能筛选出最重要的特征了~
小明娓娓道来,小红听得入了迷,暗自在心中给小明加了一分~
版权说明:本文由『运筹OR帷幄』编译整理,不作为商业用途,如有内容侵权,我们将随时删除。
欢迎查看原文,获取更多讯息!
领取专属 10元无门槛券
私享最新 技术干货