朴素贝叶斯算法(NaiveBayesian)是目前应用最为广泛的分类算法之一。该算法是基于一个简单的假定:给定目标值时,属性之间相互条件独立,即一个对象的特征向量中每个维度都是相互独立的。该类算法是基于统计学的贝叶斯定理。
朴素贝叶斯分类的定义如下:
现在在的关键是步骤3中条件概率的计算,我们可以如下计算。首先找到一个已知分类的待分类项集合,即训练集。接着计算训练集中各类别下的各个特征属性的条件概率如下:
根据上述贝叶斯公式有:
因为分母对于所有类别为常数,各特征属性是相互独立的,现在只需要将分子最大化即可计算出步骤3中条件概率。分子最大化结果如下:
朴素贝叶斯算法的python实现对iris数据集的分类如下:
结果如下:
领取专属 10元无门槛券
私享最新 技术干货