数据挖掘中,特征选择的过程就是计算特征与样本观测结果的相关性。卡方检验和互信息是用得较多的计算方法。
卡方检验有多种方法,最著名的就是皮尔逊卡方检验[1]。检验包含三个步骤:
其中,虚无假设 H0 一个样本中已发生事件的次数分配会遵守某个特定的理论分配。在虚无假设的句子中,事件必须互斥,也就是说在概率事件中相互独立,即几率之和等于1。
统计值 X2 的计算公式为:
其中 r 是样本数(行数),c 是特征数(列数)。
自由度df的计算公式为: df = (r - 1)(c - 1)
在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度[2]。
首先,信息熵的定义为:
其中 I(xi) 又称 i 的自信息。熵表征的是信息的不确定性,它假设一份信息中,随机性的事件越多,则信息量越大,计算出的熵也就越大。比如中文里某个不常见的汉子出现在一个句子里,那么这个字通常代表了特殊的含义,而英文中一个句子里出现某个字母(近似 1/26),却并不能说明什么特别。
互信息表达的是一个随机事件与另一个随机事件的包含关系。计算如下:
经过推导,公式有可写为两者熵的如下关系:
可以解释为抽离掉一个事件,对另一个事件发生造成的影响大小。显然,这个值越大,说明两个变量关联越强。
[1] https://zh.wikipedia.org/wiki/%E7%9A%AE%E7%88%BE%E6%A3%AE%E5%8D%A1%E6%96%B9%E6%AA%A2%E5%AE%9A
[2] https://zh.wikipedia.org/wiki/%E4%BA%92%E4%BF%A1%E6%81%AF