考虑用户A和B的电影评级集合上的皮尔逊相关系数的以下示例:
A = [2,4,4,4,4]
B = [5,4,4,4,4]
pearson(A,B) = -1
A = [5,5,5,5,5]
B = [5,5,5,5,5]
pearson(A,B) = NaN
在协同过滤中,Pearson相关性似乎被广泛用于计算两个集合之间的相似度。然而,上面的集合显示出很高的(甚至是完美的)相似性,但输出表明这些集合是负相关的(或者由于div为零而遇到错误)。
我最初认为这是我的实现中的一个问题,但后来我在几个在线计算器上验证了它。
如果输出是正确的,为什么Pearson相关性被认为是此应用程序的良好选择
我目前正在通过Kaggle的泰坦尼克竞赛,我试图找出Survived专栏和其他专栏之间的相关性。我使用numpy.corrcoef()来矩阵列之间的相关性,下面是我所拥有的:
The correlation between pClass & Survived is: [[ 1. -0.33848104]
[-0.33848104 1. ]]
The correlation between Sex & Survived is: [[ 1. -0.54335138]
[-0.54335138 1. ]]
The