我试着用卡方检验比较两个概率分布函数。计算卡方和(o- e )^2/e的公式表明,当您应用此测试时,结果未归一化(即,如果您更改o和e的单位,您可能会得到不同的卡方值),我是否应该仅使用o和e的“bincounts”?如果要比较的两个分布具有不同的x范围,我如何将其合并到测试中?(例如,distribution1可以在0-100范围内采样,distribution2可以在100-200范围内采样)。我是否应该使用其他测试来比较</em
让X是一个基数很高的类别,Y是我的目标。当我查看X发行版到Y时,我发现其中一些级别非常相似。我想找到一种方法来组合它们(假设X_1和X_3在那里Y分布的频率上非常相似),其中X in (x_1,...,x_n)和y in (y_1,...,y_n)找到所有具有类似X分布的D11子组的最佳方法是什么?我之所以这么做,是因为我知道我的很多Xs都是一样的,但是有人给他们贴上了不同的标签。
我已经开始对每个X和它的Ys分布的频率表做spearman矩阵,但是我不确定它是否正确,它给了我一些不好的结果。