我正在努力创建一个大小为100的分层样本,使用分层随机抽样和3078个观测数据。分层随机抽样必须满足的条件是: FARMS92<100,100 ~ 300,300 ~ 600,FARMS92>600为地层,采用比例分配。当我遵循分层函数:时,我不知道如何继续 COUNTY STATE ACRES92 ACRES87 FARMS92
1 ALEUTIAN AK
这是我第一次运行k-折叠交叉验证,我对从输出中看到的一个现象感到困惑。基本上,5倍交叉验证始终如一地给模式8 (Adaboost分类器)和模式9(梯度增强分类器)的最高精度分数,如你可以看到下面。然而,当我以20%的数据集作为测试数据单独运行这些ML模型时,模型7(随机森林分类器)总是根据混淆矩阵和AUC在所有5种模型中获得最高的精度。我最初的期望是,如果我单独运行该ML模型,具有高k倍交叉验证精度的ML模型也应该返回高精度。这里似乎不是这样的。有人能给我解释一下为什么我会看到这种差异吗?model6 = DecisionTreeClassifier()
m