在本篇文章中,我们针对多分类问题提出了一种将随机森林和KNN算法相结合框架,我们先用训练数据对随机森林模型进行训练然后用训练好的随机森林模型对我们的训练集和测试集进行预测分别得到训练集和测试集的概率矩阵...本篇文章我们将随机森林模型和KNN模型相结合,先使用训练数据训练得到随机森林模型,然后用训练好的随机森林模型分别对训练数据和测试数据进行预测得到概率矩阵$N_1 * K$,$N_2 * K$, 其中$N..._1$为训练样本的个数,$N_2$为测试样本的个数,$K$为类的个数,然后我们从测试数据中寻找到测试数据中的**可疑样本**(具体的定义参考后文),然后采用KNN模型对测试结果中的可疑样本进行纠正,从而提高模型在可疑样本中的预测性能...1.5.3 实验结果
实验部分我们主要希望验证如下几个结论:
随机森林相比于KNN能更好的挖掘数据之间的非线性关系,从而获得更高的准确率
随机森林在预测的高概率空间中能获得更高的准确率,在低概率空间则往往只能得到较低的准确率...通过KNN对随机森林预测中的可疑样本进行纠正可以很好地提高预测的准确率
对训练集中的数据进行噪音删除可以进一步提高模型的准确率
1.5.3.1 随机森林相较于KNN能更好的挖掘数据之间的非线性关系