我创建了一个预测数据的分类模型,问题是这两个类是高度不平衡的。
我有个问题。我创建了一个预测数据的分类模型,问题是这两个类是高度不平衡的。所以,我用SMOTE+ENN技术来处理它。在将数据分成训练集和测试集之前,我应用了SMOTE+ENN。原因是SMOTE生成合成数据来平衡类。我认为在拆分数据之前执行SMOTE+ENN将为数据创建一个有代表性的状态。
目前,我正在为一篇期刊文章进行研究,我无法修改模型。我唯一能做的就是在分割培训和测试数据之前对为什么执行SMOTE+ENN提供支持性的研究或推理。你能帮我提供一些支持这种方法的论据或理由吗?
例如:我能否提供以下理由:“在拆分数据之前执行SMOTE+ENN仍然是有效的,因为它的目标是通过与原始数据相似但具有不同统计值的平滑生成合成数据,从而在数据集中创建更平衡的情况。这意味着将引入新的数据点。同时,ENN有助于减少接近少数类的样本的冗余。我还设置了参数,使数据只增加10%,减少了10%,这是一个极小的变化。因此,模型的性能保持相对不变,模型评估的解释仅略有变化。”
发布于 2023-06-02 04:41:33
在分裂之前,你不应该使用SMOTE。它有两个大问题:
因此,我不会试图使它合理化,而是试图解决这个问题。
发布于 2023-06-02 07:29:26
不幸的是,我们无法真正找到一个合适的理由,因为这个过程是错误的。然而,在不平衡的数据中,这是一个常见的误解。重采样方法只应应用于培训分区,测试集必须保持不变,直到最终验证为止。看一下这篇论文,它对问题进行了全面和全面的评估,评估了在进行拆分之前和之后(包括使用SMOTE)的效果。
https://datascience.stackexchange.com/questions/121921
复制