我正在建立一个有监督的机器学习模型,该模型(例如)预测心力衰竭(是/否)。我有两个来自两个不同实验室的数据集,A和B都有很好的分布,也不是说A比B有更多的年轻人,但不知怎么的,A的心力衰竭率要低得多。
为每个模型创建了一个单独的模型,每个模型的准确率都达到了90%或更高,但我的目标是建立一个模型,该模型可以使用包含来自A和B的信息的级联数据集。目前,这种组合模型对于来自B的样本的准确率为75%,对于A的准确率为90%。
我试过的是:
我知道总体结果当然不会像单个模型那样好,但是我如何使这些平台至少获得更多相似的结果呢?我很感激我能尝试的任何解决这类问题的建议/方法!!
发布于 2021-05-15 12:07:45
您可能希望使用一种名为集成方法的方法组合这两个模型。
但是,在您的例子中,如果您说功能的分布是相似的,那么在单个模型中使用合并的数据会更糟糕,我对此感到惊讶。
因此,有两个潜在的结果:
为了更好地了解所期望的内容,我建议为每个特性做一些分发图,看看它们是否像您所说的一样。
另一个简单的测试是采用模型A并使用它来预测数据集B中的一切,反之亦然。如果实际准确度在70%左右,那么一切都如预期的那样工作。
https://datascience.stackexchange.com/questions/92996
复制