对不起,我知道这是一个非常基本的问题,但由于我仍然是机器学习的初学者,确定什么模型最适合我的问题仍然让我困惑,最近我使用了线性回归模型(导致r2_score如此之低),一个用户提到我可以根据我的数据曲线使用某些模型,当我看到另一个编码器使用随机森林回归时(导致r2_score比线性回归模型好30% ),我不知道他/她怎么知道更好的模型,因为他/她没有提到它。我的意思是,在我读到的大多数网站中,他们将数据推到他们认为最适合问题的一些模型中(例如:对于回归问题,模型可以使用线性回归或随机森林回归),但在一些网站中,有些人说,我们首先需要绘制数据,这样我们才能准确地预测哪个模型最适合。我真的不知道应该绘制数据的哪一部分?我认为使用seaborn pairplot可以让我深入了解曲线的形状,但我怀疑这是不是正确的方式,实际上我应该绘制什么?只有标签本身还是功能本身,还是两者兼而有之?在此之后,我如何获得曲线的洞察力,以了解可能的最佳模型?
发布于 2020-01-13 01:57:18
这个问题太笼统了,但我会试着概述一下如何选择模型。首先,你应该知道,没有选择模型家族的一般规则,它更多的是通过实验不同的模型来选择,并查看哪个模型能提供更好的结果。您现在还应该知道,一般来说,您具有多维特征,因此绘制数据不会让您完全了解特征与目标的相关性,但是,要检查是否要拟合线性模型,您可以开始绘制目标与输入的每个维度,并查看是否存在某种线性关系。然而,我建议你拟合一个线性模型,并从统计的角度检查这是否相关(学生测试,斯米尔诺夫测试,检查残差...)。请注意,在现实生活应用程序中,线性回归不太可能是最好的模型,除非您进行了大量的特征工程。因此,我建议您使用更高级的方法(RandomForests、XGboost...)
发布于 2020-01-13 10:18:52
如果你正在使用像sklearn这样的现成的软件包,那么许多简单的模型,比如支持向量机,射频等等,只是一行程序,所以在实践中,我们通常会同时尝试几个这样的模型。
https://stackoverflow.com/questions/59705218
复制相似问题