算了吧。我们有一个数据集(以.csv格式)用于监督机器学习。它有60个数据点(数据行),每个数据点有100个变量。
我用60个数据点的全部100个变量来训练机器学习模型,这有意义吗?在我看来,这似乎在数学上是错误的。它就像我解了一个有100个变量的方程组,但是只有60个方程?
在数据集中,如果我们有n个变量,那么训练机器学习模型所需的最小数据点是多少?
对此有统计理论吗?
非常感谢。
发布于 2020-03-13 11:38:02
要回答你的第一个问题,你是对的,尝试用100个特性来概括一个模型是没有意义的,但只有60个例子。
统计原因在弗拉基米尔·瓦普尼克的“统计学习理论”中得到了广泛的解释。我并不是真的建议去读那些书,这是一本很大的书和很多的数学,也不是太多的例子。但是,您需要知道的是什么叫做Vapnik Chervonenkis维数,或者大多数情况下,它被称为VC维度。
但是长话短说,如果维度大于训练示例的数量,那么您将得到的不是泛化,而是过度适合。
https://stackoverflow.com/questions/60675349
复制相似问题