这实际上是一个统计问题,而不是一个编码问题:考虑在stats.stackexchange.com上发布信息;您可能会得到更好的答案。
RSQ对于非线性回归没有实际意义。这就是为什么summary.nls(...)不提供它的原因。有关解释,请参见this post。
有一种共同的,也可以理解的倾向,希望有一个单一的统计数据,使人们能够评估哪一组模型更适合一个数据集。不幸的是,它不是那样工作的。以下是一些需要考虑的问题。
- 一般来说,最好的模型是有机械支撑的模型。你的模型是否反映了一些物理过程,还是你只是尝试了一堆数学方程,并希望得到最好的结果?前一种方法几乎总是导致更好的模型。
- 你应该考虑如何使用这些模型。您是在内插(例如在数据集的范围内估计y_x),还是外推法(估计y_x超出了数据范围)?有些模型提供了一个相对精确的数据范围以外的估计值,而另一些模型则完全崩溃。
- 有时,适当的建模技术是由您拥有的数据类型提出的。例如,如果你有一些统计数据,那么y很可能是泊松分布的,并且在泊松族中表示一个广义线性模型(glm)。如果您的数据是二进制的(例如,只有两种可能的结果,成功或失败),则表示为二项glm (所谓的logistic回归)。
- 最小二乘技术的基本假设是y中的误差是正态分布的,均值为0,方差为常数。我们可以通过查看标准化残差对y的图和残差的正常Q-Q图来测试这一点。如果残差图随y增大或减小,那么模型就不是一个好的模型。如果法向Q-Q图不接近直线,则残差不是正态分布,可能是另一种模型。
- 有时,某些数据点对给定的模型具有很高的杠杆作用,这意味着拟合值受到这些点的过度影响。如果这是一个问题,你会看到它的杠杆阴谋。这表明模型很弱。
- 对于给定的模型,并不是所有的参数都与0显著不同(例如,系数的p值> 0.05)。如果是这样的话,您需要在没有这些参数的情况下探索模型。对于nls,这通常意味着一个完全不同的模型。
- 假设您的模型通过了上面的测试,那么查看F统计量是合理的。这是回归(R)和残差(E)中dof校正的SSR/SSE比值。一个参数较多的模型通常会有较小的残差SS,但这并不能使它成为一个更好的模型。F-统计量解释了这一点,因为具有较多参数的模型具有较大的回归dof和较小的残差dof,从而使F-统计量变小。
- 最后,在考虑了上面的项目之后,您可以考虑剩余的标准错误。一般情况下,所有其他条件相同,较小的残差标准误差更好。问题是,所有其他事情都是不平等的。这就是为什么我建议最后看一下RSE。