有人知道在Pyspark多项式logistic回归中默认的参考组是什么吗?例如,我们有A, B, C, and D的多类结果/目标。
星火如何选择参考类别?在其他软件(例如R、SAS)中的标准logistic回归中,您可以自己设置参考组。因此,如果您的引用是A,则可以将n-1模型装配在一起,并将目标类建模为A vs B, A vs C, and A vs D。
您想要控制这个过程,因为如果一个值较少的结果(观察的小样本)被设置为参考,那么估计将是不稳定的。
对拟火花果多项式logistic回归模型的分析。在这里,结果类是0,1,2,但是对于引用是什么并不清楚。我假设它可能是零,但不确定。
在Logistic回归过程中,当我编写如下代码时,出现了一个错误:
logistic_regression= LogisticRegression()
logistic_regression.fit(X_train,y_train)
y_pred=logistic_regression.predict(X_test)
我有一个错误:ValueError: Input contains NaN, infinity or a value too large for dtype('float64').我应该怎么做?
科学学习逻辑回归中损失函数的代码是:
# Logistic loss is the negative of the log of the logistic function.
out = -np.sum(sample_weight * log_logistic(yz)) + .5 * alpha * np.dot(w, w)
然而,它似乎不同于对数损失函数的常见形式,即:
-y(log(p)+(1-y)log(1-p))
(请参阅)
有谁能告诉我如何理解科学学习逻辑回归中损失函数的编码,以及它与对数损失函数的一般形式之间的关系?
提前谢谢你。