我只想确定我是在正确的线路,所以请纠正我,如果错了。我正在测试哪一个超分器是最适合我的数据X,y,其中X是特征,y是目标。X,Y是用我的训练装置做的。我也有一个测试集。
from sklearn.linear_model import LogisticRegression
# split train into target and features
y = Train['target']
X = Train.drop(['target'], axis = 1)
X = pd.get_dummies(X)
#split test dat
我想引用Aurelien的“与Scikit学习和TensorFlow一起进行机器学习的手”一书中的一段,关于在使用k-折叠交叉验证对训练集进行超参数调整之后对最终测试集的评估:
“如果您进行了大量的超参数优化(因为您的系统最终对验证数据进行了很好的调整,并且在未知数据集上的性能可能不太好),那么性能通常会比使用交叉验证时稍微差一些。”在本例中情况并非如此,但当发生这种情况时,您必须抵制调整超参数以使测试集看起来更好的诱惑;这些改进不太可能推广到新数据。“-Chapter 2: End- to End Machine Learning Project”
我很困惑,因为他说,当测试分数更差时,交叉
我有一堂课:
public class MyClass: IMyInterface
{
int _parameter;
public Myclass(int parameter)
{
_parameter = parameter;
//Do other things
}
public int FrequentlyCalledFunction()
{
if(_parameter == 0)
{
return 0;
}
else