sklearn.model_selection.permutation_test_score计算的r2评分与sklearn.metrics.r2_score评分之间存在明显的不匹配。由permutation_test_score计算的数据似乎不正确;请参见下面的内容:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.model_selection import permutation_test_score
我正在寻找最简单的方法来教我的学生如何执行10CV,用于sklearn中的标准分类器,如decision回归、knnm、决策树、adaboost、svm等。
我希望有一种方法可以为它们创建折叠,而不是像下面这样循环:
from sklearn.linear_model import LogisticRegressionCV
from sklearn.model_selection import train_test_split
from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.metrics impo
我正在尝试使用scikit的GridSearch来为Lasso找到最好的alpha,而我希望它迭代的参数之一是交叉验证分割。所以,我在做:
# X_train := Pandas Dataframe with no index (auto numbered index) and 62064 rows
# y_train := Pandas 1-column Dataframe with no index (auto numbered index) and 62064 rows
from sklearn import linear_model as lm
from sklearn import
我试图运行一个用于隔离语音识别的python3代码,在那里我得到了一个DeprecationWarning,用于使用:
from sklearn.cross_validation import StratifiedShuffleSplit
为了删除这个警告,我只是从sklearn.model_selection而不是sklearn.cross_validation导入了sklearn.cross_validation,在运行代码之后,我得到了:
TypeError:'StratifiedShuffleSplit‘对象不可迭代
也许是因为
class sklearn.cross_
我想使用scikit学习用X来预测变量y。我想使用交叉验证在训练数据集上训练分类器,然后将这个分类器应用到一个看不见的测试数据集(如中)。
from sklearn import datasets
from sklearn.model_selection import cross_validate
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
# Import dataset
X, y = datasets.load_iris(return_X_y=True)
# Creat
我想交叉验证我的高斯混合模型。目前,我使用sklearn的cross_validation方法如下所示。
clf = GaussianMixture(n_components=len(np.unique(y)), covariance_type='full')
cv_ortho = cross_validate(clf, parameters_train, y, cv=10, n_jobs=-1, scoring=scorer)
我看到cross_validation正在用y_train训练我的分类器,使它成为一个监督分类器。
try:
if y_train is No
如果我排除了我的自定义转换器,GridSearchCV运行的很好,但是它会出错。这里有一个假数据集:
import pandas
import numpy
from sklearn_pandas import DataFrameMapper
from sklearn_pandas import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.base import TransformerMixin
from sklear
我正在进行10k的交叉验证,我想对这些指标进行平均化,但我不会用sklearn来获得它。我就是这样做的,而且这些指标都是通过折叠打印出来的。
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score, precision_score, f1_score, recall_score
from sklearn.metrics import precision_recall_fscore_support as score
k = 10
kf = KFold(n_splits=k, r
因此,我很难理解为什么,作为一种常见的做法,对模型进行交叉验证的步骤还没有经过训练。我所说的一个例子可以在中找到。下面粘贴了一段代码:
from numpy import mean
from numpy import std
from sklearn.datasets import make_classification
from sklearn.model_selection import RepeatedKFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Log
我有一个大约10,000条推文的样本,我想将其分类为“相关”和“不相关”两个类别。我正在使用Python的scikit-为这个模型学习。我手动编码1000条推文为“相关”或“不相关”。然后,以80%的人工编码数据作为训练数据,其余作为测试数据,运行支持向量机模型。我获得了很好的结果(预测精度~0.90),但为了避免过度拟合,我决定对所有1000个手工编码的tweet进行交叉验证。
下面是我的代码,在我的样本中已经获得tf矩阵的tweet之后。"target“是一个数组,列出了tweet是否被标记为”相关“或”不相关“。
from sklearn.linear_model import
我有一个问题,我试着构建我自己的分类器,它是完成的,它工作得很好,但当我尝试使用交叉验证分数时,我得到了一个错误:
File "/home/webinterpret/workspace/nlp/wi-item-attribute-extraction/attr_extractor.py", line 95, in fit
print self.fitted_models[attr][len(self.fitted_models[attr]) - 1].cross_validation_score(x_train, y_train, 5, 0.2)
File
我一直无法找到任何教程、指南或示例代码来执行数据集拆分和平衡,以作为sklearn管道的一部分。这个是可能的吗?
我有这样的事情:
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
### can this be part of the pipeline?
我正在探索为我的模型最好使用的功能的数量。我知道,重复的分层K折叠需要1D数组输出,而我试图评估具有多个输出的输出的功能数量。是否有一种方法可以使用多重输出的重复分层K折叠?还是有别的办法来完成我所需要的?
from sklearn import datasets
from numpy import mean, std
from sklearn.datasets import make_classification
from sklearn.model_selection import cross_val_score, RepeatedStratifiedKFold, KFold
from s
我想使用支持向量机和LeaveOneOut交叉验证(Loocv)。代码如下: from sklearn.svm import SVC
from sklearn.model_selection import LeaveOneOut, train_test_split
import numpy as np
import pandas as pd
iRec = 'KSBPSSM_6_DCT_MIXED_49_937_937_1874_SMOTTMK.csv'
D = pd.read_csv(iRec, header=None) # Using pandas
X = D.ilo
给出下面的代码,我试图构建的自定义转换器类--它的目标是通过网格搜索添加几个列和矮小的--本身运行良好,但在通过管道执行时会降低行的维度。也许有人能解释出哪里出了问题,我显然遗漏了一些东西。搜索评论:“这里发生了什么,维度在行中减少了?”在那里我有问题的指纹。执行的完整代码可以在下面找到!
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn import linear_model
from sklearn.base import BaseEsti
对于机器学习实验,我必须进行特征选择。我没有部门在训练和测试集,因为10倍交叉验证。有人告诉我我必须做每一次的特征选择。但我不知道该怎么做。这是我代码的一部分。
vec = DictVectorizer()
X = vec.fit_transform(instances) # No train/ test set, because we'll use 10-fold cross validation
scaler = StandardScaler(with_mean=False)
X_scaled = scaler.fit_transform(X) # To make sure ev
我有一个数据集,我分裂成80%-20%的训练和测试集。在训练集上,我做k折交叉验证,得到准确性的平均值。但是,我不清楚该如何将这个结果应用于我的原始测试集?
#Splitting Training & Test dataset
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
#Standartisation scaling
from sklearn.p
作为的后续,我正在尝试交叉验证一堆模型。
手册
首先,我手动执行所有步骤,以确保一切正常工作:
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import
当我从sklearn导入cross_validation时
from sklearn import cross_validation
我得到以下错误:
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
ImportError: cannot import name 'cross_validation' from 'sklearn' (/root/anaconda3/lib/python3.7/site-packages/skle
我试着在叶子特征的样本上使用Knn。194列有990行。第二列是填充树叶的树名,它将是标签。
from sklearn import model_selection
from sklearn.preprocessing import LabelEncoder
from sklearn import preprocessing
from sklearn import neighbors, metrics
X = data.iloc[:, 2: 194]
y = data.iloc[:,1]
labelencoder = LabelEncoder()
y = labelencoder.fit_