我试图在MNIST示例数据集上实现KNearestNeighbors的使用。
在尝试使用cross_val_predict时,不管我离开它多长时间,脚本都会继续运行。
有什么东西我遗漏了/做错了吗?
如有任何反馈,将不胜感激。
from sklearn.datasets import fetch_openml
import numpy as np
mnist = fetch_openml('mnist_784', version=1) #Imports the dataset into the notebook
X, y = mnist["data"], mn
如何从合适的GridSearchCV中提取最佳管道,以便将其传递给cross_val_predict
直接传递fit GridSearchCV对象会导致cross_val_predict再次运行整个网格搜索,我只想让最佳管道接受cross_val_predict评估。
我的自包含代码如下:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
from sklearn.multi
我需要使用Logistic回归分类器,我有数据集,每列2000的长度,这都是我的代码:
from statistics import mode
import pandas as pd
from sklearn.model_selection import KFold
from sklearn.metrics import plot_confusion_matrix
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_val_predict
from sklea
我有以下代码:
from sklearn import model_selection
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
from sklearn.pipeline import Pipeline
...
x_train, x_test, y_train, y_test= model_selection.train_test_split(dataframe[features_],dataframe[labels], test_size=0.30,random_state=42, shu
我想使用准确率、精确度、召回率和F-measure作为性能度量。在只考虑准确性的情况下,代码工作得很好,但是当有很多指标时,我会得到错误。我想知道我怎样才能做到这一点?
import matplotlib.pyplot as plt
from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassif
from sklearn import datasets, linear_model
from sklearn.model_selection import cross_val_predict
iris = datasets.load_iris()
X = iris.data[:150]
y = iris.target[:150]
lasso = linear_model.Lasso()
y_pred = cross_val_predict(lasso, X, y, c
我有一个分类问题,我想找出不应该被邀请到银行开会的潜在借款人。在数据中,大约25%的借款人不应该被邀请。我有大约4500个观察值和86个特征(许多假人)。
清理数据后,我执行以下操作:
# Separate X_train and Y_train
X = ratings_prepared[:, :-1]
y= ratings_prepared[:,-1]
##################################################################################
# Separate test and train (stratifi
我需要帮助重塑我的输入以匹配我的输出。 我想创建一个对‘所有信息’信息进行矢量化和分类的模型,这样标签‘’Fall‘就可以分为0和1。然而,我一直得到[ValueError: Found input variables with inconsistent of samples: 2552,1]错误。这个“形状”看起来很好,但我不知道怎么修理它。 ## Linear Regression
import pandas as pd
import numpy as np
from tqdm import tqdm
#instance->fit->predict
from sklear
这是我的密码:
from sklearn.datasets import load_boston
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_predict
from sklearn.model_selection import train_test_split
%matplotlib inline
boston_properties = lo
我试图为我所构建的硬投票分类器计算roc_auc。我给出的代码具有可复制的示例。现在我想计算roc_auc分数并绘制ROC曲线,但不幸的是,当表决=“难”时,我得到了以下错误: predict_proba不可用
# Voting Ensemble for Classification
import pandas
from sklearn import datasets
from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.tree import D
我最近正在学习python,我遇到了一个名为scikit learning的包,在这个包中,我们可以使用python库和定制的代码来生成各种情节。我已经安装了所有的依赖程序,然后我已经下载并安装了scikit学习程序,但是当我试图运行示例代码时,我得到了生成绘图的错误。
代码
from sklearn import datasets
from sklearn.cross_validation import cross_val_predict
from sklearn import linear_model
import matplotlib.pyplot as plt
lr = linear
from sklearn.feature_selection import RFECV
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_predict, KFold
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn.
我正在尝试使用有监督的机器学习来根据作物(例如土豆)各自的长度和宽度来预测它们的重量。在拟合特定模型(例如线性回归)之前,我希望根据数据集中特定作物品种的频率对我的特征进行分层采样。例如,如果我将数据分成5个分区(即使用交叉验证),并且variety1占我的观测值的50%,则每个分区训练集中的50%的观测值应该对应于variety1。这是我使用sklearn (版本0.23)在Python中尝试的代码: import numpy as np
import pandas as pd
from sklearn.model_selection import StratifiedShuffleSpl
我试图用支持向量机分类器建立一个具有自定义交叉验证折叠的二进制分类问题,但是它给了我错误**需要至少一个数组来连接**与cross_val_predict。代码在cv=3中使用cros_val_predict很好,但是当我使用custom_cv时,它会给出这个错误。
以下是代码:
from sklearn.model_selection import LeavePOut
import numpy as np
from sklearn.svm import SVC
from time import *
from sklearn.metrics import roc_auc_score
from
我有一个数据集,我分裂成80%-20%的训练和测试集。在训练集上,我做k折交叉验证,得到准确性的平均值。但是,我不清楚该如何将这个结果应用于我的原始测试集?
#Splitting Training & Test dataset
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)
#Standartisation scaling
from sklearn.p
我是机器学习的初学者,我是通过参与Kaggle竞赛来学习的。我从著名的泰坦尼克号生存问题开始,通过尝试/从别人那里得到帮助,我能够训练我的数据,但我的问题是:我如何理解输出并进入下一阶段?
这是我的密码:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
train_path = "C:\\Users\\Omar\\Downloads\\Titanic Data\\train.csv"
t
我正在绘制ROC AUC曲线。我得到的分数如下:
# bagged decision trees on an imbalanced classification problem
from numpy import mean
from sklearn.datasets import make_classification
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import RepeatedStratifiedKFold
from sklearn.ensemble impor
我对机器学习很陌生,所以这是我第一次使用滑雪板包。在这个分类问题中,我想得到每个折叠的混淆矩阵,但我只得到一个,这就是我到目前为止所做的。我还没有在这里添加预处理部分。
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import cross_val_predict
target = df["class"]
features = df.drop("class", ax
我有一个大约10,000条推文的样本,我想将其分类为“相关”和“不相关”两个类别。我正在使用Python的scikit-为这个模型学习。我手动编码1000条推文为“相关”或“不相关”。然后,以80%的人工编码数据作为训练数据,其余作为测试数据,运行支持向量机模型。我获得了很好的结果(预测精度~0.90),但为了避免过度拟合,我决定对所有1000个手工编码的tweet进行交叉验证。
下面是我的代码,在我的样本中已经获得tf矩阵的tweet之后。"target“是一个数组,列出了tweet是否被标记为”相关“或”不相关“。
from sklearn.linear_model import
我建立了一个决策树模型,不确定它是好还是坏。你能帮我评估一下我的模型吗?
我的代码:
from sklearn.tree import DecisionTreeRegressor
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
X_new = encoder.fit_transform(X)
#Decision tree model
model = DecisionTreeRegressor(random_state=1)
# Fit model
model.fit(X_new, y)
pr
代码如下:
import numpy as np
import pandas as pd
from keras import backend as K
from keras.models import Sequential
from keras.layers import Dense
from keras.wrappers.scikit_learn import KerasRegressor
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
from skl