我正在构建一个使用定制变压器()的模型。当我运行下面的代码时,由于.fit,我得到了一个错误:
---------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-165-289e1d466eb9> in <module>
10
11 # fit on the complete pipe
这是我的代码。
import pandas as pd
import numpy as np
import json
import seaborn as sb
from sklearn.metrics import log_loss
from sklearn import linear_model
from sklearn.model_selection import StratifiedKFold
from sklearn.svm import SVC
from scipy.stats import zscore
from Transformers import TextTransfo
因此,在分类器训练之前,我尝试在流水线中进行异常点去除和监督特征选择。为此,我必须创建自定义变压器,以输入管道。我找到的所有示例都将y=None作为transform()方法的参数,但是,由于我需要更改y (即从y中删除异常值),我需要能够访问它。这是我的自定义变压器,用于移除离群点。
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.neighbors import LocalOutlierFactor
from sklearn.preprocessing import StandardScaler
ValueError:将1D数据传递给需要2D数据的转换器。
在这里,我试图对'text'进行文本分类,并将'setting'作为第二个特性分类为'target'。
我不明白这个错误的意义,我相信我做的一切都是正确的。
数据是2D的!
文本是字符串,设置是字符串(但我希望它是绝对的)。
def BoW_tokenizer(text):
doc = nlp(text)
tokens = [token for token in doc if not (token.is_stop or token.is_punct)]
to
我正在尝试进行多标签分类的特征选择,我提取了将训练成X模型的特征。模型测试是在同一个X上进行的。我使用管道,并选择最佳的100个特征。
#arrFinal contains all the features and the labels. Last 16 columns are labels and features are from 1 to 521. 17th column from the last is not taken
X=np.array(arrFinal[:,1:-17])
Xtest=np.array(X)
Y=np.array(arrFinal[:,522:]).astyp
我为这个大代码块事先表示歉意。这是我可以提供一个可重复的工作示例的最简洁的方法。
在代码中,我试图使用FeatureUnion从一个dataframe中转换两个列,其中一个列是文本数据,所以是TfidfVectorizer,另一个列是标记列表,所以我想使用MultiLabelBinarizer。
ItemSelector转换器用于从数据中选择正确的列。
为什么我要买TypeError: fit_transform() takes 2 positional arguments but 3 were given ?
,我需要在代码中修改什么才能使这个示例正常运行?
from sklearn.pre
我有一个包含两个文本列的dataframe,并将它们转换为一个列表。我也把火车和测试数据分开了。但是,在建立基本模型时,TfidfVectorizer抛出了一个'list‘对象没有属性'lower’的错误
这是代码
X['ItemDescription']= X['ItemDescription'].str.lower()
X['DiagnosisOne'] = X['DiagnosisOne'].str.lower()
from sklearn.model_selection i
R中的I()函数用于在线性回归中创建新的预测器,例如X^2: lm.fit2=lm(medv∼lstat +I(lstat ^2)) 这里给出了一个很好的解释(What does the capital letter "I" in R linear regression formula mean?)。 我试图用Python用同样的公式做线性回归,但我似乎找不到等价的公式。此代码适用于单个变量 fit3 = smf.ols('medv~lstat', data=data).fit()
print(fit3.summary()) 但是,如果我尝试,下面的代码片段,
我在这里使用了一个稍微修改过的代码:
当我执行它的时候,我一直收到这个错误:
ValueError: k should be >=0, <= n_features = 4; got 10. Use k='all' to return all features.
我有四个特性和一个目标。我在SeleckKBest()函数的管道参数中尝试了下面代码中k的值1-4,但同样的错误仍然存在。
下面是我的可重现代码:
import pandas as pd
df = pd.DataFrame({'Number1': [11, 12, 13, 14, 15, 16
我正在尝试编写一个从Python argparse ArgumentParser类派生的解析器类。以下代码的大纲在命令行上运行良好,但会生成一个错误,我很难在模块的上下文中理解它。
代码(去掉一些无关紧要的东西)如下所示:
class SansParser(argparse.ArgumentParser):
"""Argument parser for preparing a SansModel fit or calculation
"""
def __init__(self):
"""Initialisati
我试图拟合支持向量机模型进行文本分类,但是行x = text_clf_svm.fit(file_name, target_file)给出了错误。我尝试了各种方法,但都解决不了。
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.linear_model import SGDClassifier
from sklearn.pipeline import Pipeline
from
在使用PyC雷特的ML功能时,我面临以下错误。我使用的ML代码:
if choice == "ML":
st.title("Your Machine Learning Process Starts Here!")
target = st.selectbox("Select Your Target", df.columns)
setup(df, target=target, silent=True)
setup_df = pull()
st.info("This is the ML Experimen
如何找到导致此错误的功能: c:\users\pc\appdata\local\programs\python\python37\lib\site-packages\sklearn\model_selection\_validation.py:614: FitFailedWarning: Estimator fit failed. The score on this train-test partition for these parameters will be set to nan. Details:
Traceback (most recent call last):
File
我试图在MNIST数据上运行PCA (只是在尝试学习一些ML的东西),但是得到一个内存分配错误,对于我的机器来说似乎太小了。我尝试了两个略有不同的代码,下面是从这个网站复制的: (我在Iris数据集上成功地运行了PCA )。
但是,当我运行以下命令时:
from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784')
from sklearn.model_selection import train_test_split
# test_size: what proportion of ori
在python中运行这段代码时,我得到了KeyError:0:
full_pipeline.fit(X_train, y_train)
下面是完整的代码:
from gensim.sklearn_api import D2VTransformer
from sklearn.pipeline import FeatureUnion, Pipeline
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
name_pipeline = P
我想为图像分类任务(多类)优化CNN模型的超视距。要做到这一点,我使用了来自sklearn的sklearn,但是我总是有大量的警告和值错误,如下所示:
/usr/local/lib/python3.6/dist-packages/sklearn/model_selection/_validation.py:552: FitFailedWarning: Estimator fit failed. The score on this train-test partition for these parameters will be set to nan. Details:
Traceback (
我正在尝试用FAMD、SMOTENC和其他预处理步骤实现管道。然而,它每次都会产生错误。如果我从管道中移除FAMD,它可以正常工作。
我的代码:
#Seperate the dataset in two parts
num_df= X_train_new.select_dtypes(include=[np.number]).columns
cat_df= X_train_new.select_dtypes(exclude=[np.number]).columns
#Create a mask for categorical features
categorical_feature_mask
我正在学习如何创建文本数据分析管道,并在稍后将其用于网格搜索。但是,我遇到了一个问题,给出的方法不适用于这种情况。
我想让这段代码起作用:
import numpy as np
import pandas as pd
from sklearn.pipeline import Pipeline
from mlxtend.feature_selection import ColumnSelector
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import Bernoul
我正在编写一个使用ColumnTransformer和LabelEncoder对著名的泰坦尼克号数据集X进行预处理的示例。
Age Embarked Fare Sex
0 22.0 S 7.2500 male
1 38.0 C 71.2833 female
2 26.0 S 7.9250 female
3 35.0 S 53.1000 female
4 35.0 S 8.0500 male
像这样叫变压器:
from sklearn.compose impor