我需要用问卷的答案来训练分类器。我发现有些问题可以有嵌套的子问题。假设(仅举一个例子),我想根据以下问题预测一个人是否要买房子:
1) What is your gender?
[] male
[x] female
[] I prefer not to answer
在这种情况下,答案是女性(如上面的例子),一个子问题被提问。
1_female) are you pregnant?
[x] yes
[] no
然后调查问卷继续。
我应该如何利用这些特性来训练我的模型呢?
选项1)将它们分别处理,并用一次热编码来转换它们,然后我将得到特征向量。
gender_male - gender_fema
我正在尝试为我的数据集进行特性选择阶段的工作。
我是ML的新手。我有大约60列,并试图选择前15个功能。我了解了RFECV,并为此编写了如下所示的代码。我知道n_features是为RFE而存在的,但对于RFECV,它是缺失的。还有其他方法来分配number of features to select吗?
model = RandomForestClassifier(n_estimators=100, random_state=0)
# create the RFE model and select 15 attributes
rfe = RFECV(model,step=5, cv=5,m
我有667个特征,在应用分类模型(例如朴素贝叶斯/支持向量机)来提高分类模型的学习率之前,我希望找到在二进制类标签之间有显著边界的特征。
我所知道的是,如果两个类之间的特征值是重叠的,这将导致错误的分类。
因此,我做了两个样本t检验,以计算二元类标签之间特征的统计显着性。
from scipy import stats
p=[]
failure = [1]
#separate out the non-failure and failure group data into 2 dataframes to calculate the
t-test between each feature.