数据集是
credit=read.csv("gecredit.csv", header = TRUE, sep = ",")
看起来所有变量都是数字变量,但实际上,大多数都是因子变量,
> str(credit)
'data.frame': 1000 obs. of 21 variables:
$ Creditability : int 1 1 1 1 1 1 1 1 1 1 ...
$ Account.Balance : int 1 1 2 1 1 1 1 1 4 2 ...
$ Duration : int 18 9 12 12 12 10 8 ...
$ Purpose : int 2 9 3 3 ...
相关视频
让我们将分类变量转换为因子变量,
> F=c(1,2,4,5,7,8,9,10,11,12,13,15,16,17,18,19,20)
> for(i in F) credit\[,i\]=as.factor(credit\[,i\])
现在让我们创建比例为1:2 的训练和测试数据集
> i_test=sample(1:nrow(credit),size=333)
> i\_calibration=(1:nrow(credit))\[-i\_test\]
我们可以拟合的第一个模型是对选定协变量的逻辑回归
基于该模型,可以绘制ROC曲线并计算AUC(在新的验证数据集上)
> AUCLog1=performance(pred, measure = "auc")@y.values\[\[1\]\]
> cat("AUC: ",AUCLog1,"\\n")
AUC: 0.7340997
一种替代方法是考虑所有解释变量的逻辑回归
glm(Creditability ~ .,
+ family=binomial,
+ data = credit\[i_calibrat
领取专属 10元无门槛券
私享最新 技术干货