首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

数据集是

credit=read.csv("gecredit.csv", header = TRUE, sep = ",")

看起来所有变量都是数字变量,但实际上,大多数都是因子变量,

> str(credit)

'data.frame': 1000 obs. of  21 variables:

$ Creditability   : int  1 1 1 1 1 1 1 1 1 1 ...

$ Account.Balance : int  1 1 2 1 1 1 1 1 4 2 ...

$ Duration        : int  18 9 12 12 12 10 8  ...

$ Purpose         : int  2  9      3 3 ...

相关视频

让我们将分类变量转换为因子变量,

> F=c(1,2,4,5,7,8,9,10,11,12,13,15,16,17,18,19,20)

> for(i in F) credit\[,i\]=as.factor(credit\[,i\])

现在让我们创建比例为1:2 的训练和测试数据集

> i_test=sample(1:nrow(credit),size=333)

> i\_calibration=(1:nrow(credit))\[-i\_test\]

我们可以拟合的第一个模型是对选定协变量的逻辑回归

基于该模型,可以绘制ROC曲线并计算AUC(在新的验证数据集上)

> AUCLog1=performance(pred, measure = "auc")@y.values\[\[1\]\]

> cat("AUC: ",AUCLog1,"\\n")

AUC:  0.7340997

一种替代方法是考虑所有解释变量的逻辑回归

glm(Creditability ~ .,

+  family=binomial,

+  data = credit\[i_calibrat

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20221201A05FCN00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券