银行贷款业务是银行的主要盈利方式,对于具体的贷款申请人,是否可以同意贷款申请是一件十分重要的步骤,如果贷款人在贷款后出现违约行为,这将对银行的资金流稳定性造成不利的影响。因此针对贷款人的“数据信息”进行处理和违约预测具有举足轻重的作用。对于金融行业来说,贷款业务及人员信息十分复杂,对于数据特征的处理十分重要,在数据处理完成后,通过机器学习模型进行预测以判断贷款人是否会违约(点击文末“阅读原文”了解更多)。
任务/目标
根据金融业务要求,运用数据源分析预测贷款人是否违约。
结合金融业务特点,由贷款金额、利率、年限构建新特征贷款利息,由信贷开立时间和放贷时间构建新特征经历时间等。
将训练集划分为:训练集训练模型、验证集评估模型、测试集最后一次测试模型,比例为:6:2:2 ,最后使用训练集预测结果,最后不加载测试集去训练,会造成测试集数据泄露。本项目中80万训练集,20万验证集,20万测试集(查看文末了解数据免费获取方式)。
Logistic:
逻辑回归是一种分类算法,多用于 两个类别之间的判断, 逻辑回归的损失称为对数似然损失, 使用梯度下降的方法优化损失函数的值。
Xgboost:
GBDT是基于boosting方法将所有弱分类器的结果相加等于预测值,然后下一个弱分类器去拟合误差函数对预测值的残差,每棵树就是一个弱分类器。Xgboost本质上也是一种GBDT,在损失函数中添加了正则化项L1和L2来控制模型的复杂度,提高泛化能力。
Lightgbm
LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,具有 支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率。GBDT在每一次迭代过程中,都需要遍历整个训练集多次,因此与内存产生冲突,对于海量数据是很不利的。Xgboost采用预排序方法的决策树算法,虽然对于分割点的寻找较为准确,但同时保存了特征值和特征排序的结果,空间消耗很大,并且在遍历分割点时计算分裂增益,时间消耗也大。Lightgbm采用直方图算法将连续特征放入直方图箱子中,从而减少内存使用和时空复杂度。
1.特征工程,贝叶斯调参/GridSearchCV调参
在此案例中,Xgboost和Lightgbm算法模型预值的AUC值较好,其预测结果如下:
调参前两种模型的AUC值:
调参后:
Xgboost的AUC值获得一定的提升,关于模型还有较大的优化空间。
01
02
03
04
Lightgbm:
通过贝叶斯调参后,找到了一组最优解,AUC值提升至0.7234。
最后输出为测试集样本发生贷款违约的概率值。