首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

评分卡模型开发-定量指标筛选

本文介绍了在模型开发中,如何从数据中筛选出对违约状态影响最显著的指标。首先介绍了违约状态的数据特点,然后给出了五种定量指标筛选方法,包括随机森林法、计算变量间的相对重要性、基于自变量的逐步回归法、基于自变量的广义交叉验证法和基于变量的“Boruta”法。最后,综合这五种方法,筛选出了对违约状态影响最显著的四个入模指标,分别为:账户状态、是否逾期、是否申请提高额度和申请额度是否获批。对于定性指标,则通过文本挖掘的方法提取了“是否逾期”和“是否申请提高额度”两个入模指标。通过这些指标,可以更好地预测客户的违约状态,为金融机构提供更精准的风险评估和决策依据。同时,在筛选指标的过程中,要注意指标的可解释性和稳定性,以确保模型的预测效果和泛化能力。

06

常用的限流框架,你都会用吗?

作为应对高并发的手段之一,限流并不是一个新鲜的话题了。从Guava的Ratelimiter到Hystrix,以及Sentinel都可作为限流的工具。 自适应限流 一般的限流常常需要指定一个固定值(qps)作为限流开关的阈值,这个值一是靠经验判断,二是靠通过大量的测试数据得出。但这个阈值,在流量激增、系统自动伸缩或者某某commit了一段有毒代码后就有可能变得不那么合适了。并且一般业务方也不太能够正确评估自己的容量,去设置一个合适的限流阈值。 而此时自适应限流就是解决这样的问题的,限流阈值不需要手动指定,也不需要去预估系统的容量,并且阈值能够随着系统相关指标变化而变化。 自适应限流算法借鉴了TCP拥塞算法,根据各种指标预估限流的阈值,并且不断调整。大致获得的效果如下:

04

R语言实现LASSO回归模型

我们知道广义线性模型包括了一维连续因变量、多维连续因变量、非负次数因变量、二元离散因变量、多元离散因变等的回归模型。然而LASSO对以上的数据类型都适合,也可以说LASSO 回归的特点是在拟合广义线性模型的同时进行变量筛选(variable selection)和复杂度调整(regularization)。变量筛选是指不把所有的变量都放入模型中进行拟合,而是有选择的把变量放入模型从而得到更好的性能参数。复杂度调整是指通过一系列参数控制模型的复杂度,从而避免过度拟合(Overfitting)。总的来说LASSO对数据的要求很低。对于线性模型来说,复杂度与模型的变量数有直接关系,变量数越多,模型复杂度就越高。 更多的变量在拟合时往往可以给出一个看似更好的模型,但是同时也面临过度拟合的危险。此时如果用全新的数据去验证模型(validation),通常效果很差。 一般来说,变量数大于数据点数量很多,或者某一个离散变量有太多独特值时,都有可能过度拟合。

03

《机器学习》(入门1-2章)

这篇笔记适合机器学习初学者,我是加入了一个DC算法竞赛的一个小组,故开始入门机器学习,希望能够以此正式进入机器学习领域。 在网上我也找了很多入门机器学习的教程,但都不让人满意,是因为没有一个以竞赛的形式来进行教授机器学习的课程,但我在DC学院上看到了这门课程,而课程的内容设计也是涵盖了大部分机器学习的内容,虽然不是很详细,但能够系统的学习,窥探机器学习的“真身”。 学完这个我想市面上的AI算法竞赛都知道该怎么入手了,也就进入了门槛,但要想取得不错的成绩,那还需努力,这篇仅是作为入门课已是足够。虽然带有点高数的内容,但不要害怕,都是基础内容,不要对数学产生恐慌,因为正是数学造就了今天的繁荣昌盛。

03
领券