来源:DataFunTalk本文约3000字,建议阅读5分钟本文以一位读者在实际业务中遇到的问题为切入点,和大家分享模型策略的分析方法。
[ 导读 ] 做风控的同学都知道,要做好一个模型可能已经有一定的难度:需要我们构建适合于解决问题的样本、清晰定义目标变量、加工并选择好的特征、采用合适的模型方法等,每一步都要避免其中的各种“坑”。然而,当我们做了一系列模型之后,可能又会面临一个更加考验技巧的任务——如何有效地应用好模型,尤其是有多个模型的情况下,如何制定恰当的应用策略方法。
图1 读者遇到的业务难题
01、模型策略分析方法
模型策略是基于已有风控模型制订最优决策的整体方法,它决定了模型价值是否能够被充分发挥,直接影响信贷业务的盈利水平。模型策略分析流程主要包含样本提取、模型策略的制订、模型策略评估、模型策略的上线与验证,以及模型策略回顾,如图2所示。
图2 模型策略分析路程
1. 样本选取
样本选取是指选取制订模型策略所需的样本集,通常包含风控模型开发时的跨时间验证集(OOT)和近期授信样本集(BackScore),如图3所示。在模型策略开发中,我们只需要准备模型分和逾期标签。跨时间验证集包含逾期标签,一般是近期放款且有表现的样本集,主要用于衡量同时期新模型相对于旧模型的模型效果提升度和制订决策点(Cut-off)时的效果预估。近期授信样本集是指近期所有进入模型打分阶段的样本集,包含被模型通过和拒绝的所有样本,主要用于设定新模型在预期通过率下的模型阈值。
图3 模型策略样本划分
跨时间验证集需要包含订单标识、模型分和逾期标签列,近期授信样本集需要包含订单标识和模型分列。
2. 模型策略的制订
模型策略的制订主要决定模型的组合方式和阈值。在制订相关方案时,我们需要在转化率和坏账率之间进行权衡,以实现最大收益。模型策略应用方案可分为单模型策略和多模型组合策略。
(1)单模型策略
单模型策略是指利用单一模型分进行决策,故只需要确定单一模型的最优决策点。单模型适用场景:
单模型策略的制订决策点设定方式如下:
① 基于模型通过率与坏账率的决策点设定
在模型通过率与坏账率之间寻找一个决策点,理想的状态是该决策点的设立可提高通过率并降低坏账率。而在实际使用过程中,可能出现下列情形。
决策曲线示例如图4所示,当前的决策点在A点时,我们可以选择D点为新决策点,模型通过率和坏账率都会有所优化;如果选择B点为新决策点,即保持模型通过率为40%,那么坏账率将从15%优化到5%;如果选择C点为新决策点,即保持坏账率为
15%,那么模型通过率将从40%提升到60%。
图4 决策曲线示例
② 基于lift的决策点设定
lift表示风控模型对预测目标中不良客户的识别比例高于随机识别比例的倍数。以1为标准,lift小于1表示该模型比随机识别捕捉了更少的不良客户,lift等于1表示该模型的表现等同于随机识别,lift大于1表示该模型比随机识别捕捉了更多的不良客户。在通常情况下,lift的值越大越好。
我们将所有客户的模型评分分为10~20箱,从低到高排序,按分数排序累计至该分箱的不良客户占所有不良客户的比例(Cumulative Bad(%)by model)与随机排序累计至该分段的不良客户占所有不良客户的比例(Cumulative Bad(%)randomly)的比值即lift。图5为实际的lift计算示例,图6为对应的lift提升图。
图5 lift计算示例
图6 lift提升图
通过观察图6,我们可以发现,第一箱(序号0)的lift值为3.13,即该模型预测分数最低的10%客户坏账率是随机识别客户坏账率的3倍多。通过lift的大小,我们可以设定模型的决策阈值。
模型策略本质上是通过科学方法选择模型的最优决策点。上面两种决策点设定方法可以帮助我们快速设定模型决策点并上线应用,但它们主要依靠人的经验,没有考虑到决策阈值对通过率、坏账率和其他成本的多重影响。因此,它们未必是利润达到最大的决策方案。下面将介绍最优化算法在模型策略制订中的应用。
(2)多模型组合策略
多模型组合策略是基于两个或两个以上模型分组合生成的模型应用方案。多模型组合策略的优势如下:
多模型组合策略的应用方式如下:
① 多模型融合准入
多模型融合准入是指利用加权或其他方式将多个模型分融合成一个模型分,再划分风险等级上线决策,如图7所示。从本质上来说,融合后的多模型与单模型是一样的。我们通常采用等频或等距方式对模型分进行划分,一般划分为9个等级(RG1~RG8,RGX),RG1的风险等级最低,RG8的风险等级最高,RG1~RG8表示通过,RGX表示直接拒绝。
图7 多模型融合准入
② 多模型串行准入
多模型串行准入是指将多个模型以串行方式按先后顺序依次决策准入,前一个模型决策通过的样本再经过下一个模型决策进行评估,依此类推,由最后一个模型生成风险等级,如图8所示。
图8 多模型融合准入
在实际业务场景中,多模型串行准入较为常用,适用于多个优势互补的模型分,既有助于多个模型分发挥最大价值,又可节省数据成本。通常,无成本模型先于有成本模型决策。
③多模型交叉准入
多模型交叉准入分为两个阶段:
图9 多模型交叉准入
该方法的优势在于,利用模型分交叉生成的风险等级矩阵更能体现多模型的优势,风险等级的划分也更细。需要注意的是,在生成风险等级的过程中,我们要充分考虑每个交叉格子中样本量,保证其具有统计学意义。
在开发新模型时,在同一OOT样本集上,新模型在相关技术指标(AUC、KS、Gini等)上一定优于旧模型。如果我们贸然使用新模型决策,那么仍然具有潜在的风险:
因此,即使线下评估新模型的效果更好,在上线初期,我们也不建议使用新模型进行全流量决策。通常情况下,我们需要采用分流测试方式,即在保持相同通过率的条件下,对比新旧模型,观察贷后逾期率的差异,从而选择更优的模型策略。
编辑:于腾凯