客户分群策略主要应用在贷前场景中。简单来说就是根据客户的不同维度将客户划分到不同的群体或组中,划分后的群组之间有一定的风险差异性或者业务含义。
下面来说说分群的意义和优势。
我们说贷前的主要业务目标就是尽可能的识别客户的风险,也就是说在一个客户申请之前我们并不了解这个客户的风险程度,或许是一个优质客户急需用钱,或许是一名老赖想骗贷,又或许是平台已有的老客户想再次借款等等。
面对错综复杂的群体,客户属性、对客户熟悉程度、客户渠道等都有可能是不同的,我们可以将这些种情况视为客户的维度,不同维度的组合就会呈现出差异化的风险水平。
试想,如果贷前业务场景只有一个通用的授信策略来应对所有申请客户,那么效果会如何呢?
答案是效果很平庸。
因为作为一个通用的授信策略,其兼顾性必须做到很好,或者说要做到平衡,过于严格则对低风险客群不适用,而过于放松则对高风险客群不适用,“既要又要”是不行的,所以通用意味着平庸。
因此,贷前业务场景一般会使用客户的分群策略,如果你做过模型就会知道“分而治之” 的道理,子模型融合后的效果一般要强于单模型。这就是分群的意义所在。
使用客户的分群策略会有以下几个优势:
在做分群时,我们会提出几个问题:
以什么维度进行分群是比较好的?有没有一个衡量的标准?
在维度筛选方面,一般有几个因素需要考虑,其中前两个比较重要。
风险水平的差异性是更重要的,并且差异性越大越好,首先要选取有风险区分度的分群方法,然后再结合其他因素综合考虑。如果一个方法分群后看不到风险差异,那就违背了贷前业务的目标,没有意义。
下面介绍几个常用的分群方法。
新客、老客分群是最常用有效的方法,为什么这么说呢?
我们先理解新客与老客的区别。新客的定义是首次在平台发生业务,因此我们对新客是不了解的,就跟陌生人一样,只能靠贷前授信审核策略初步判断出风险,再进行决策。而老客(存量客户)已经在平台有过业务接触,过往历史中是否按时还款,是否有过逾期记录这些都记录在系统中,是我们强有力的判断依据。
因此,总结来说:一是老客有更多的数据维度;二是老客的风险要远远小于新客,有明显的风险区分度。这两点完美符合前面提到的分群衡量标准。当然,这种分群方式一般用在业务稳定中期,因为业务初期全部为新客,老客的积累需要一定的周期。
客户的进件渠道是另外一个比较常用的分群方式。和新老客划分不同,进件渠道不止两个,可能有很多个,且各渠道的风险不一,可能相同也可能不同,要基于这个渠道的客户质量具体来看的。
比如,从贷款超市导流过来的客户一般质量会更差,而通过线下地推人工审核的客户质量更好。那么这两个渠道的客群和风险水平就是截然不同的,需要不同的风险管理策略。
当然,随着业务不断发展,渠道可能会越变越多,可能有数十百个,如果按照每个分群制定策略,那么整个流程会变得非常复杂,且工作量暴增。
这时需要看具体情况将同类渠道或者风险水平相当的进行大类合并,比如可以将多个贷款超市的渠道统一归入“贷超”渠道;再比如将渠道按照高中低的风险水平分段,新的渠道评估风险后满足哪个风险区间就划入哪个群。一般分群的群数2-5为最佳,不宜太多。
客户的画像标签,比如年龄、职业、学历等基础属性的分群。属性分群的提前是要对客户画像有足够的了解,并有一定风险区分度,更多的是参考经验。
客户进件时我们会获取一些数据,比如基本信息、征信数据、多头数据、设备数据等等,加起来可能有成百上千个变量。那么如何从这些变量中挖掘出最优价值,最有区分度的变量呢?
比较常用的方法是通过有监督机器学习的决策树算法进行划分,因为决策树的分裂原理是选取信息增益最大的变量,即区分度最好的变量,我们称为关键变量。
注意由于决策树是有监督学习,因此需要有目标变量(Y标签)才能使用。
下面是一个使用决策树生成变量划分的一个可视化示例。
可以看到,第一个分裂节点使用了HistoricalDelinquencies变量(含义为历史逾期次数),分裂条件是次数是否大于4.5,说明在最初的样本上这个变量按照这个条件分裂的区分效果是最好的。后面的分裂以此类推,最终分成了总共8个客户群,各个群之间的坏账率bad_rate有一定的区分度。
决策树虽然可以自动化分群,但往往在稳定性和可解释性上稍微差点,因此使用时还需要注意以下几点:
具体我们后面在实战内容详细介绍决策树的使用方法。
聚类和决策树相反,是一种无监督学习方式,典型的算法有K-means。
聚类在分群策略中几乎很少使用,因为稳定性和可解释性都非常差,并且一般可以获取目标变量,所以算法层面来讲决策树会更胜一筹。
对以上几个方法进行个对比总结。
分群方法 | 风险差异 | 数据差异 | 稳定性 | 可解释性 |
---|---|---|---|---|
新老客 | 存在 | 存在 | 强 | 强 |
进件渠道 | 存在 | 可能存在 | 强 | 强 |
客户属性 | 存在 | 不存在 | 强 | 强 |
决策树 | 存在 | 不存在 | 中 | 中 |
聚类分群 | 存在 | 不存在 | 弱 | 弱 |
这几个方法中,决策树和聚类是算法层面的分群方法,优点是可以自动化生成分群但缺点也很明显,就是稳定性和可解释性偏弱。而新老客和渠道的分群是比较理想的,满足我们看重的几点要求,所以一般策略中也比较偏爱这么用。
总的来说,分群的方法是比较灵活的,以上提到的例子和方法都是比较标准的做法,实际可以结合业务情况灵活设计。
分群在贷前策略中使用频繁,其核心思想就是分而治之,懂了这个思想其他很多方法都是举一反三的。下一节我们通过一个实战内容讲解如何进行决策树的分群,分群后的稳定性监测、以及在分群后该如何设计策略和模型。