客户违约概率模型的三个问题

文章来源：企鹅号 - 数据管理及应用

周末听一位美国从业20多年的数据科学家，讲述预测模型及应用，其中特别强调了“业务需求决定模型”，在客户生命周期的不同阶段，面向特定的商务决策，都需要不同的预测模型。“业务决定模型”，这么简单的一句话，真正实现它却不容易，这里我从客户PD（违约概率）模型聊几句。

几年前，新资本协议正热，我们团队也承接了几个PD模型的建设项目。从内容上看，项目范围包括：

风险数据集市：相关数据的采集、整理、加工；

PD模型设计开发：Y变量确定、X变量选择、模型方法选择、建模、验证；

PD模型的应用：将PD模型转换成IT引擎，嵌入到授信流程中去；

在维保期内的两次左右的模型升级。

这几个项目都成功验收上线了，但是实际效果大多沦为“面子工程”，这可能也是业内的常见现象。

1、模型数量不足

PD模型按照客户行业与规模分组，再考虑到每组的数量，一般规划15个左右的PD模型。这种划分方式，没有考虑每组客户之间在业务阶段、经营模式、授信用途等方面的差异。

2、模型与业务方案割裂

尽管PD模型在统计上给出了客户在未来一段时间的违约概率，但要完全反应业务风险还需要结合具体方案。举个简化的示例说明下，一个客户的PD为10%，如果是纯信用授信，则风险就是10%；如果是抵质押贷款，只要抵押品的价值超过10%，在计量层面，这笔风险就是0。

3、样本的先天不足

PD建模的样本大都从银行的历史授信业务中抽取，这种方式，排除两类重要的数据：

1）在授信调查、评估阶段就被银行拒绝的贷款人；

2）还有少量客户评估通过，但客户最终没有使用银行提供的授信额度。

这两类客户，一类是典型的“坏客户”，一类很可能是“优质客户”。

未来，如何迎合“业务决定论”？

观察周围的数据挖掘专家，大都直接履职于甲方，如金融行业、互联网行业等，这点与其他领域IT专家不同。

这个现象，从另一个层面反映了数据挖掘（数据分析预测）的“业务决定论”。数据挖掘模型需要与业务融合、反馈、优化。

同时，这个现象也反映了甲方乙方现有的合作模式中，与业务的割裂，存在战略或流程方面的问题。

当然，这里不是建议所有的数据挖掘人员都转投甲方，而是提醒乙方（数据分析服务提供商），如何设计新的数据分析服务模式，让乙方提供数据挖掘分析能力真正在甲方发挥价值。

相关快讯