本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
接上文《评分卡实例-评分卡制作》
前文提要与本文概述
上节我们将逻辑回归模型,制作成了评分卡
通过评分卡,我们就可以对新进的客户进行评分
模型投产时,需要设定一个评分阈值,将低于评分阈值的客户拒绝。
评分阈值怎么设定?一般会先统计阈值表,再参考评分阈值表的相关信息后,结合业务而设定
本文讲解评分阈值表如何统计和如何依据评分阈值表确定阈值。
本节讲解阈值表是什么以及如何统计阈值表
评分阈值表的制作
评分阈值表由建模样本的评分统计得到,它展示了不同评分阈值给业务带来的效果
阈值表的统计需先算出各个样本的评分,再对评分按分段分组,统计每个分段的统计信息
阈值表的统计字段如下:
✍️说明
阈值表的字段以第一行为例,可以这样理解:
如果以640分为阈值,将有22个客户被拒绝,其中有3个好客户,19个坏客户,共损失22个客户,即损失0.01%客户.....
阈值表的每个字段,都是为了评估以xxx分为阈值时,所带来的损失(筛掉的好客户)和收益(筛掉的坏客户),
上面统计的是一些常用字段,也可以根据自己需要,设计更多字段
本节讲解如何通过评分阈值表来确定评分卡的评分阈值
如何通过阈值表确定评分阈值
评分阈值表主要用于辅助确定评分阈值,但直接看评分阈值表往往无从下手,
所以一般先通过关键信息缩小阈值范围,再进一步选择阈值
确定评分阈值的具体步骤如下:
👉1. 通过关键信息确定下限
👉2. 通过关键信息确定上限
👉3. 在上下限之间评估综合信息进一步确定阈值
通过阈值表确定评分阈值-详细说明
下面详细说明如何通过阈值表确定评分阈值
一、确定阈值下限
阈值下限的下限一般通过"本组坏客户占比"来确定
以分组 [760-770) 为例,“本组坏客户占比”的意义如下:
该字段说明[760-770)分的客户有5004个,其中坏客户896个,
占比17.91%(1/6), 说明该组大概切掉6个客户,会有一个是坏的
根据效益均衡点,先在"本组坏客户占比"这一列确定阈值的下限
例如,放款5个好客户的收益,才能抵掉1个坏客户的损失,
说明17.91%这一分数是均衡点,阈值不能比770更小,否则损失大于收益
二、确定阈值上限
阈值的上限一般通过“损失的客户%”来确定
如阈值取800,则损失 30.06%客户(45084个),
如果损失客户过多,业务上不能接受,所以阈值不能比800大
三、确定最终阈值
最终阈值的确定需要评估各个综合信息,在阈值上限和下限之间权衡
哪个阈值的综合信息最适合当前业务,就取哪个作为最终的评分阈值
假设我们最终设定的阈值为770,那么:
损失的客户%:11.13%(16698个)
损失客户中坏客户占比:33.82%
剔除坏客户%:56.33%
也就是说,使用<770作为阈值,则会损失11.13%左右的客户,
这部分客户里有33.82%是坏客户,使用模型后,坏客户能减少56.33%
本节展示评分卡的分数分布图以及讲解分数分布图的意义
评分卡分数分布图
最后的最后,画出评分卡的分数分布图,如下:
分数分布图主要用于进一步了解模型的合理性与了解客群的特征
从分布图可以看出,分数越低,坏客户的占比越高,当分数大于770时,基本坏客户的占比就较少了
同时,从分布图可以看出,整体客户质量是较好的,分数基本集中在高分段
高分段只有个别客户坏账,这可以理解为意外情况导致的逾期
✍️备注:这里使用的数据是国外的,而在国内,分数分布图一般为正态分布
至此,整个评分卡建模工作就已完成
End