【 4 】评分卡实例-阈值表与评分阈值

作者 : 老饼发表日期 : 2022-06-26 10:26:19 更新日期 : 2024-10-11 03:17:51

本站原创文章，转载请说明来自《老饼讲解-机器学习》www.bbbdata.com

接上文《评分卡实例-评分卡制作》

前文提要与本文概述

上节我们将逻辑回归模型，制作成了评分卡

通过评分卡，我们就可以对新进的客户进行评分

模型投产时，需要设定一个评分阈值，将低于评分阈值的客户拒绝。
评分阈值怎么设定？一般会先统计阈值表，再参考评分阈值表的相关信息后，结合业务而设定
本文讲解评分阈值表如何统计和如何依据评分阈值表确定阈值。

01. 评分卡的评分阈值表

本节讲解阈值表是什么以及如何统计阈值表

评分阈值表的制作

评分阈值表由建模样本的评分统计得到，它展示了不同评分阈值给业务带来的效果
阈值表的统计需先算出各个样本的评分，再对评分按分段分组，统计每个分段的统计信息

阈值表的统计字段如下：

✍️说明
阈值表的字段以第一行为例，可以这样理解：
如果以640分为阈值，将有22个客户被拒绝，其中有3个好客户，19个坏客户，共损失22个客户，即损失0.01%客户.....
阈值表的每个字段，都是为了评估以xxx分为阈值时，所带来的损失(筛掉的好客户)和收益(筛掉的坏客户)，
上面统计的是一些常用字段，也可以根据自己需要，设计更多字段

02. 如何通过阈值表确定评分阈值

本节讲解如何通过评分阈值表来确定评分卡的评分阈值

如何通过阈值表确定评分阈值

评分阈值表主要用于辅助确定评分阈值，但直接看评分阈值表往往无从下手，
所以一般先通过关键信息缩小阈值范围，再进一步选择阈值
确定评分阈值的具体步骤如下：
👉1. 通过关键信息确定下限
👉2. 通过关键信息确定上限
👉3. 在上下限之间评估综合信息进一步确定阈值

通过阈值表确定评分阈值-详细说明

下面详细说明如何通过阈值表确定评分阈值
一、确定阈值下限
    阈值下限的下限一般通过"本组坏客户占比"来确定
                  以分组 [760-770) 为例，“本组坏客户占比”的意义如下：
             该字段说明[760-770)分的客户有5004个，其中坏客户896个，
                   占比17.91%（1/6）,  说明该组大概切掉6个客户，会有一个是坏的
                            根据效益均衡点，先在"本组坏客户占比"这一列确定阈值的下限
                  例如，放款5个好客户的收益，才能抵掉1个坏客户的损失，
                     说明17.91%这一分数是均衡点，阈值不能比770更小，否则损失大于收益
二、确定阈值上限
阈值的上限一般通过“损失的客户%”来确定
如阈值取800,则损失 30.06%客户(45084个)，
           如果损失客户过多，业务上不能接受，所以阈值不能比800大
三、确定最终阈值
                              最终阈值的确定需要评估各个综合信息，在阈值上限和下限之间权衡
                              哪个阈值的综合信息最适合当前业务，就取哪个作为最终的评分阈值
假设我们最终设定的阈值为770，那么：
损失的客户%：11.13%（16698个）
损失客户中坏客户占比：33.82%
剔除坏客户%：56.33%
            也就是说，使用<770作为阈值，则会损失11.13%左右的客户，
                  这部分客户里有33.82%是坏客户，使用模型后，坏客户能减少56.33%

03. 评分卡-分数分布图

本节展示评分卡的分数分布图以及讲解分数分布图的意义

评分卡分数分布图

最后的最后，画出评分卡的分数分布图，如下：

分数分布图主要用于进一步了解模型的合理性与了解客群的特征
从分布图可以看出，分数越低，坏客户的占比越高，当分数大于770时，基本坏客户的占比就较少了
同时，从分布图可以看出，整体客户质量是较好的，分数基本集中在高分段
高分段只有个别客户坏账，这可以理解为意外情况导致的逾期
✍️备注：这里使用的数据是国外的，而在国内，分数分布图一般为正态分布

至此，整个评分卡建模工作就已完成

End