本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
本文以kaggle上的借贷数据:https://www.kaggle.com/c/GiveMeSomeCredit/data 为例,
讲解建立评分卡模型的全过程,
数据如无法获取,请加Q群:714824181,加群申请时填写:评分卡数据
本节先对本文评分卡实例所使用的数据进行简单介绍
评分卡实例-数据介绍
本实例所使用的数据共包含10个变量与客户好坏标签
数据包含的10变量和标签如下:
数据共15万条,示例如下:
评分卡建模目标
评分卡模型的目标是,
依据客户数据(10个变量),判断客户是否坏客户(SeriousDlqin2yrs).
并根据客户质量对出客户进行评分,分数越高,评分越高
本节介绍评分卡最终需要输出什么,也即本实例所要输出的对象
评分卡输出什么
评分卡模型最终需要输出什么?
评分卡最终最基本需要输出两样东西:
👉1. 一张评分表
👉2. 评分阈值
评分表用于计算客户的评分,而评分阈值则用来判断客户是否能通过
例如,评分阈值为650,那么评分为649的用户就会被拒绝
评分表介绍
评分表
评分表的格式类似如下:
其中,各个字段的意义如下:
1. 特征名称:特征名称(变量名称)是用原始数据生成的建模变量的名称
2. 组别:组别是变量所在的分组
所有的建模变量在建模前都进行分组,也称为变量离散化
3. 评分:评分则是变量属于对应组别时的得分
如何利用评分表进行评分
如何利用评分表进行评分呢?
来了一个新客户, 先根据客户的数据,
判断客户在各个特征上属于哪一组,并找到对应的分数,
对所有特征得分求和,并加上基本分,就是客户的总评分
假设客户在rev、due3059、due90、due6089上的分组为【1、3、2、1】
那么客户在rev、due3059、due90、due6089上的得分为【18、-30、-40、-19】
则客户的总得分为18-30-40-19+693=622
本节讲解评分卡的整体建模思路与建模步骤
评分卡的建模思路
在建模之前,先梳理评分卡建模大概的思路与流程
具体如下:
1. 先在原始数据中,衍生并选择出建模的变量
2. 然后用建模变量与好坏客户标签建立逻辑回归模型
这样就能通过建模变量预测样本是坏客户的概率
3. 最后,把逻辑回归模型的线性部分抽取出来,生成评分卡
最后的最后,还需要分析当前业务应以哪个分数作为拒绝客户的临界值,以临界值作为评分阈值
评分卡的建模流程
评分卡的整个建模过程共4步:
1. 建模数据准备
数据准备主要是建模之前,对原始数据进行分箱与变量分析
筛选出与客户质量相关的变量,作为建模的输入特征
2. 建模
(1)数据预处理:归一化,并预留测试数据
(2)用逐步回归选出尽量少的特征(同时保持建模效果)
(3)训练逻辑回归模型
(4)检验AUC是否达标,并检查系数是否都为正
3. 制作评分卡
制作评分卡也俗称“模型转评分”
将3中得到的逻辑回归模型,制作成评分卡表
4. 确定评分阈值
确定生产上判定为坏客户的分数阈值
当分数低于该阈值时,就拒绝客户
下篇文章开始,我们就此问题,讲述如何建立评分卡模型吧~!
End