本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
评分卡最终是以分数的形式输出,而不是直接使用模型的输出。
那么,评分卡是怎么把逻辑回归模型的输出转换成分数的呢?
本文讲解评分卡的分转换与原理推导。
评分卡分数转换出发点
在使用逻辑回归建模完成后,
评分卡需要把逻辑回归模型的结果转换成分数作为最终的输出,
它的目标是把逻辑回归模型的线性部分转换成分数
即最终输出的分数为以下形式:
其中,offset,factor是待确定参数
用线性部分转评分的好处
✍️备注
为什么使用线性部分,而不使用概率(逻辑回归模型的预测结果)进行转换?
使用线性部分转分的好处是,
除了能得到总分数,
还能得到各个特征的得分,
如下:
将 看作基础分,
看作第i个特征的得分,
则总分就是基础分加上所有特征的得分。
这样使评分卡的分数意义更易解释,
也能分析总分低是哪些特征导致的。
而如果用概率转分,就只能得到总分,无法得到单个特征得分。
这就是为什么要用线性部分转分数,而不用概率。
目标总结
评分卡转评分的目标就是,
将逻辑回归模型的线部分WX+b转换成分数,即如下形式:
现需要确定其中offset和factor的具体取值
为什么要理解factor和offset的意义
如果直接拍脑袋确定offset和factor的值,这样是非常盲目的,
因此,需要探讨一下factor和offset的意义,
这样可以使定出来的factor和offset更具目的性
改写评分公式表达式
直接看评分公式较难找到offset-factor的意义,
我们不妨将评分公式改写如下
由逻辑回归模型表达式:
可知线性部分
一般将 记为odds
分数公式也就可以记为:
factor和offset的意义
由
可知,
score是ln(odds)的线性函数,offset是阈值,factor是ln(odds)的系数,
因此,offset和factor 控制了基本分数和odds增长时对应的分数增长量。
因此,要确定offet,factor,
实际上就是要确定基本分数和odds增长时对应的分数增长量。
通过odds确定offset和factor
我们假设odds为d时,评分为B,
且odds每提升k倍时,分数提升S分。
则可通过以上条件求得offset和factor.
【附】odds = P/(1-P) 的含义:是坏样本的概率与是好样本概率的比值
确定factor
由odds每降低k倍时,分数提升S分,可得
可得到:
确定offset
由odds为d时,评分为B,可得
可得到:
公式总结
offset和factor的公式为:
Score公式即为:
其中B,d,k,S代表:
B,d:odds为d时,评分为B
S,k:odds每提升k倍时,分数提升S分
End