本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
在评分卡上线后,需要监控人群评分分布、特征分布是否与建模时一致。
一般用 人群稳定度指标PSI(population stability index)进行监控。
本文讲解PSI指标的计算与应用,及PSI的推导原理。
本节介绍什么是PSI以及PSI的计算公式
什么是PSI
PSI的全称为 人群稳定度指标(population stability index),
它的意义是评估线上的评分分布与建模时使用的样本的评分分布的差异。
在评分卡上线后,由于不同时间段,模型面向的人群可能会变迁
人群变迁后可能对模型有所影响,需要进行调整。
所以需要用PSI来监控线上人群评分分布、特征分布是否与建模时一致。
PSI 的计算公式为:
其中:
:线上(实际) 第i组的占比。即线上观察到的第i组样本数/总样本数
:期望第i组的占比(即建模时第i组的占比).即建模时第i组样本数/总样本数
PSI的意义与应用
PSI值的意义是期望分布(建模时数据的分布)与实际分布(线上数据的分布) 的差异,
日常应用我们一般如下:
PSI < 0.1 :两分布差异小,一般不需作任何操作
0.1<=PSI < 0.25 :两分布有一定差异,需要引起注意。有必要需要采取一定策略
PSI >=0.25 :两分布差异明显,需要采取策略。
本节通过推导PSI的公式,进一步讲解PSI的原理
PSI的公式推导
PSI原理与IV原理一致,本质是求期望(线下建模时)分布与实际(线上)分布的差异
分布的距离-KL散度
信息论中,评估两个分布的距离(差异),可以用KL散度来评估
分布 P(x)与分布 Q(x) 的KL散度(距离)为:
✍️备注:KL散度是不对称的,即P、Q的KL散度 不等于 Q、P 的KL散度
PSI的推导:线上、线下分布的距离
已知:线上(模型上线后)客户在每组的分布为:
线下(建模时)客户在每组的分布为:
分布E 相对于A 的距离(KL散度) 为:
分布A 相对于E 的距离(KL散度) 为:
两距离之和则为总差异PSI:
End