评分卡-变量选择(iv法)

作者 : 老饼发表日期 : 2022-06-26 10:32:13 更新日期 : 2022-11-21 15:20:09

本站原创文章，转载请说明来自《老饼讲解-机器学习》www.bbbdata.com

IV值筛选变量也是小贷风控模型中常用的选择变量的方法

本文讲解IV值筛选变量的方法和具体计算例子

01. IV法筛选变量简介

IV筛选变量方法

IV筛选变量方法较为简单，
先对变量进行离散化，然后用变量与y计算IV值，最后筛选掉IV较低的变量

如下：

02. IV值的计算与意义

下面我们介绍IV值的计算方法的它背后的意义

IV的计算公式

IV的计算公式如下：

简记为


其中：
     ：坏样本总个数
   ：坏样本且X为第i组的个数
：好样本且X为第i组的个数
    ：好样本总个数

备注：IV公式里的即

IV值的意义

IV值的意义是坏客户在每组的分布，与好客户在每组的分布的差异。
IV值越高，说明分布的区分度越高，也就是变量对区分y的作用越大，
也就是说，IV值越高,变量的价值越高

一般来说，
IV < 0.02 ：几乎没有区分度，
0.02 <= IV < 0.1   ：有微弱的区分度；
0.1 <= IV < 0.3   ：有明显的区分度；
0.3 <= IV             ：较强的区分度
实际中，IV值大于0.1的变量都保留下来，进行下一步分析

03. IV值筛选变量例子

下面我们通过一个例子，具体讲解如何使用IV值筛选变量

问题

现有数据如下,

问该变量可不可以入模

IV筛选变量过程

统计好坏样本在各组的分布如下：

利用好坏客户的分布，算得IV值如下：

得到性别的IV值为0.49
说明该变量价值较高，可以选择入模

04. 实际操作流程总结

IV值初筛变量具体流程如下：

1. 统计所有变量的IV值
2. 只筛选IV值>0.1的变量

如果变量过多，可以将0.1调为0.2

补充说明

IV值小并不说明变量完全无效。
所以IV值有误杀的风险。
它是变量过多（例如几百个变量）时进行初筛的一种方法。

End