本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
IV值筛选变量也是小贷风控模型中常用的选择变量的方法
本文讲解IV值筛选变量的方法和具体计算例子
IV筛选变量方法
IV筛选变量方法较为简单,
先对变量进行离散化,然后用变量与y计算IV值,最后筛选掉IV较低的变量
如下:
下面我们介绍IV值的计算方法的它背后的意义
IV的计算公式
IV的计算公式如下:
简记为
其中:
:坏样本总个数
:坏样本且X为第i组的个数
:好样本且X为第i组的个数
:好样本总个数
备注:IV公式里的 即
IV值的意义
IV值的意义是坏客户在每组的分布,与好客户在每组的分布的差异。
IV值越高,说明分布的区分度越高,也就是变量对区分y的作用越大,
也就是说,IV值越高,变量的价值越高
一般来说,
IV < 0.02 :几乎没有区分度,
0.02 <= IV < 0.1 :有微弱的区分度;
0.1 <= IV < 0.3 :有明显的区分度;
0.3 <= IV :较强的区分度
实际中,IV值大于0.1的变量都保留下来,进行下一步分析
下面我们通过一个例子,具体讲解如何使用IV值筛选变量
问题
现有数据如下,
问该变量可不可以入模
IV筛选变量过程
统计好坏样本在各组的分布如下:
利用好坏客户的分布,算得IV值如下:
得到性别的IV值为0.49
说明该变量价值较高,可以选择入模
IV值初筛变量具体流程如下:
1. 统计所有变量的IV值
2. 只筛选IV值>0.1的变量
如果变量过多,可以将0.1调为0.2
补充说明
IV值小并不说明变量完全无效。
所以IV值有误杀的风险。
它是变量过多(例如几百个变量)时进行初筛的一种方法。
End