【说明】bins.merge.ks

作者 : 老饼发表日期 : 2022-06-26 14:14:46 更新日期 : 2025-03-05 16:11:54

本站原创文章，转载请说明来自《老饼讲解-机器学习》www.bbbdata.com

bins.merge.ks- KS分箱(连续变量)函数

一、函数说明

bins.merge.chi2用于将连续变量进行ks分箱，返回分箱的结果

ks分箱就是先将整体作为一个分箱，然后用KS作为切割依据，不断将分箱一分为二，直到分为目标箱数

bins.merge.ks的完整调用格式如下：

 bin_set = bins.merge.ks(x,y,bin_num=5,min_sample=None)

1. 入参说明

x：需要进行分箱的变量

数据类型：单列pandas.core.series或numpy.array

y：好坏标签，0为好，1为坏

数据类型：单列pandas.core.series或numpy.array

bin_num：目标分箱个数

数据类型：正整数

min_sample：最小样本个数

数据类型：正整数或None

min_sample=None时，它取值为样本数/5/3，这样一般会分为5个箱左右

备注：KS分箱有终止条件(例如样本数过少),所以最终分箱数量不一定等于目标箱数

2. 出参说明

bin_set：等距分箱的结果

二、函数示例

ks使用示例如下：

import bbbrisk as br					
           
# 加载数据                    
data = br.datasets.load_bloan()                               # 加载数据
x,y  = data['rev'],data['is_bad']                             # 变量与标签		

# KS分箱				           
bin_set  = br.bins.merge.ks(x,y,bin_num=5,min_sample=None)    # 将变量进行KS分箱
bin_stat = br.bins.Bins(bin_set).binStat(x,y)                 # 统计分箱结果

# 显示结果
br.display.pd.set(width=300,max_colwidth=30,max_rows=30)      # 美化pandas的显示方式
print('\n分箱结果:\nbin_set = ',bin_set)                      # 显示分箱结果
print('\n样本在分箱的分布:\n',bin_stat)                       # 显示样本分布

运行结果如下：

好了，以上就是bins.merge.ks函数的使用方法了~

End