本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
bins.merge.allEnum- 完全枚举分箱函数
bins.merge.allEnum用于将样本进行完全枚举,即每种取值都作一个分箱,然后返回分箱的结果
完整调用格式如下:
bin_set = bins.merge.allEnum(x)
1. 入参说明
数据类型:单列pandas.core.series或numpy.array
2. 出参说明
allEnum的设计初衷:
往往变量只有几种或几十种取值可能,这时希望先看看各种取值上的分布
因此设计了allEnum来列举取各种取值,这样方便快速了解变量在各种取值上的分布
allEnum使用示例如下:
import bbbrisk as br
# 加载数据
data = br.datasets.load_bloan() # 加载数据
x,y = data['city'],data['is_bad'] # 变量与标签
# 完全枚举分箱
bin_set = br.bins.merge.allEnum(x) # 将变量进行完全枚举本分箱
bin_stat = br.bins.Bins(bin_set).binStat(x,y) # 统计分箱结果
# 显示结果
br.display.pd.set(width=300,max_colwidth=30,max_rows=30) # 美化pandas的显示方式
print('\n分箱结果:\nbin_set = ',bin_set) # 显示分箱结果
print('\n样本在分箱的分布:\n',bin_stat) # 显示样本分布
运行结果如下:
从结果中可以看到,allEnum把x的所有取值可能都作为一个分箱,通过allEnum可以快速看到样本各个取值的分布
好了,以上就是bins.merge.allEnum函数的使用方法了~
End