本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
CART决策树一般使用GINI系数替代了熵函数来评估树纯度,因为它的计算量少、效果好
本文讲解CART决策树中GINI系数的公式和它背后的含义,以及GINI系数的具体详细推导过程
通过本文,可以具体了解CART决策树中的GINI系数含义是什么,以及它是怎么推导出来的
本节介绍决策树中GINI系数的原理及推导过程
GINI系数-公式与推导
决策树中使用的GINI公式并非GINI系数的通用形式
下面我们先介绍GINI系数公式的通用形式
GINI系数公式与含义
设集合中有K个类别,则称两次抽到不同类别的概率为GINI系数
GINI基尼系数的公式如下:
其中,K是集合的类别个数,代表每次抽到第i类的概率
✍️GINI系数公式的推导过程
第一次抽到Ci类,第二次没抽到 Ci类的概率为:
第一次抽到的可能现象是C1,C2....Ck,则两次抽到不一样的概率:
决策树GINI系数-公式与推导
决策树中使用的GINI公式是上述通用GINI系数公式的特殊应用
决策树中使用的GINI系数公式可在在上述GINI系数公式的基础上进一步推导得到
决策树基尼系数公式的具体推导过程如下:
假设节点上有个样本,属于 类的样本有个
那么抽到类样本的概率为
将代入基尼系数的公式,则易知该节点上的基尼系数表达为
其中
:该节点上的样本数
:该节点上属于 类的个数
G代表在节点上,随机抽两个样本,这两个样本属于不同类的概率
以上就是决策树中的GINI系数的推导过程了
End