本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
odds是正样本与负样本的概率比,而ln odds则是odds的对数,它们是逻辑回归模型中常用的概念
本文讲解odds与ln odds的定义与图像,以及它们与样本正负的关系,并进一步解释它们背后意义
通过本文,可以快速了解odds与ln odds是什么,以及它们所代表的业务意义、用途
本节讲解odds是什么,以及它的业务意义是什么
什么是odds
设一个样本是正样本的概率为p,则样本的正负概率比称为odds:
odds可以用来衡量样本偏向于正样本还是负样本:
当,此时 ,样本属于正负样本的概率相同
当,此时 ,样本的真实标签偏向正样本
当,此时 ,样本的真实标签偏向负样本
odds的业务意义
由于逻辑回归广泛应用于金融小贷,所以下面以小贷中的业务来举例讲解
在小贷业务中,p代表客户是坏客户的概率同,而(1-p)则是好客户的概率
通过odds,可以更直观地看到该客户是否值得放款,如下:
设一个坏客户带来的损失是cost,一个好客户带来的收益是benefit
那么放款后带来的损失期望为,收益的期望为
当损失与收益相等时,就是临界点,即:
从而有:
所以,当一个样本的时,那么该客户就可以带来收益
其它业务是类似的,总的来说,可以直接通过odds知道样本是否可以带来收益
本节介绍ln odds是什么,以及它的意义
信息量差 ln odds
同样可以用于衡量样本偏向于正样本还是负样本
ln odds的定义如下:
与正样本、负样本的偏向关系如下:
当,此时p = 0.5,样本属于正负样本的概率相同
当,此时p > 0.5,样本的真实标签偏向正样本
当,此时p < 0.5,样本的真实标签偏向负样本
ln odds 的含义
的含义为:当前掌握的信息量中,样本是倾向正标签还是倾负标签
根据香农信息量,在我们获知真相时,我们获得的信息量为:
信息量h代表我们当前所缺失的信息,换个角度,则可以认为我们当前掌握的信息量为:
则有:当前掌握"样本为正"的信息量为:
当前掌握"样本为负"的信息量为:
由此可得,当前掌握的正、负信息量差为:
因此,代表当前掌握的信息量中,样本是倾向正标签还是倾负标签
好了,以上就是odds与ln odds的定义与含义了~
End