本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
逻辑回归是一个常用的二分类模型,它输出样本属于正样本的概率
本文基于odds与ln odds的概念,讲解逻辑回归模型是设计出来的,进一步加深对逻辑回归的理解
本节讲解odds与ln odds是什么,作为下节讲解逻辑回归模型的基础知识
什么是odds
设一个样本是正样本的概率为p,则样本的正负概率比称为odds:
odds可以用来衡量样本偏向于正样本还是负样本:
当,此时 ,样本属于正负样本的概率相同
当,此时 ,样本的真实标签偏向正样本
当,此时 ,样本的真实标签偏向负样本
信息量差 ln odds
同样可以用于衡量样本偏向于正样本还是负样本
根据odds的定义,易知:
的含义为:当前掌握的信息量中,样本是倾向正标签还是倾负标签
当,此时p = 0.5,样本属于正负样本的概率相同
当,此时p > 0.5,样本的真实标签偏向正样本
当,此时p < 0.5,样本的真实标签偏向负样本
✍️ln odds 的含义详述
根据香农信息量,在我们获知真相时,我们获得的信息量为:
信息量h代表我们当前所缺失的信息,换个角度,则可以认为我们当前掌握的信息量为:
则有:当前掌握"样本为正"的信息量为:
当前掌握"样本为负"的信息量为:
由此可得,当前掌握的正、负信息量差为:
因此,代表当前掌握的信息量中,样本是倾向正标签还是倾负标签
本节讲解如何基于odds推导逻辑回归模型,进一步理解逻辑回归模型的含义
逻辑回归模型表达式
逻辑回归模型是一个常用的二分类模型,它给出了样本属于正样本的概率
逻辑回归模型表达式如下:
直观来看,逻辑回归模型就是线性模型XW外再套一个sigmoid函数
而更本质地,它是基于信息学而给出的模型,下面讲解模型的详细原理
基于odds推导逻辑回归模型
下面我们基于odds推导逻辑回归模型的表达式是如何得来的
初始ln odds
设历史样本中,样本属于正样本的概率(即先验概率)为
则样本正负标签的信息量差为:
回顾:信息量差代表当前掌握的信息量中,样本是倾向正标签还是倾负标签
逻辑回归-用证据修正ln odds
逻辑回归的思想是,每个样本的真实标签是未知的,但由于我们可以观察到样本的表征x
因此,可以把每一个x作为证据,通过充分利用每个证据的信息,不断修正
不妨设证据所包含的信息量差为,并有:
当为正时,代表证据中的信息偏向于正样本
当为负时,代表证据中的信息偏向于负样本
随着每一个证据的添加,得以纠正,最后则为:
记基础信息量差为,则有:
对上式进行化简,即可得到逻辑回归模型:
总的来说,逻辑回归模型中的阈值为基础信息量差
而每个则作为证据信息,不断补充、修正初始
最后得到修正后的,再反推就可以得到修正后的概率
End