【推导】逻辑回归模型sigmoid推导-基于odds

作者 : 老饼发表日期 : 2022-09-24 17:26:04 更新日期 : 2024-10-05 10:41:21

本站原创文章，转载请说明来自《老饼讲解-机器学习》www.bbbdata.com

逻辑回归是一个常用的二分类模型，它输出样本属于正样本的概率

本文基于odds与ln odds的概念，讲解逻辑回归模型是设计出来的，进一步加深对逻辑回归的理解

01. odds与ln odds是什么

本节讲解odds与ln odds是什么，作为下节讲解逻辑回归模型的基础知识

什么是odds

设一个样本是正样本的概率为p，则样本的正负概率比称为odds：

odds可以用来衡量样本偏向于正样本还是负样本：
当，此时，样本属于正负样本的概率相同
当，此时，样本的真实标签偏向正样本
当，此时，样本的真实标签偏向负样本

信息量差 ln odds

同样可以用于衡量样本偏向于正样本还是负样本
根据odds的定义，易知：

的含义为：当前掌握的信息量中，样本是倾向正标签还是倾负标签
当，此时p = 0.5，样本属于正负样本的概率相同
当，此时p > 0.5，样本的真实标签偏向正样本
当，此时p < 0.5，样本的真实标签偏向负样本

✍️ln odds 的含义详述
根据香农信息量，在我们获知真相时，我们获得的信息量为：
信息量h代表我们当前所缺失的信息，换个角度，则可以认为我们当前掌握的信息量为：

则有：当前掌握"样本为正"的信息量为：
当前掌握"样本为负"的信息量为：
由此可得，当前掌握的正、负信息量差为：

因此，代表当前掌握的信息量中，样本是倾向正标签还是倾负标签

02. 逻辑回归模型及其推导-基于odds

本节讲解如何基于odds推导逻辑回归模型，进一步理解逻辑回归模型的含义

逻辑回归模型表达式

逻辑回归模型是一个常用的二分类模型，它给出了样本属于正样本的概率
逻辑回归模型表达式如下：

直观来看，逻辑回归模型就是线性模型XW外再套一个sigmoid函数
而更本质地，它是基于信息学而给出的模型，下面讲解模型的详细原理

基于odds推导逻辑回归模型

下面我们基于odds推导逻辑回归模型的表达式是如何得来的
初始ln odds
设历史样本中，样本属于正样本的概率(即先验概率)为
则样本正负标签的信息量差为：

回顾：信息量差代表当前掌握的信息量中，样本是倾向正标签还是倾负标签

逻辑回归-用证据修正ln odds
  逻辑回归的思想是，每个样本的真实标签是未知的，但由于我们可以观察到样本的表征x
因此，可以把每一个x作为证据，通过充分利用每个证据的信息，不断修正
不妨设证据所包含的信息量差为，并有：
当为正时，代表证据中的信息偏向于正样本
当为负时，代表证据中的信息偏向于负样本
随着每一个证据的添加，得以纠正，最后则为：


记基础信息量差为，则有：


对上式进行化简，即可得到逻辑回归模型：

总的来说，逻辑回归模型中的阈值为基础信息量差
而每个则作为证据信息，不断补充、修正初始
最后得到修正后的，再反推就可以得到修正后的概率

End