机器学习-专题详述

【推导】逻辑回归模型sigmoid推导-基于odds

作者 : 老饼 发表日期 : 2022-09-24 17:26:04 更新日期 : 2024-10-05 10:41:21
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com



逻辑回归是一个常用的二分类模型,它输出样本属于正样本的概率

本文基于odds与ln odds的概念,讲解逻辑回归模型是设计出来的,进一步加深对逻辑回归的理解




     01. odds与ln odds是什么     




本节讲解odds与ln odds是什么,作为下节讲解逻辑回归模型的基础知识




      什么是odds      


设一个样本是正样本的概率为p,则样本的正负概率比称为odds:
 
 odds可以用来衡量样本偏向于正样本还是负样本:
,此时 ,样本属于正负样本的概率相同
,此时 ,样本的真实标签偏向正样本   
,此时 ,样本的真实标签偏向负样本   




     信息量差 ln odds     


 同样可以用于衡量样本偏向于正样本还是负样本 
 根据odds的定义,易知:
 
 的含义为:当前掌握的信息量中,样本是倾向正标签还是倾负标签
,此时p = 0.5,样本属于正负样本的概率相同
,此时p > 0.5,样本的真实标签偏向正样本   
,此时p < 0.5,样本的真实标签偏向负样本  
✍️ln odds 的含义详述
根据香农信息量,在我们获知真相时,我们获得的信息量为:
信息量h代表我们当前所缺失的信息,换个角度,则可以认为我们当前掌握的信息量为:
 
则有:当前掌握"样本为正"的信息量为:                     
当前掌握"样本为负"的信息量为: 
 由此可得,当前掌握的正、负信息量差为:
 
因此,代表当前掌握的信息量中,样本是倾向正标签还是倾负标签







    02. 逻辑回归模型及其推导-基于odds    



本节讲解如何基于odds推导逻辑回归模型,进一步理解逻辑回归模型的含义





    逻辑回归模型表达式    


逻辑回归模型是一个常用的二分类模型,它给出了样本属于正样本的概率
 逻辑回归模型表达式如下:
 
 
  
直观来看,逻辑回归模型就是线性模型XW外再套一个sigmoid函数
而更本质地,它是基于信息学而给出的模型,下面讲解模型的详细原理




      基于odds推导逻辑回归模型    


 下面我们基于odds推导逻辑回归模型的表达式是如何得来的
初始ln odds

设历史样本中,样本属于正样本的概率(即先验概率)为
则样本正负标签的信息量差为:
  
 回顾:信息量差代表当前掌握的信息量中,样本是倾向正标签还是倾负标签
逻辑回归-用证据修正ln odds
  逻辑回归的思想是,每个样本的真实标签是未知的,但由于我们可以观察到样本的表征x
因此,可以把每一个x作为证据,通过充分利用每个证据的信息,不断修正

不妨设证据所包含的信息量差为,并有:
 为正时,代表证据中的信息偏向于正样本
为负时,代表证据中的信息偏向于负样本
 随着每一个证据的添加,得以纠正,最后则为:
  

记基础信息量差,则有:
    

 对上式进行化简,即可得到逻辑回归模型:
 
总的来说,逻辑回归模型中的阈值为基础信息量差
而每个则作为证据信息,不断补充、修正初始
最后得到修正后的,再反推就可以得到修正后的概率









 End 







联系老饼