逻辑回归应用教程

【推导】逻辑回归模型sigmoid推导-基于信息量

作者 : 老饼 发表日期 : 2022-09-22 06:00:59 更新日期 : 2024-10-05 10:41:14


本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com




总是疑问sigmoid函数怎么来的,怎么一下子就把WX转换成了概率
本文讲解,逻辑回归模型sigmoid函数由来的思路与推导

声明:由于没有找到具体的可靠文献,本文是笔者个人的理解,仅供参考





    01. 逻辑回归模型及其推导    




本节以信息量为基础,推导逻辑回归sigmoid模型是如何来的




      逻辑回归模型是如何来的     


逻辑回归模型的目的是判断样本为正样本的概率,
 
而当前我们并不知道样本的标签,但我们能获得的是样本的表征
因此,我们以样本的表征作为证据,一步一步去佐证样本究竟是正标签还是负标签就好了
逻辑回归模型原理与推导
在任何证据都没有的情况下,不妨设历史经验中,样本为正的概率为P0P_{0},则有:
知道标签"为正"时,所获信息量  : h+=ln(P)=ln(P0)h^{+} = -\ln(P)= -\ln(P_{0})                  
知道标签"为负"时,所获信息量: h=ln(1P)=ln(1P0)h^{-} = -\ln(1-P)= -\ln(1-P_{0})       
由于现在提供了n个证据x1,x2,...,xnx_1,x_2,...,x_n,不妨假设:
证据xix_i为"是正样本"这件事提供的信息量为wi+xiw_{i}^{+}x_i
证据xix_i为"是负样本"这件事提供的信息量为wixiw_{i}^{-}x_i
因此在已知x1,x2,...,xnx_1,x_2,...,x_n时,最终获得的信息量应扣除这些证据所提供的信息量
    知道标签"为正"时,所获信息量  :  h+=ln(P)=ln(P0)i=1Nwi+xi\small \displaystyle h^{+}= -\ln(P) = -\ln(P_{0})-\sum\limits_{i=1}^{N} w_{i}^{+}x_i           
     知道标签"为负"时,所获信息量: h=ln(1P)=ln(1P0)i=1Nwixi\small \displaystyle h^{-}= -\ln(1-P) = -\ln(1-P_{0})-\sum\limits_{i=1}^{N} w^{-}_{i}x_i  
 需要注意的是,信息量可以直接相加的前提条件是事件独立,即每个变量之间独立
 
则样本"是正"和"是负"时的信息量差为:Δh=h+h\small \displaystyle \Delta h = h^{+}-h^{-},即:
 lnP(ln(1P))=ln(P0)i=1Nwi+xi(ln(1P0)i=1Nwixi)lnP1P=lnP01P0i=1N(wi+wi)xi\small \displaystyle \begin{aligned} -\ln P - (-\ln(1-P)) & = -\ln(P_{0})-\sum\limits_{i=1}^{N} w_{i}^{+}x_i -(-\ln(1-P_{0})-\sum\limits_{i=1}^{N} w^{-}_{i}x_i) \\ -\ln \dfrac{P}{1-P} &=-\ln \dfrac{P_{0}}{1-P_{0}}-\sum\limits_{i=1}^{N} (w_{i}^{+}-w_{i}^{-})x_i \end{aligned}
不妨令 b=lnP01P0\small b = \ln \dfrac{P_{0}}{1-P_{0}}wi=wi+wi\small w_i=w_{i}^{+}-w_{i}^{-},则有:
 lnP1P=(i=1Nwixi+b)-\ln \dfrac{P}{1-P} =-(\sum\limits_{i=1}^{N}w_{i}x_i+b)
进一步化简,则有:
 lnP1P=(iwixi+b)ln1PP=(iwixi+b)1P1=e(iwixi+b)P=11+e(iwixi+b)\displaystyle \begin{aligned} -\ln \dfrac{P}{1-P}&=-(\sum\limits_{i}w_{i}x_i+b) \\\ln \dfrac{1-P}{P}&= -(\sum\limits_{i}w_{i}x_i+b) \\ \dfrac{1}{P}-1&=e^{-(\sum\limits_{i}w_{i}x_i+b)} \\P&=\dfrac{1}{1+e^{-(\sum\limits_{i}w_{i}x_i+b)}} \end{aligned}





   逻辑回归模型-总结   


总的来说,逻辑回归模型就是依靠一个一个的证据,来逐步增加对样本真实标签的认识
  逻辑回归模型表达式如下:
 
P(x)=sigmoid(XW)=11+e(w1x1+w2x2+....wkxk+b)P(x) = \text{sigmoid}(XW) = \dfrac{1}{1+e^{-(w_1x_1+w_2x_2+....w_kx_k+b)}} 
其中wixiw_ix_ibb的意义如下:
 wixi=wi+xiwixi\small w_ix_i=w_{i}^{+}x_i-w_{i}^{-}x_i,它代表每个证据xix_i贡献给"正样本"和"负样本"的信息量差 
 b=lnP01P0\small b = \ln \dfrac{P_{0}}{1-P_{0}},它代表历史先验概率贡献给"正样本"和"负样本"的信息量差       








 End 






联系老饼