本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
总是疑问sigmoid函数怎么来的,怎么一下子就把WX转换成了概率
本文讲解,逻辑回归模型sigmoid函数由来的思路与推导
声明:由于没有找到具体的可靠文献,本文是笔者个人的理解,仅供参考
01. 逻辑回归模型及其推导
本节以信息量为基础,推导逻辑回归sigmoid模型是如何来的
逻辑回归模型是如何来的
逻辑回归模型的目的是判断样本为正样本的概率,

而当前我们并不知道样本的标签,但我们能获得的是样本的表征
因此,我们以样本的表征作为证据,一步一步去佐证样本究竟是正标签还是负标签就好了
逻辑回归模型原理与推导
在任何证据都没有的情况下,不妨设历史经验中,样本为正的概率为P0,则有:
知道标签"为正"时,所获信息量 : h+=−ln(P)=−ln(P0)
知道标签"为负"时,所获信息量: h−=−ln(1−P)=−ln(1−P0)
由于现在提供了n个证据x1,x2,...,xn,不妨假设:
证据xi为"是正样本"这件事提供的信息量为wi+xi
证据xi为"是负样本"这件事提供的信息量为wi−xi
因此在已知x1,x2,...,xn时,最终获得的信息量应扣除这些证据所提供的信息量
知道标签"为正"时,所获信息量 : h+=−ln(P)=−ln(P0)−i=1∑Nwi+xi
知道标签"为负"时,所获信息量: h−=−ln(1−P)=−ln(1−P0)−i=1∑Nwi−xi
需要注意的是,信息量可以直接相加的前提条件是事件独立,即每个变量之间独立

则样本"是正"和"是负"时的信息量差为:Δh=h+−h−,即:
−lnP−(−ln(1−P))−ln1−PP=−ln(P0)−i=1∑Nwi+xi−(−ln(1−P0)−i=1∑Nwi−xi)=−ln1−P0P0−i=1∑N(wi+−wi−)xi
不妨令 b=ln1−P0P0,wi=wi+−wi−,则有:
−ln1−PP=−(i=1∑Nwixi+b)
进一步化简,则有:
−ln1−PPlnP1−PP1−1P=−(i∑wixi+b)=−(i∑wixi+b)=e−(i∑wixi+b)=1+e−(i∑wixi+b)1
逻辑回归模型-总结
总的来说,逻辑回归模型就是依靠一个一个的证据,来逐步增加对样本真实标签的认识
逻辑回归模型表达式如下:
P(x)=sigmoid(XW)=1+e−(w1x1+w2x2+....wkxk+b)1
其中wixi与b的意义如下:
wixi=wi+xi−wi−xi,它代表每个证据xi贡献给"正样本"和"负样本"的信息量差
b=ln1−P0P0,它代表历史先验概率贡献给"正样本"和"负样本"的信息量差
End