本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
线性回归中一般使用均方差作为损失函数,那均方差的背景意义是什么呢?
本文从概率的角度讲解,线性回归中均方差损失函数的实际意义。
本节分析线性回归中的误差及误差出现的概率
线性回归的误差假设
线性回归的误差
理想中 y与x的关系为 ,但由于除外,还受一些未知的因素的影响
因此,与并不完全相等,它们存在误差
误差服从的分布
现假设误差服从正态随机分布
从这个假设可知,某个样本的误差为 时的概率为
本节先分析线性回归误差最大似然函数
然后从最大似然函数的角度理解线性回归的均方差损失函数
最大似然函数
那么,根据最大似然函数的思想,
令所有样本同时出现的概率最大化即可
可以易得,最大似然函数如下:
P的意义是,
如果y=wx,P就是采到当前这种误差特征的样本集的概率
我们希望这个概率越大越好,
线性回归的问题也就变成求一w使得P最大的纯数学问题
最大似然函数与均方差的关系
直接求一w使得P最大,不太好求,
P中含有大量连乘,可以对P加上对数来去除连乘运算
因为加对数后的与 在同一w取得最大值
因此上述问题可以转为求一w使得最大
要令 最大
实际只需令 最小
可知,
线性回归中以均方差作为损失函数
实际上就是最大化样本的最大似然函数
总结
线性回归中,令 最小的本质意义
是假设未知因素带来的误差服从正态分布
求一个w,
使得采集到当前(这样的误差特征的)样本数据的概率最大
参考文章
《机器学习一问一答(1):线性回归》:https://zhuanlan.zhihu.com/p/75217411?from=singlemessage
End