本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
过拟合是机器学习中常见的现象,不同模型有不同的特性,对避免过拟合也就会有不同方案,
本文分析并讲解,逻辑回归应如何避免过拟合
本节分析逻辑回归过拟合主要受什么原因影响
过拟合回顾
过拟合是什么
过拟合是指模型对y的拟合能力过强,导致模型参数过于追求数据上的拟合,
而产生违背真实规则的结果
如何避免过拟合
我们一般会通过以下两个方面,去避免模型过拟合:
1、合理抑制模型的拟合能力
拟合能力来源于如下两方面:
(1)单个变量对y的塑造能力
(2)变量个数
2、排除违背真实关系的结果
往往系数过大就会违背真实关系
同时系数过大会带来以下两方面的危害
(1)放大输入误差
(2)模型对输入过于敏感
通用的是加正则项排除系数过大的结果
逻辑回归过拟合来源分析
针对逻辑回归的过拟合,分析如下:
关于逻辑回归的单变量塑造能力
逻辑回归单个变量对y就是是S形函数,拟合能力很有限,
所以逻辑回归的过拟合来源主要不来自单变量的拟合能力
关于变量个数对逻辑回归过拟合的影响
变量个数是逻辑回归过拟合的主要来源,
每增加一个变量,就增加了一维 ,使得逻辑回归的拟合能力大大增强
关于系数过大对逻辑回归过拟合的影响
由于逻辑回归是S型函数,不会造成数据点间的峰(谷)形态
因此,即使系数过大时,模型也不会因此而跌宕,仅会造成误差放大问题
根据以上分析,逻辑回归要避免过拟合,重心主要在于以下两点
👉变量个数
👉系数的合理性
本节展示在逻辑回归建模过程中,一般采取的抑制过拟合的手段
逻辑回归预防过拟合的手段
逻辑回归主要通过减少变量个数与提升系数合理性两方面来避免过拟合
逻辑回归控制变量个数的手段
在逻辑回归中,控制变量个数的手段主要如下:
1. 业务手段:把逻辑不成立的变量去除
2. 数据分析手段:相关性较大的变量只保留一个
3. 建模手段:采用逐步回归的方式进行建模
总的来说,通过业务手段、分析手段将变量的个数尽量减少,
再在建模阶段采用逐步回归来逐个挑选对模型效果有效的变量,以此减少变量个数
逻辑回归控制系数过大的手段
在逻辑回归中,控制系数过大的手段如下:
1. 正则化手段:一般通过添加L2正则项来惩罚过大的系数
2. 业务审查:建模完成后,通过业务常识来判断模型是否需要重新训练
由加入正则项,实际是在“小化权重”与准确率间取平衡点,
即在"小化权重"的同时牺牲了求解的准确率,因此,建模一开始并不加入正则项,
而是训练好模型后,如果各个变量的w有极大值,且与业务逻辑不符合时,再添加正则化重新训练,
老饼有话说
一般来说,只要变量处理好了,逻辑回归基本不会出现过拟合
在生产中我们入模变量基本都是质量较好的变量,因此过拟合基本不会发生
如果真的出现过拟合时,再采取上述方案也不迟
End