【算法】一篇入门之-动量梯度下降法

作者 : 老饼发表日期 : 2022-06-26 03:49:19 更新日期 : 2024-10-07 16:37:51

本站原创文章，转载请说明来自《老饼讲解-BP神经网络》bp.bbbdata.com

动量梯度下降法是梯度下降法的一种改进，它加入了动量机制来达到跳出局部最优

本文讲解动量梯度下降算法的原理与算法流程，并展示一个动量梯度下降法的具体代码例子

通过本文可以快速了解什么是动量梯度下降算法，以及如何使用动量梯度下降算法来解决函数优化问题

01.动量梯度下降法介绍

本节介绍动量梯度下降法的思想以及迭代公式

动量梯度下降法的简介与思想

动量梯度下降法(gradient descent with momentum)是一种加入动量项的梯度下降法
它是对梯度下降法的一种改进，解决梯度下降法毫无办法跳出局部最优的缺点

为了能够跳出局部最优，动量梯度下降法借鉴了物体从高处滚到低处的原理，
由于物体下坡时具有动量，遇到小坑时会由于原有动量的推动，从而跃出小坑

因此，动量梯度下降法在迭代的过程中引入动量的概念
动量梯度下降法迭代公式如下：


其中，：动量系数，一般设为0.9
  ：负梯度
解释：公式整体的意思是，将"速度"作为X的迭代量，而负梯度则作为速度的修改量
其中，mc是原速度的权重,(1-mc)是加速度(负梯度)的权重
这样做的好处是，在遇到“小坑”的时候，会保持原有的速度方向，冲出小坑

02.动量梯度下降法介绍

本节介绍动量梯度下降法的算法流程

动量梯度下降法的算法流程

动量梯度下降法的具体算法流程如下
一、设置参数与初始化相关变量
1. 设置学习率lr
lr一般设为0.1
2. 设置动量系数mc
mc一般设为0.9
3. 初始化速度v
v一般初始化为0
4. 初始化初始解x
x随机初始化,或者具体问题具体设定
二、循环迭代
  按如下步骤进行迭代
1.计算当前的梯度g
2.计算当前的梯度对v带来的修改量dv

3.计算当前的速度

4.更新x

5.检查迭代终止条件
如果满足终止条件，就退出迭代程序
终止条件可设如下：
(1)是否达到最大迭代次数
(2)目标函数值是否满足要求
(3) x是否多次变化极小
三、输出结果
输出最终的求解结果x

动量梯度下降-算法流程图

动量梯度下降法的算法流程图如下：

03.动量梯度下降法代码实例

本节展示动量梯度下降法求解函数最小值的一个代码实例

动量梯度下降法实例代码

现求解的极小值
其中，梯度公式为
按照动量梯度下降算法流程，编写程序如下：

# 本代码用动量梯度下降法求解函数y = 0.4*x^2+3*exp(-(x+2)^2) 的极小值
# 代码主旨用于教学,供大家学习理解动量梯度下降法的原理
# 转载请说明来自 《老饼讲解机器学习》 www.bbbdata.com
import numpy as np 
import matplotlib.pyplot as plt

line_x = np.arange(-5,5.01,0.1)                # 目标函数曲线x
line_y = 0.4*line_x**2+3*np.exp(-(line_x+2)**2);  # 目标函数曲线y
lr = 0.1;                                      # 学习率
mc = 0.9;                                      # 动量系数
x  = -4;                                       # x的初始值
v  = 0;                                        # 初始速度
plt.figure(figsize=(8, 4))                     # 设置绘图的大小
for i in range(100) :                          #
   gx = -(0.8*x-6*np.exp(-(x+2)**2)*(x+2));    # 计算负梯度
   v  = mc*v+(1-mc)*lr*gx;                     # 将负梯度叠加到上一次速度中，作为本次的速度
   x  = x+v;                                   # 更新x
   y  = 0.4*x**2+3*np.exp(-(x+2)**2);          # 计算当前的目标函数值
   print('第%d轮x的迭代值x=%f'%(i,x))           #
   # ----绘图----
   plt.clf()
   plt.plot(line_x,line_y)
   plt.scatter(x,y, marker='o', color='none',edgecolors='b',s=60)
   plt.draw()#注意此函数需要调用
   plt.pause(0.01)

运行结果如下:

第0轮x的迭代值x=-3.970198
第1轮x的迭代值x=-3.914051
第2轮x的迭代值x=-3.835152
第3轮x的迭代值x=-3.737256
第4轮x的迭代值x=-3.624348
....
第95轮x的迭代值x=0.033763
第96轮x的迭代值x=0.037061
第97轮x的迭代值x=0.041660
第98轮x的迭代值x=0.047361
第99轮x的迭代值x=0.053971
经过100步迭代，求得最后y在x=0.053971处取得极小值

End