机器学习-入门

【算法】一篇入门之-动量梯度下降法

作者 : 老饼 发表日期 : 2022-06-26 03:49:19 更新日期 : 2024-12-23 08:19:02
本站原创文章,转载请说明来自《老饼讲解-BP神经网络》bp.bbbdata.com



动量梯度下降法是梯度下降法的一种改进,它加入了动量机制来达到跳出局部最优

本文讲解动量梯度下降算法的原理与算法流程,并展示一个动量梯度下降法的具体代码例子

通过本文可以快速了解什么是动量梯度下降算法,以及如何使用动量梯度下降算法来解决函数优化问题




   01.动量梯度下降法介绍   




本节介绍动量梯度下降法的思想以及迭代公式




     动量梯度下降法的简介与思想      


动量梯度下降法(gradient descent with momentum)是一种加入动量项的梯度下降法
它是对梯度下降法的一种改进,解决梯度下降法毫无办法跳出局部最优的缺点
 梯度下降法的缺点
为了能够跳出局部最优,动量梯度下降法借鉴了物体从高处滚到低处的原理,
由于物体下坡时具有动量,遇到小坑时会由于原有动量的推动,从而跃出小坑
 动量梯度下降法的原理
因此,动量梯度下降法在迭代的过程中引入动量的概念
 动量梯度下降法迭代公式如下:
  
                                         
 其中,:动量系数,一般设为0.9    
 
 :负梯度            
 解释:公式整体的意思是,将"速度"作为X的迭代量,而负梯度则作为速度的修改量
其中,mc是原速度的权重,(1-mc)是加速度(负梯度)的权重         

这样做的好处是,在遇到“小坑”的时候,会保持原有的速度方向,冲出小坑






   02.动量梯度下降法介绍   




本节介绍动量梯度下降法的算法流程




     动量梯度下降法的算法流程      


动量梯度下降法的具体算法流程如下
 一、设置参数与初始化相关变量                                 
1. 设置学习率lr                                               
 lr一般设为0.1                          
2. 设置动量系数mc                                        
 mc一般设为0.9                        
3. 初始化速度v                                              
 v一般初始化为0                       
4. 初始化初始解x                                          
 x随机初始化,或者具体问题具体设定    
 二、循环迭代                                                            
  按如下步骤进行迭代                       
1.计算当前的梯度g                                         
2.计算当前的梯度对v带来的修改量dv             
             
3.计算当前的速度                                          

4.更新x                                                         
                
5.检查迭代终止条件                                      
如果满足终止条件,就退出迭代程序        
 终止条件可设如下:                 
(1)是否达到最大迭代次数         
(2)目标函数值是否满足要求       
(3) x是否多次变化极小          
 
 三、输出结果                                                            
输出最终的求解结果x                                   




     动量梯度下降-算法流程图      


动量梯度下降法的算法流程图如下:
 动量梯度下降法的算法流程图







   03.动量梯度下降法代码实例  




本节展示动量梯度下降法求解函数最小值的一个代码实例




       动量梯度下降法实例代码      


现求解 的极小值
其中,梯度公式为 
按照动量梯度下降算法流程,编写程序如下:
# 本代码用动量梯度下降法求解函数y = 0.4*x^2+3*exp(-(x+2)^2) 的极小值
# 代码主旨用于教学,供大家学习理解动量梯度下降法的原理
# 转载请说明来自 《老饼讲解机器学习》 www.bbbdata.com
import numpy as np 
import matplotlib.pyplot as plt

line_x = np.arange(-5,5.01,0.1)                # 目标函数曲线x
line_y = 0.4*line_x**2+3*np.exp(-(line_x+2)**2);  # 目标函数曲线y
lr = 0.1;                                      # 学习率
mc = 0.9;                                      # 动量系数
x  = -4;                                       # x的初始值
v  = 0;                                        # 初始速度
plt.figure(figsize=(8, 4))                     # 设置绘图的大小
for i in range(100) :                          #
   gx = -(0.8*x-6*np.exp(-(x+2)**2)*(x+2));    # 计算负梯度
   v  = mc*v+(1-mc)*lr*gx;                     # 将负梯度叠加到上一次速度中,作为本次的速度
   x  = x+v;                                   # 更新x
   y  = 0.4*x**2+3*np.exp(-(x+2)**2);          # 计算当前的目标函数值
   print('第%d轮x的迭代值x=%f'%(i,x))           #
   # ----绘图----
   plt.clf()
   plt.plot(line_x,line_y)
   plt.scatter(x,y, marker='o', color='none',edgecolors='b',s=60)
   plt.draw()#注意此函数需要调用
   plt.pause(0.01)
运行结果如下:
 动量梯度下降法实例代码运行结果
第0轮x的迭代值x=-3.970198
第1轮x的迭代值x=-3.914051
第2轮x的迭代值x=-3.835152
第3轮x的迭代值x=-3.737256
第4轮x的迭代值x=-3.624348
....
第95轮x的迭代值x=0.033763
第96轮x的迭代值x=0.037061
第97轮x的迭代值x=0.041660
第98轮x的迭代值x=0.047361
第99轮x的迭代值x=0.053971
经过100步迭代,求得最后y在x=0.053971处取得极小值









 End 







联系老饼