关于我们 摩登7注册
咨询热线:

020-88888888

联系我们CONTACT

摩登7-摩登7注册植物园绿化工程
邮箱:youweb@admin.com
手机:13899999999
电话:020-88888888
地址:广东省广州市番禺经济开发区

行业动态

当前位置: 主页 > 新闻中心 > 行业动态

优化器 简述公式及其如何选择

发布时间:2024-04-22 14:59 点击量:

? 神经网络参数优化器
? 待优化参数w,损失函数loss,学习率lr,每次迭代一个batch,t表示当前batch迭代的总次数!
? 1.计算时刻损失函数关于当前参数的梯度:?三角形为微分算符
~
? 2.计算t时刻一阶动量mt和二阶动量Vt
? 3.计算时刻下降梯度:
图3
~
? 4.计算t+1时刻参数:
图4

一阶动量:与梯度相关的函数
二阶动量:与梯度平方相关的函数

~
优化器演化流程:
SGD -> SGDM -> NAG ->AdaGrad -> RMSProp/AdaDelta -> Adam -> Nadam 这样的发展历程,下面逐一介绍每个公式,不用担心公式看不懂,都是围绕上述1,2,3,4个公式带入动量参数既是优化公式。? 不愿意细磨公式的可以到最下看如何在对应情况下选择不同的优化器(最底附上代码资源链接)

在这里插入图片描述
?这个公式则是最初代的公式,下面的每一个公式都是往里面带入一阶动量或者二阶动量即可。

在这里插入图片描述
相公式代码如下:

 
 

在这里插入图片描述

相公式代码如下:

 
 

在这里插入图片描述
相公式代码如下:

 
 

在这里插入图片描述

相公式代码如下:

 
 

1.如果数据是稀疏的,就用自适用方法,即 Adagrad, Adadelta, RMSprop, Adam

2.RMSprop, Adadelta, Adam 在很多情况下的效果是相似的,Adam 就是在 RMSprop 的基础上加了 bias-correction 和 momentum。

3.随着梯度变的稀疏,Adam 比 RMSprop 效果会好。

4.整体来讲,Adam 是最好的选择,如果你不知道选什么建议优先选择Adam,也有很多大神选择SGDM

5.很多以前论文里都会用 SGD,没有 momentum 等。SGD 虽然能达到极小值,但是比其它算法用的时间长,而且可能会被困在鞍点。 如果需要更快的收敛,或者是训练更深更复杂的神经网络,需要用一种自适应(有二阶动量)的算法。

Acc与loss对比

运行耗时结果对比

最后,附上源码与运行截图文件。源码与word文件链接

平台注册入口