? 神经网络参数优化器
? 待优化参数w,损失函数loss,学习率lr,每次迭代一个batch,t表示当前batch迭代的总次数!
? 1.计算时刻损失函数关于当前参数的梯度:
~
? 2.计算t时刻一阶动量mt和二阶动量Vt
? 3.计算时刻下降梯度:
~
? 4.计算t+1时刻参数:
一阶动量:与梯度相关的函数
二阶动量:与梯度平方相关的函数
~
优化器演化流程:
SGD -> SGDM -> NAG ->AdaGrad -> RMSProp/AdaDelta -> Adam -> Nadam 这样的发展历程,下面逐一介绍每个公式,不用担心公式看不懂,都是围绕上述1,2,3,4个公式带入动量参数既是优化公式。? 不愿意细磨公式的可以到最下看如何在对应情况下选择不同的优化器(最底附上代码资源链接)。
?这个公式则是最初代的公式,下面的每一个公式都是往里面带入一阶动量或者二阶动量即可。
相公式代码如下:
相公式代码如下:
相公式代码如下:
相公式代码如下:
1.如果数据是稀疏的,就用自适用方法,即 Adagrad, Adadelta, RMSprop, Adam。
2.RMSprop, Adadelta, Adam 在很多情况下的效果是相似的,Adam 就是在 RMSprop 的基础上加了 bias-correction 和 momentum。
3.随着梯度变的稀疏,Adam 比 RMSprop 效果会好。
4.整体来讲,Adam 是最好的选择,如果你不知道选什么建议优先选择Adam,也有很多大神选择SGDM。
5.很多以前论文里都会用 SGD,没有 momentum 等。SGD 虽然能达到极小值,但是比其它算法用的时间长,而且可能会被困在鞍点。 如果需要更快的收敛,或者是训练更深更复杂的神经网络,需要用一种自适应(有二阶动量)的算法。
最后,附上源码与运行截图文件。源码与word文件链接