优化器(optimizer)
目标: 最小化损失函数
过程: 在反向传播中, 根据学习率(lr)来对参数进行更新,最终逐步降低损失函数的大小, 使得神经网络输出更好(函数拟合的更好)
优点:
1. 前后梯度一致时能够加速学习
2. 前后梯度不一致时能够抑制震荡, 越过局部最小值
缺点:
1. 引入一个额外的参数 y
思想: 结合Momentum和RMSprop两种优化器的算法, 并引入一阶矩估计和二阶矩估计。
优点:
1. Adam能够自动调整每个参数的学习率, 能够很好地处理噪声和非平稳的训练数据
2. 相较于其他可变学习率(AdaGrad)的优化器, 提高了训练速度
总结:
如果在未知模型上进行训练, 可以先考虑使用Adam确保损失函数能够找到最小值, 即模型拟合的函数能够收敛,然后切换回SGD进行训练, 快速达到对应的值。