动量方法与Adam优化器的比较_华清远见教育科技集团

当前位置：首页 > 学习资源 > 讲师博文 > 动量方法与Adam优化器的比较

动量方法与Adam优化器的比较时间：2025-02-20 来源：华清远见

优化器(optimizer)

目标: 最小化损失函数

过程：在反向传播中, 根据学习率(lr)来对参数进行更新，最终逐步降低损失函数的大小, 使得神经网络输出更好(函数拟合的更好)

优点:

1. 前后梯度一致时能够加速学习

2. 前后梯度不一致时能够抑制震荡, 越过局部最小值

缺点:

1. 引入一个额外的参数 y

思想: 结合Momentum和RMSprop两种优化器的算法, 并引入一阶矩估计和二阶矩估计。

优点:

1. Adam能够自动调整每个参数的学习率, 能够很好地处理噪声和非平稳的训练数据

2. 相较于其他可变学习率(AdaGrad)的优化器, 提高了训练速度

总结：

如果在未知模型上进行训练, 可以先考虑使用Adam确保损失函数能够找到最小值, 即模型拟合的函数能够收敛,然后切换回SGD进行训练, 快速达到对应的值。

戳我查看嵌入式每月就业风云榜

点我了解华清远见高校学霸学习秘籍

猜你关心企业是如何评价华清学员的

干货分享