当前位置:首页 > 学习资源 > 讲师博文 > 动量方法与Adam优化器的比较

动量方法与Adam优化器的比较 时间:2025-02-20      来源:华清远见

优化器(optimizer)

目标:  最小化损失函数

过程: 在反向传播中,  根据学习率(lr)来对参数进行更新,最终逐步降低损失函数的大小, 使得神经网络输出更好(函数拟合的更好)


优点:

1. 前后梯度一致时能够加速学习

2. 前后梯度不一致时能够抑制震荡, 越过局部最小值

缺点:

1. 引入一个额外的参数 y

思想: 结合Momentum和RMSprop两种优化器的算法, 并引入一阶矩估计和二阶矩估计。

优点:

1. Adam能够自动调整每个参数的学习率, 能够很好地处理噪声和非平稳的训练数据

2. 相较于其他可变学习率(AdaGrad)的优化器, 提高了训练速度

总结:

如果在未知模型上进行训练, 可以先考虑使用Adam确保损失函数能够找到最小值, 即模型拟合的函数能够收敛,然后切换回SGD进行训练, 快速达到对应的值。

上一篇:一文读懂基于压缩感知的数据压缩技术

下一篇:没有了

戳我查看嵌入式每月就业风云榜

点我了解华清远见高校学霸学习秘籍

猜你关心企业是如何评价华清学员的

干货分享
相关新闻
前台专线:010-82525158 企业培训洽谈专线:010-82525379 院校合作洽谈专线:010-82525379 Copyright © 2004-2024 北京华清远见科技发展有限公司 版权所有 ,京ICP备16055225号-5京公海网安备11010802025203号

回到顶部