常用的高性能优化器有哪些,ADAM和SGD有什么区别?

佚名 次浏览

摘要:蓝海大脑高性能计算服务器研究人员表示:常见的优化器:SGD、BGD、MBGD、Momentum、NAG、Adagrad、Adadelta,RMSprop、Adam、AdamW优化器等。SGD是随机梯度下降法,是最基本的优化器。Adam是一种自适应学习率的方法。以SGD作为最初的算法,Momentum

蓝海大脑高性能计算服务器研究人员表示:

常见的优化器:SGD、BGD、MBGD、Momentum、NAG、Adagrad、Adadelta,RMSprop、Adam、AdamW优化器等。

SGD是随机梯度下降法,是最基本的优化器。

Adam是一种自适应学习率的方法。以SGD作为最初的算法,Momentum在其基础上加入了一阶动量(历史梯度的累计), AdaGrad和RMSProp在其基础上加入了二阶动量(历史梯度的平方累计),Adam就是结合了SGD的一阶动量和RMSProp的二阶动量算法。

随机内容

平台注册入口