从动力学角度看优化算法:自适应学习率算法

  • 时间:
  • 浏览:0
  • 来源:uu快3计划_uu快3官方_单双

前者用梯度的总模长来每段,最终保持了学习率的标量性;后者将梯度的每个分量分别每段,你这个 情況下调节后的学习率就变成了一一两个 向量,大约给每个参数都分配不同的学习率。什么都有从严格理论分析的深度1来,嘴笨 第三种 做法更加不漏,因此从实验效果来看,却是第二种更为有效。

原文发布时间为:2018-12-27

本文作者:苏剑林

本文来自云栖社区合作者者伙伴“ PaperWeekly”,了解相关信息不需要 关注“paperweekly”微信公众号

读者机会会诟病,把 γ=γ̃/∣L′(θt)∣ 代入刚刚的迭代结果,不什么都有:

机会大家是用

去近似

的,这么就前要分析近似程度:根据泰勒级数,大家有:



在大家这里有,这么大家有:

很难判断,L(θ) 的一一两个 极小值点什么都有你这个 方程的稳定的不动点,大家从任意的 θ0 出发,数值求解你这个 ODE,不需要 期望它最终会收敛于你这个 不动点,从而也就得到了一一两个 极小值点。

为哪此用梯度大小不需要 来调节学习率呢?嘴笨 你这个 思想非常朴素。

大家平时所说的 RMSprop 算法,也有指后者 (15)。因此有什么都有喜欢纯 SGD 炼丹的大家会诟病你这个 向量化的学习率实际上改变了梯度的方向,原应梯度不准,最终效果不够好。什么都有不喜欢向量化学习率的读者,不妨试验一下前者。

什么都有,最恰当的方案是:每一步够用就好。刚刚大家怎样才能会会会么会知道够用了这么?

不需要 期望,当 γ 比较小的刚刚,误差项,也什么都有说,在一定条件下,γ∣L′(θt)∣ 三种 什么都有误差项的度量,机会大家将 γ∣L′(θt)∣ 控制在一定的范围内,这么误差也被控制住了。即:



其中 γ̃ 是一一两个 常数,甚至只前要简单地 γ∣L′(θt)∣=γ̃(暂时忽略 L′(θt)=0 的机会性,先观察整体的核心思想),也什么都有:

将优化问题报告 视为一一两个 常微分方程的求解问题报告 ,这嘴笨 什么都有将优化问题报告 变成了一一两个 动力学问题报告 ,刚刚不需要 让大家从比较物理的视角去理解优化算法(哪怕什么都有直观而不不漏的理解),甚至不需要 把或多或少 ODE 的理论结果拿过来用,上面笔者会试图再举或多或少刚刚的例子。

极小值点和ODE

自适科学学 习率

本文再次从 ODE 的深度1分析了优化算法,这次是从误差控制的深度1给出了三种 自适科学学 习率算法(RMSprop)的理解。至于大家更常用的 Adam,则是 RMSprop 与动量加速的结合,这里就不赘述了。

话太久说,简单起见,大家先从一一两个 一维例子出发:假设大家要求 L(θ) 的一一两个 极小值点,这么大家引入一一两个 虚拟的时间参数 t,转化为 ODE:

算法概览

你爱不爱我读者嘴笨 很简单:把标量加在向量不就行了么?并这么这么简单,机会 (13) 推广到高维,大约有三种 合理的选择:



或:



刚刚大家就通过梯度来调节了学习率。

一般的梯度下降是刚刚的:

很明显,这里的 γ 是一一两个 超参数,便是学习率,它机会前要在不同阶段做不同的调整。而 RMSprop 则是:

高维情況分析

RMSprop

你这个 学习率的调节,是通过因子来实现的,而则是梯度平方的滑动平均。本质上来说,“滑动平均”平均什么都有让训练过程更加平稳或多或少,它也有起到调节作用的原应,起作用的主要每段是“梯度”,也什么都有说,不需要 用梯度大小来调节学习率。

结论汇总

问题报告 是,γ 选十几个 为好呢?当然,从“用

去近似

”你这个 深度1来看,当然是 γ 越小越精确,因此 γ 越小,前要的迭代次数就太久,也什么都有说计算量就越大,什么都有越小越好是很理想,因此不现实。

只不过,机会关心的是优化问题报告 ,也什么都有求 L(θ) 的极小值点语录,这么上式嘴笨 有点硬平凡了,机会机会每次迭代 θ 都什么都有移动固定的长度,那也有点硬像网格搜索了,太低效。

这什么都有开头说的 RMSprop 算法了。

你这个 λ 是一一两个 接近于 1 因此小于 1 的常数,刚刚语录 Gt 在一定范围内就比较稳定,一起去在一定程度上保留了梯度 L′(θt) 三种 的社会形态,什么都有用它来调节学习率与否一一两个 比较“机智”的做法。为了正确处理 t+γ̃,t+γ 引起记号上的不适应,统一用 n,n+1 来表示下标,得到:

注意,从解 ODE 的深度1看,嘴笨 这并这么毛病,机会 ODE 的解是三根轨迹 (t,θ(t)),上面刚刚正确处理,嘴笨 θ 变得平凡了,因此 t 却变得不平凡了,也什么都有大约 t,θ 的地位交换了,因此还是合理的。

变学习率思想

对比朴素的 SGD,不需要 发现 RMSprop 在对 θ 的更新中,将刚刚是标量的学习率 γ,加在了一一两个 向量。



整个梯度你只用了它的符号信息,这是也有太浪费了?过于平凡:也什么都有不管梯度大小怎样才能,每次迭代 θ 都什么都有移动固定的长度。

最简单的欧拉解法,什么都有用

去近似

,从而得到:



也什么都有:



这什么都有梯度下降法了,θt+γ 大约 θn+1,而 θt 大约 θn,也什么都有每步前进 γ 这么多。

滑动平均正确处理

什么都有,为了改善你这个 不平凡的情況,又为了保留用梯度调节学习率的社会形态,大家不需要 把梯度平均一下,结果什么都有:

首先,大家看一一两个 非常经典的自适科学学 习率优化算法:RMSprop。RMSprop 嘴笨 也有最早提出的自适科学学 习率的优化算法,因此它却是相当实用的三种 ,它是诸如 Adam 刚刚更综合的算法的基石,通过它大家不需要 观察自适科学学 习率的优化算法是怎样才能会会会么会做的。

机会把你这个 向量也看成是学习率,这么 RMSprop 什么都有找到了一一两个 方案,不需要 给参数的每个分量分配不同的学习率。

上面的讨论也有一维的情況,机会是多维情況,那怎样才能会会会么会推广呢?

算法分析