Tiven Wang

Machine Learning - Gradient Descent

Google Earth
Wang Tiven July 27, 2018
425 favorite favorites
bookmark bookmark
share share

梯度下降法 (Gradient descent) 是一个一阶最优化算法,通常也称为最速下降法。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的反方向的规定步长距离点进行迭代搜索。如果相反地向梯度正方向迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为梯度上升法。

导数

Derivative

导函数 (Derivative) 定义为

\[\displaystyle f'(x_{0}) = \lim_{\Delta x \to 0}\frac{\Delta x}{\Delta y} = \lim_{\Delta x \to 0}\frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x}\]

Partial derivative

偏导数 (Partial derivative) 定义为

\[\displaystyle \frac{∂}{∂x_j}f(x_0,x_1,\cdots,x_n) = \lim_{\Delta x \to 0}\frac{\Delta y}{\Delta x} = \lim_{\Delta x \to 0}\frac{f(x_0,x_1,\cdots,x_n)-f(x_0,x_1,\cdots,x_n)}{\Delta x}\]

Directional derivative

方向导数 (Directional derivative) 定义为

\[\displaystyle \frac{∂}{∂l}f(x_0,x_1,\cdots,x_n) = \lim_{\rho \to 0}\frac{\Delta y}{\Delta x} = \lim_{\rho \to 0}\frac{f(x_0+\Delta x_0,x_1+\Delta x_1,\cdots,x_n+\Delta x_n)-f(x_0,x_1,\cdots,x_n)}{\rho} \\ \\ \rho = \sqrt{(\Delta x_0)^2+(\Delta x_1)^2+\cdots+(\Delta x_n)^2}\]

梯度

梯度 (Gradient) 的定义如下:

\[\displaystyle gradf(x_0,x_1,\cdots,x_n)=(\frac{∂f}{∂x_0},\frac{∂f}{∂x_1},\cdots,\frac{∂f}{∂x_n})\]

定义描述为 函数在某一点的梯度是这样一个向量,它的方向与取得最大方向导数的方向一致,它的模为方向导数的最大值。 梯度说明了 函数在变量空间的某一点处,沿着哪一个方向有着最大的变化率 梯度属性:

  • 梯度是一个向量,有方向有大小
  • 梯度的方向是最大方向导数的方向
  • 梯度的值的最大方向导数的值

梯度下降法

Momentum optimization

References

Comments

Back to Top