机器学习简介。 数学分析。 梯度下降



回顾数学分析


函数连续性和导数


E subseteq mathbbR 是设定的极限点 E (即 a inE forall varepsilon>0 space space|a varepsilona+ varepsilon capE|= infty ), f\冒E\到 mathbbR

定义1(Cauchy功能限制):

功能介绍 f\冒E\到 mathbbR 致力于 x 寻求 如果

 forall varepsilon>0\空\空\存 delta>0\空\空 forallx\在E\空\空0<|xa|< delta Rightarrow|fxA|< varepsilon


名称:  lim limitsE nix\到afx=A

定义2:

  1. 间隔时间 ab 被叫集 ] a,b [\ space:= \ {x \ in \ mathbb {R} | a <x <b \} ;
  2. 点间隔 x in mathbbR 称为这一点的邻域
  3. 点的穿孔邻域是该点本身被排除在外点的邻域。

名称:

  1. VxUx -点的附近 x ;
  2.  overset circUx -刺破点 x ;
  3. UEx=E\上Ux\上 circUEx=E\上\上 circUx

定义3(通过社区的功能限制):


 lim limitsE nix\到afx=A= forallVRA space exist overset circUEa space spacef overset circUEa\子VRA


定义1和3是等效的。

定义4(某点函数的连续性):

  1. f\冒E\到 mathbbR 连续输入 E中的$ a \ =

    =\全Vfa\空\空\存UEa\空\空fUEa\子Vfa;

  2. f\冒E\到 mathbbR 连续输入 E中的$ a \ =

     forall varepsilon>0\空\空\存 delta>0\空\空 forallx\在E\空\空|xa|< delta Rightarrow|fxfa|< varepsilon


定义3和4表明
f\冒E\到 mathbbR 连续输入 E中的$ a \ 在哪里 -极限点 E Leftrightarrow
 Leftrightarrow lim limitsE nix toafx=fa

定义5:

功能介绍 f\冒E\到 mathbbR 称为连续 E 如果它在集合的每个点都是连续的 E

定义6:

  1. 功能介绍 f\冒E\到 mathbbR 在场景上定义 E\子 mathbbR 在这一点上称为可 E中的$ a \ 限制集 E 如果增量存在这样的线性关系 xa 参数函数 A cdotxa [功能差异 f 在这一点上 ]那个增量 fxfa 功能 f 表示为

    fxfa=A cdotxa+oxa quadfor spacex\到a spacex inE

  2. 价值

    fa= lim limitE nix\到a fracfxfaxa


    称为导数函数 f 在这一点上


fx= lim\子h\到0x+hx inE fracfx+hfxh



定义7:

  1. 点数 x0\在E\子 mathbbR 称为局部最大值(最小值)点,函数中的值称为函数的局部最大值(最小值) f\冒E\到 mathbbR 如果 \存UEx0

     forallx inUEx0 space spacefx leqfx0fx geqfx0

  2. 局部最大值和最小值的点称为局部极值点,其中的函数值称为函数的局部极值
  3. 点数 x0\在E 极值功能 f\冒E\到 mathbbR 称为内部极值点,如果 x0 是设定的极限点 E _- = \ {x \ in E | x <x_0 \}E _ + = \ {x \ in E | x> x_0 \}

引理1(Fermat):

如果功能 f\冒E\到 mathbbR 在内部极值点可区分 x0\在E ,则此时的导数为零: fx0=0

命题1(罗尔定理):
如果功能 f\冒[ab]\到 mathbbR 在一段上连续 [ab] 区间可微 ]ab[fa=fb 然后有一点  xi in]ab[ 这样 f xi=0

定理1(拉格朗日有限增量定理):

如果功能 f\冒[ab]\到 mathbbR 在一段上连续 [ab] 并且在区间上是可区分的 ]ab[ 然后有一点  xi in]ab[ 这样

fbfa=f xiba


推论1(函数单调性的标志):
如果该函数的导数在某个时间间隔的任何点都是非负(正),则该函数不会在此时间间隔内减小(增加)。

推论2(函数恒定性的判据):
连续切割 [ab] 当且仅当函数的导数在间隔的任意点为零时,该函数才为常数 [ab] (或至少间隔 ]ab[

许多变量的函数的偏导数


通过  mathbbRm 表示集合:

\ mathbb {R} ^ m = \底线{\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ m = \ {(\ omega_1,\ omega_2,... ,\ omega_m),\ space \ omega_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1,m} \}



定义8:

功能介绍 f\冒E\到 mathbbR 在场景上定义 E\子 mathbbRm 在这一点上称为可 x\在E 限制集 E 如果

fx+hfx=Lxh+ alphax;h qquad1

在哪里 Lx\冒\​mathbbRm\到 mathbbR -关于 h 功能[功能差异 f 在这一点上 x (参考 dfxfx )],以及  alphax;h=ohh\到0x+h\在E

关系(1)可以重写如下:

fx+hfx=fxh+ alphax;h

 bigtriangleupfx;h=dfxh+ alphax;h


如果我们转到该点的坐标记录 x=x1...xm ,向量 h=h1...hm 和线性函数 Lxh=a1xh1+...+amxhm ,则等式(1)看起来像这样

fx1+h1...xm+hmfx1...xm==a1xh1+...+amxhm+oh quadfor space spaceh\到0 qquad2

在哪里 a1x...amx -与点相关 x 实数。 您需要找到这些数字。

我们表示

hi=hiei=0 cdote1+...+0 cdotei1+hi cdotei+0 cdotei+1+...+0 cdotem

在哪里 \ {e_1,...,e_m \} -根据  mathbbRm

h=hi 从(2)我们得到

fx1...xi1xi+hixi+1...xmfx1...xi...xm==aixhi+ohi quadfor space spacehi\到03



从(3)得到

aix= limhi\到0 fracfx1...xi1xi+hixi+1..xmfx1...xi...xmhi qquad4


定义9:
极限(4)称为函数的偏导数 fx 在这一点上 x=x1...xm 按变量 xi 。 它被指定为:

 frac\局f\局xix quad partialifx quadfxix



范例1:

fuv=u3+v2 sinu partial1fuv= frac\部f\部uuv=3u2+v2 cosu partial2fuv= frac\部f\部vuv=2v sinu





梯度下降


f\冒 mathbbRn\到 mathbbR 在哪里 \ mathbb {R} ^ n = \底线{\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ n = \ {(\ theta_1,\ theta_2,... ,\ theta_n),\ space \ theta_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1,n} \}

定义10:

梯度函数 f\冒 mathbbRn\到 mathbbR 称为向量 其元素等于  frac\部f\部 thetai

 bigtriangledown thetaf= left beginarrayc frac\部f\部 theta1 frac\部f\部 theta2 vdots frac\部f\部 thetan\结array\右 quad theta= theta1 theta2... thetan


渐变是功能最快速增加的方向。 这意味着它最迅速减小的方向是与梯度相反的方向,即  bigtriangledown thetaf

梯度下降法的目的是搜索函数的极值(最小

表示为 \ theta ^ {{t)} 步骤中的功能参数向量 t 。 步骤中的参数更新向量 t

u ^ {{t)} =-\ eta \ bigtriangledown _ {\ theta} f(\ theta ^ {{t-1)}),\ quad \ theta ^ {{t)} = \ theta ^ {{t- 1)} + u ^ {(t)}


在上面的公式中,参数  eta 学习速度控制着我们在梯度斜率方向上采取的步长。 特别是,可能出现两个相对的问题:

  • 如果步幅太小,则训练将太长,并且卡在道路上的最小局部最小值中的可能性会增加(下图中的第一个图像);
  • 如果它们太大,则可以无休止地跳过所需的最小来回距离,但永远不会到达最低点(下图中的第三张图像)。


一个例子:
考虑最简单情况下的梯度下降方法示例( n=1 ) 那是 f\冒 mathbbR\到 mathbbR
fx=x2 quad theta0=3 quad eta=1 。 然后:

\ frac {\部分f} {\部分x}(x)= 2x \ quad \ Rightarrow \ quad \ bigtriangledown f_ \ theta(x)= 2x; \\ \ theta ^ {((1)} = \ theta ^ {(0)}-1 \ cdot f_ \ theta(\ theta ^ {(0)})= 3-6 = -3; \\ \ theta ^ {{(2)} = \ theta ^ {(1)}-1 \ cdot f_ \ theta(\ theta ^ {(1)})=-3 + 6 = 3 = \ theta ^ {(0 )}。

在这种情况下  eta=1 ,情况如上图的第三张图片所示。 我们不断跳过极限点。
 eta=0.8 。 然后:

 theta1= theta00.8\倍f theta theta0=30.8 times6=34.8=1.8; theta2= theta10.8\倍f theta theta1=1.8+0.8 times3.6=1.8+2.88=1.08; theta3= theta20.8\倍f theta theta2=1.080.8 times2.16=1.081.728=0.648 theta4= theta30.8\倍f theta theta3=0.648+0.8 times1.296=0.648+1.0368=0.3888 theta5= theta40.8\倍f theta theta4=0.38880.8 times0.7776=0.3888.62208=0.23328 theta6= theta50.8\倍f theta theta5=0.23328+0.8\倍0.46656=0.23328+0.373248==0.139968

可以看出,我们正在反复接近极值点。
 eta=0.5 。 然后:

 theta1= theta00.5\倍f theta theta0=30.5 times6=33=0; theta2= theta10.5\倍f theta theta1=00.5 times0=0

在1个步骤中找到了极值点。

二手文献清单:


  • “数学分析。 第1部分”,V.A。 佐里奇,莫斯科,1997年;
  • “深度学习。 沉浸在神经网络世界中”,S。Nikulenko,A。Kadurin,E。Arkhangelskaya,PETER,2018年。

Source: https://habr.com/ru/post/zh-CN474338/


All Articles