Synopsis sur l'apprentissage automatique. Analyse mathématique. Descente en pente



Rappeler l'analyse mathématique


Continuité de fonction et dérivé


Soit E subseteq mathbbR , a Est le point limite de l'ensemble E (c.-à-d. a inE, forall varepsilon>0 space space|(a varepsilon,a+ varepsilon) capE|= infty ), f colonE à mathbbRà .

Définition 1 (limite de fonction de Cauchy):

Fonction f colonE à mathbbRà engagé à A à x cherchant à a si

 forall varepsilon>0 espace espace existe delta>0 espace espace forallx dansE espace espace(0<|xa|< delta Rightarrow|f(x)A|< varepsilon).


Désignation:  lim limitsE nix toaf(x)=A .

Définition 2:

  1. Intervalle ab appelé ensemble ] a, b [\ espace: = \ {x \ in \ mathbb {R} | a <x <b \}] a, b [\ espace: = \ {x \ in \ mathbb {R} | a <x <b \} ;
  2. Intervalle de points x in mathbbR est appelé le voisinage de ce point.
  3. Un voisinage perforé d'un point est un voisinage d'un point dont ce point lui-même est exclu.

Désignation:

  1. V(x) ou U(x) - voisinage d'un point x ;
  2.  overset circU(x) - voisinage perforé d'un point x ;
  3. UE(x):=E capU(x), overset circUE(x):=E cap overset circU(x)

Définition 3 (limite de fonction à travers les quartiers):


 lim limitsE nix toaf(x)=A:= forallVR(A) space exist overset circUE(a) space space(f( overset circUE(a)) subsetVR(A)).


Les définitions 1 et 3 sont équivalentes.

Définition 4 (continuité d'une fonction en un point):

  1. f colonE à mathbbR en continu a inE:=

    = pourtoutV(f(a)) espace espace existeUE(a) espace espace(f(UE(a)) sousensembleV(f(a)));

  2. f colonE à mathbbR en continu a inE:=

     forall varepsilon>0 espace espace existe delta>0 espace espace forallx dansE espace espace(|xa|< delta Rightarrow|f(x)f(a)|< varepsilon).


Les définitions 3 et 4 montrent que
( f colonE à mathbbR en continu a inEa - point limite E )  Leftrightarrow
 Leftrightarrow( lim limitsE nix toaf(x)=f(a)).

Définition 5:

Fonction f colonE à mathbbR appelé continu sur le plateau E si elle est continue à chaque point de l'ensemble E .

Définition 6:

  1. Fonction f colonE à mathbbR défini sur le plateau E sousensemble mathbbR est appelé différenciable au point a inE limitant pour l'ensemble E s'il existe un tel linéaire par rapport à l'incrément xa fonction d'argument A cdot(xa) [fonction différentielle f au point a ] cet incrément f(x)f(a) les fonctions f représenté comme

    f(x)f(a)=A cdot(xa)+o(xa) quadpour espacex ena, espacex enE.

  2. Valeur

    f(a)= lim limitsE nix toa fracf(x)f(a)xa


    appelée fonction dérivée f au point a .

Aussi

f(x)= lim substackh to0x+h,x inE fracf(x+h)f(x)h.



Définition 7:

  1. Point x0 inE subset mathbbR est appelé le point local maximum (minimum) , et la valeur de la fonction est appelée le point local maximum (minimum) de la fonction f colonE à mathbbR si  existeUE(x0) :

     forallx inUE(x0) space spacef(x) leqf(x0)(respectivement,f(x) geqf(x0)).

  2. Les points de maximum et minimum locaux sont appelés points d' extrémum local , et les valeurs de la fonction en eux sont appelées extrema locaux de la fonction .
  3. Point x0 inE fonction extremum f colonE à mathbbR appelé un point extremum interne si x0 est le point limite comme pour l'ensemble E _- = \ {x \ in E | x <x_0 \} , et pour l'ensemble E _ + = \ {x \ in E | x> x_0 \} .

Lemme 1 (Fermat):

Si la fonction f colonE à mathbbR différenciable au point d'extrémum interne x0 inE , alors sa dérivée à ce point est nulle: f(x0)=0 .

Proposition 1 (théorème de Roll):
Si la fonction f colon[a,b] to mathbbR continu sur un segment [a,b] différenciable dans l'intervalle ]a,b[ et f(a)=f(b) alors il y a un point  xi in]a,b[ tel que f( xi)=0 .

Théorème 1 (théorème d'incrément fini de Lagrange):

Si la fonction f colon[a,b] to mathbbR continu sur un segment [a,b] et différenciable dans l'intervalle ]a,b[ alors il y a un point  xi in]a,b[ tel que

f(b)f(a)=f( xi)(ba).


Corollaire 1 (signe de monotonie d'une fonction):
Si à tout moment d'un intervalle la dérivée de la fonction est non négative (positive), alors la fonction ne diminue pas (augmente) dans cet intervalle.

Corollaire 2 (critère de constance de la fonction):
Continu sur une coupe [a,b] une fonction n'est pas constante si et seulement si sa dérivée est nulle en tout point de l'intervalle [a,b] (ou au moins l'intervalle ]a,b[ )

Dérivée partielle d'une fonction de nombreuses variables


À travers  mathbbRm désignons l'ensemble:

\ mathbb {R} ^ m = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ m = \ {(\ omega_1, \ omega_2, ... , \ omega_m), \ space \ omega_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, m} \}.



Définition 8:

Fonction f colonE à mathbbR défini sur le plateau E sousensemble mathbbRm est appelé différenciable au point x inE limitant pour l'ensemble E si

f(x+h)f(x)=L(x)h+ alpha(x;h), qquad(1)

L(x) colon mathbbRm to mathbbR - linéaire par rapport à h fonction [fonction différentielle f au point x (référence df(x) ou f(x) )], et  alpha(x;h)=o(h) à h à0,x+h dansE .

La relation (1) peut être réécrite comme suit:

f(x+h)f(x)=f(x)h+ alpha(x;h)

ou

 bigtriangleupf(x;h)=df(x)h+ alpha(x;h).


Si nous allons à l'enregistrement des coordonnées du point x=(x1,...,xm) , vecteur h=(h1,...,hm) et fonctions linéaires L(x)h=a1(x)h1+...+am(x)hm , alors l'égalité (1) ressemble à ceci

f(x1+h1,...,xm+hm)f(x1,...,xm)==a1(x)h1+...+am(x)hm+o(h) quadpour espace espaceh à0, qquad(2)

a1(x),...,am(x) - associé au point x nombres réels. Vous devez trouver ces numéros.

Nous dénotons

hi=hiei=0 cdote1+...+0 cdotei1+hi cdotei+0 cdotei+1+...+0 cdotem,

\ {e_1, ..., e_m \} - base en  mathbbRm .

À h=hi de (2) on obtient

f(x1,...,xi1,xi+hi,xi+1,...,xm)f(x1,...,xi,...,xm)==ai(x)hi+o(hi) quadpour espace espacehi à0. qquad(3)



De (3) on obtient

ai(x)= limhi to0 fracf(x1,...,xi1,xi+hi,xi+1,..,xm)f(x1,...,xi,...,xm)hi. qquad(4)


Définition 9:
La limite (4) est appelée la dérivée partielle de la fonction f(x) au point x=(x1,...,xm) par variable xi . Il est désigné:

 frac partialf partialxi(x), quad partialif(x), quadfxi(x).



Exemple 1:

f(u,v)=u3+v2 sinu, partial1f(u,v)= frac partialf partialu(u,v)=3u2+v2 cosu, partial2f(u,v)= frac partialf partialv(u,v)=2v sinu.





Descente en pente


Soit f colon mathbbRn to mathbbR\ mathbb {R} ^ n = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ n = \ {(\ theta_1, \ theta_2, ... , \ theta_n), \ space \ theta_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, n} \} .

Définition 10:

Fonction dégradé f colon mathbbRn to mathbbR appelé vecteur, i dont l'élément est égal à  frac partialf partial thetai :

 bigtriangledown thetaf= left( beginarrayc frac partialf partial theta1 frac partialf partial theta2 vdots frac partialf partial thetan endarray right), quad theta=( theta1, theta2,..., thetan).


Le gradient est la direction dans laquelle la fonction augmente le plus rapidement. Cela signifie que la direction dans laquelle il diminue le plus rapidement est la direction opposée au gradient, c'est-à-dire  bigtriangledown thetaf .

Le but de la méthode de descente en gradient est de rechercher le point extrême (minimum) d'une fonction.

Désigner par  theta(t) vecteur de paramètre de fonction à l'étape t . Vecteur de mise à jour des paramètres à l'étape t :

u(t)= eta bigtriangledown thetaf( theta(t1)), quad theta(t)= theta(t1)+u(t).


Dans la formule ci-dessus, le paramètre  eta C'est la vitesse d'apprentissage qui contrôle la taille du pas que nous prenons dans le sens de la pente du gradient. En particulier, deux problèmes opposés peuvent survenir:

  • si les marches sont trop petites, l'entraînement sera trop long et la probabilité de rester coincé dans un petit minimum local non réussi le long de la route augmente (la première image dans l'image ci-dessous);
  • s'ils sont trop grands, vous pouvez sans cesse sauter le minimum souhaité d'avant en arrière, mais jamais atteindre le point le plus bas (la troisième image dans l'image ci-dessous).


Un exemple:
Prenons l'exemple de la méthode de descente de gradient dans le cas le plus simple ( n=1 ) C’est f colon mathbbR to mathbbR .
Soit f(x)=x2, quad theta(0)=3, quad eta=1 . Ensuite:

 frac partialf partialx(x)=2x quad Rightarrow quad bigtriangledownf theta(x)=2x; theta(1)= theta(0)1 cdotf theta( theta(0))=36=3; theta(2)= theta(1)1 cdotf theta( theta(1))=3+6=3= theta(0).

Dans le cas où  eta=1 , la situation est comme dans la troisième image de l'image ci-dessus. Nous sautons constamment sur le point extremum.
Soit  eta=0,8 . Ensuite:

 theta(1)= theta(0)0,8 foisf theta( theta(0))=30,8 times6=34,8=1,8; theta(2)= theta(1)0,8 foisf theta( theta(1))=1,8+0,8 times3,6=1,8+2,88=1,08; theta(3)= theta(2)0,8 timesf theta( theta(2))=1,080,8 times2.16=1,081,728=0,648; theta(4)= theta(3)0,8 timesf theta( theta(3))=0,648+0,8 times1.296=0,648+1,0368=0,3888; theta(5)= theta(4)0,8 timesf theta( theta(4))=0,38880,8 times0,7776=0,38880,62208=0,23328; theta(6)= theta(5)0,8 foisf theta( theta(5))=0,23328+0,8 times0,46656=0,23328+0,373248==0,139968.

On voit que nous approchons itérativement du point d'extrémum.
Soit  eta=0,5 . Ensuite:

 theta(1)= theta(0)0,5 foisf theta( theta(0))=30,5 times6=33=0; theta(2)= theta(1)0,5 foisf theta( theta(1))=00,5 times0=0.

Le point extremum a été trouvé en 1 étape.

Liste de la littérature utilisée:


  • «Analyse mathématique. Partie 1 ", V.A. Zorich, Moscou, 1997;
  • «Apprentissage profond. Immersion dans le monde des réseaux de neurones », S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.

Source: https://habr.com/ru/post/fr474338/


All Articles