
Rappeler l'analyse mathématique
Continuité de fonction et dérivé
Soit
E subseteq mathbbR ,
a Est le point limite de l'ensemble
E (c.-à-d.
a inE, forall varepsilon>0 space space|(a− varepsilon,a+ varepsilon) capE|= infty ),
f colonE à mathbbR .
Définition 1 (limite de fonction de Cauchy):Fonction
f colonE à mathbbR engagé à
A à
x cherchant à
a si
forall varepsilon>0 espace espace existe delta>0 espace espace forallx dansE espace espace(0<|x−a|< delta Rightarrow|f(x)−A|< varepsilon).
Désignation:
lim limitsE nix toaf(x)=A .
Définition 2:- Intervalle ab appelé ensemble ] a, b [\ espace: = \ {x \ in \ mathbb {R} | a <x <b \}] a, b [\ espace: = \ {x \ in \ mathbb {R} | a <x <b \} ;
- Intervalle de points x in mathbbR est appelé le voisinage de ce point.
- Un voisinage perforé d'un point est un voisinage d'un point dont ce point lui-même est exclu.
Désignation:
- V(x) ou U(x) - voisinage d'un point x ;
- overset circU(x) - voisinage perforé d'un point x ;
- UE(x):=E capU(x), overset circUE(x):=E cap overset circU(x)
Définition 3 (limite de fonction à travers les quartiers):
lim limitsE nix toaf(x)=A:= forallVR(A) space exist overset circUE(a) space space(f( overset circUE(a)) subsetVR(A)).
Les définitions 1 et 3 sont équivalentes.
Définition 4 (continuité d'une fonction en un point):- f colonE à mathbbR en continu a inE:=
= pourtoutV(f(a)) espace espace existeUE(a) espace espace(f(UE(a)) sous−ensembleV(f(a)));
- f colonE à mathbbR en continu a inE:=
forall varepsilon>0 espace espace existe delta>0 espace espace forallx dansE espace espace(|xa|< delta Rightarrow|f(x)−f(a)|< varepsilon).
Les définitions 3 et 4 montrent que
(
f colonE à mathbbR en continu
a inE où
a - point limite
E )
Leftrightarrow Leftrightarrow( lim limitsE nix toaf(x)=f(a)).Définition 5:Fonction
f colonE à mathbbR appelé
continu sur le plateau E si elle est continue à chaque point de l'ensemble
E .
Définition 6:- Fonction f colonE à mathbbR défini sur le plateau E sous−ensemble mathbbR est appelé différenciable au point a inE limitant pour l'ensemble E s'il existe un tel linéaire par rapport à l'incrément x−a fonction d'argument A cdot(x−a) [fonction différentielle f au point a ] cet incrément f(x)−f(a) les fonctions f représenté comme
f(x)−f(a)=A cdot(x−a)+o(x−a) quadpour espacex ena, espacex enE.
- Valeur
f′(a)= lim limitsE nix toa fracf(x)−f(a)x−a
appelée fonction dérivée f au point a .
Aussi
f′(x)= lim substackh to0x+h,x inE fracf(x+h)−f(x)h.
Définition 7:- Point x0 inE subset mathbbR est appelé le point local maximum (minimum) , et la valeur de la fonction est appelée le point local maximum (minimum) de la fonction f colonE à mathbbR si existeUE(x0) :
forallx inUE(x0) space spacef(x) leqf(x0)(respectivement,f(x) geqf(x0)).
- Les points de maximum et minimum locaux sont appelés points d' extrémum local , et les valeurs de la fonction en eux sont appelées extrema locaux de la fonction .
- Point x0 inE fonction extremum f colonE à mathbbR appelé un point extremum interne si x0 est le point limite comme pour l'ensemble E _- = \ {x \ in E | x <x_0 \} , et pour l'ensemble E _ + = \ {x \ in E | x> x_0 \} .
Lemme 1 (Fermat):Si la fonction
f colonE à mathbbR différenciable au point d'extrémum interne
x0 inE , alors sa dérivée à ce point est nulle:
f′(x0)=0 .
Proposition 1 (théorème de Roll):Si la fonction
f colon[a,b] to mathbbR continu sur un segment
[a,b] différenciable dans l'intervalle
]a,b[ et
f(a)=f(b) alors il y a un point
xi in]a,b[ tel que
f′( xi)=0 .
Théorème 1 (théorème d'incrément fini de Lagrange):Si la fonction
f colon[a,b] to mathbbR continu sur un segment
[a,b] et différenciable dans l'intervalle
]a,b[ alors il y a un point
xi in]a,b[ tel que
f(b)−f(a)=f′( xi)(b−a).
Corollaire 1 (signe de monotonie d'une fonction):Si à tout moment d'un intervalle la dérivée de la fonction est non négative (positive), alors la fonction ne diminue pas (augmente) dans cet intervalle.
Corollaire 2 (critère de constance de la fonction):Continu sur une coupe
[a,b] une fonction n'est pas constante si et seulement si sa dérivée est nulle en tout point de l'intervalle
[a,b] (ou au moins l'intervalle
]a,b[ )
Dérivée partielle d'une fonction de nombreuses variables
À travers
mathbbRm désignons l'ensemble:
\ mathbb {R} ^ m = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ m = \ {(\ omega_1, \ omega_2, ... , \ omega_m), \ space \ omega_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, m} \}.
Définition 8:Fonction
f colonE à mathbbR défini sur le plateau
E sous−ensemble mathbbRm est appelé
différenciable au point x inE limitant pour l'ensemble
E si
f(x+h)−f(x)=L(x)h+ alpha(x;h), qquad(1)
où
L(x) colon mathbbRm to mathbbR - linéaire par rapport à
h fonction [fonction
différentielle f au point
x (référence
df(x) ou
f′(x) )], et
alpha(x;h)=o(h) à
h à0,x+h dansE .
La relation (1) peut être réécrite comme suit:
f(x+h)−f(x)=f′(x)h+ alpha(x;h)
ou
bigtriangleupf(x;h)=df(x)h+ alpha(x;h).
Si nous allons à l'enregistrement des coordonnées du point
x=(x1,...,xm) , vecteur
h=(h1,...,hm) et fonctions linéaires
L(x)h=a1(x)h1+...+am(x)hm , alors l'égalité (1) ressemble à ceci
f(x1+h1,...,xm+hm)−f(x1,...,xm)==a1(x)h1+...+am(x)hm+o(h) quadpour espace espaceh à0, qquad(2)
où
a1(x),...,am(x) - associé au point
x nombres réels. Vous devez trouver ces numéros.
Nous dénotons
hi=hiei=0 cdote1+...+0 cdotei−1+hi cdotei+0 cdotei+1+...+0 cdotem,
où
\ {e_1, ..., e_m \} - base en
mathbbRm .
À
h=hi de (2) on obtient
f(x1,...,xi−1,xi+hi,xi+1,...,xm)−f(x1,...,xi,...,xm)==ai(x)hi+o(hi) quadpour espace espacehi à0. qquad(3)
De (3) on obtient
ai(x)= limhi to0 fracf(x1,...,xi−1,xi+hi,xi+1,..,xm)−f(x1,...,xi,...,xm)hi. qquad(4)
Définition 9:La limite (4) est appelée la
dérivée partielle de la fonction
f(x) au point
x=(x1,...,xm) par variable
xi . Il est désigné:
frac partialf partialxi(x), quad partialif(x), quadf′xi(x).
Exemple 1:f(u,v)=u3+v2 sinu, partial1f(u,v)= frac partialf partialu(u,v)=3u2+v2 cosu, partial2f(u,v)= frac partialf partialv(u,v)=2v sinu.

Descente en pente
Soit
f colon mathbbRn to mathbbR où
\ mathbb {R} ^ n = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ n = \ {(\ theta_1, \ theta_2, ... , \ theta_n), \ space \ theta_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, n} \} .
Définition 10:Fonction
dégradé f colon mathbbRn to mathbbR appelé vecteur,
i dont l'élément est égal à
frac partialf partial thetai :
bigtriangledown thetaf= left( beginarrayc frac partialf partial theta1 frac partialf partial theta2 vdots frac partialf partial thetan endarray right), quad theta=( theta1, theta2,..., thetan).
Le gradient est la direction dans laquelle la fonction augmente le plus rapidement. Cela signifie que la direction dans laquelle il diminue le plus rapidement est la direction opposée au gradient, c'est-à-dire
− bigtriangledown thetaf .
Le but de la méthode de descente en gradient est de rechercher le point
extrême (minimum) d'une fonction.
Désigner par
theta(t) vecteur de paramètre de fonction à l'étape
t . Vecteur de mise à jour des paramètres à l'étape
t :
u(t)=− eta bigtriangledown thetaf( theta(t−1)), quad theta(t)= theta(t−1)+u(t).
Dans la formule ci-dessus, le paramètre
eta C'est la
vitesse d'apprentissage qui contrôle la taille du pas que nous prenons dans le sens de la pente du gradient. En particulier, deux problèmes opposés peuvent survenir:
- si les marches sont trop petites, l'entraînement sera trop long et la probabilité de rester coincé dans un petit minimum local non réussi le long de la route augmente (la première image dans l'image ci-dessous);
- s'ils sont trop grands, vous pouvez sans cesse sauter le minimum souhaité d'avant en arrière, mais jamais atteindre le point le plus bas (la troisième image dans l'image ci-dessous).
Un exemple:Prenons l'exemple de la méthode de descente de gradient dans le cas le plus simple (
n=1 ) C’est
f colon mathbbR to mathbbR .
Soit
f(x)=x2, quad theta(0)=3, quad eta=1 . Ensuite:
frac partialf partialx(x)=2x quad Rightarrow quad bigtriangledownf theta(x)=2x; theta(1)= theta(0)−1 cdotf theta( theta(0))=3−6=−3; theta(2)= theta(1)−1 cdotf theta( theta(1))=−3+6=3= theta(0).
Dans le cas où
eta=1 , la situation est comme dans la troisième image de l'image ci-dessus. Nous sautons constamment sur le point extremum.
Soit
eta=0,8 . Ensuite:
theta(1)= theta(0)−0,8 foisf theta( theta(0))=3−0,8 times6=3−4,8=−1,8; theta(2)= theta(1)−0,8 foisf theta( theta(1))=−1,8+0,8 times3,6=−1,8+2,88=1,08; theta(3)= theta(2)−0,8 timesf theta( theta(2))=1,08−0,8 times2.16=1,08−1,728=−0,648; theta(4)= theta(3)−0,8 timesf theta( theta(3))=−0,648+0,8 times1.296=−0,648+1,0368=0,3888; theta(5)= theta(4)−0,8 timesf theta( theta(4))=0,3888−0,8 times0,7776=0,3888−0,62208=−0,23328; theta(6)= theta(5)−0,8 foisf theta( theta(5))=−0,23328+0,8 times0,46656=−0,23328+0,373248==0,139968.
On voit que nous approchons itérativement du point d'extrémum.
Soit
eta=0,5 . Ensuite:
theta(1)= theta(0)−0,5 foisf theta( theta(0))=3−0,5 times6=3−3=0; theta(2)= theta(1)−0,5 foisf theta( theta(1))=0−0,5 times0=0.
Le point extremum a été trouvé en 1 étape.
Liste de la littérature utilisée:
- «Analyse mathématique. Partie 1 ", V.A. Zorich, Moscou, 1997;
- «Apprentissage profond. Immersion dans le monde des réseaux de neurones », S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.