Synopsis zum maschinellen Lernen. Mathematische Analyse. Gefälle Abstieg



Erinnern Sie sich an die mathematische Analyse


Funktionskontinuität und Ableitung


Lassen E subseteq mathbbR , a Ist der Grenzpunkt der Menge E (d.h. a inE, forall varepsilon>0 space space|(a− varepsilon,a+ varepsilon) capE|= infty ), f DoppelpunktE bis mathbbR .

Definition 1 (Cauchy-Funktionsgrenze):

Funktion f DoppelpunktE bis mathbbR verpflichtet zu A bei x suchen zu a wenn

 forall varepsilon>0 space space existiert delta>0 space space forallx inE space space(0<|x−a|< delta Rightarrow|f(x)−A|< varepsilon).


Bezeichnung:  lim limitE nix bisaf(x)=A .

Definition 2:

  1. Intervall ab Set genannt ] a, b [\ space: = \ {x \ in \ mathbb {R} | a <x <b \}] a, b [\ space: = \ {x \ in \ mathbb {R} | a <x <b \} ;
  2. Punktintervall x in mathbbR wird die Nachbarschaft dieses Punktes genannt.
  3. Eine punktierte Nachbarschaft eines Punktes ist eine Nachbarschaft eines Punktes, von dem dieser Punkt selbst ausgeschlossen ist.

Bezeichnung:

  1. V(x) oder U(x) - Nachbarschaft eines Punktes x ;
  2.  overset circU(x) - punktierte Nachbarschaft eines Punktes x ;
  3. UE(x):=E capU(x), overset circUE(x):=E cap overset circU(x)

Definition 3 (Funktionsbegrenzung durch Nachbarschaften):


 lim limitE nix zuaf(x)=A:= fĂźralleVR(A) space existiert overset circUE(a) space space(f( overset circUE(a)) subsetVR(A)).


Die Definitionen 1 und 3 sind äquivalent.

Definition 4 (Kontinuität einer Funktion an einem Punkt):

  1. f DoppelpunktE bis mathbbR kontinuierlich in a inE:=

    = forallV(f(a)) space space existiertUE(a) space space(f(UE(a)) TeilmengeV(f(a)));

  2. f DoppelpunktE bis mathbbR kontinuierlich in a inE:=

     forall varepsilon>0 space space existiert delta>0 space space forallx inE space space(|xa|< delta Rightarrow|f(x)−f(a)|< varepsilon).


Die Definitionen 3 und 4 zeigen das
( f DoppelpunktE bis mathbbR kontinuierlich in a inE wo a - Grenzpunkt E )  Leftrightarrow
 Leftrightarrow( lim limitE nix bisaf(x)=f(a)).

Definition 5:

Funktion f DoppelpunktE bis mathbbR am Set als kontinuierlich bezeichnet E wenn es an jedem Punkt des Satzes kontinuierlich ist E .

Definition 6:

  1. Funktion f DoppelpunktE bis mathbbR am Set definiert E subset mathbbR wird an der Stelle als differenzierbar bezeichnet a inE Begrenzung fĂźr das Set E wenn es eine solche Linearität in Bezug auf das Inkrement gibt x−a Argumentfunktion A cdot(x−a) [Funktionsdifferential f an der Stelle a ] dieses Inkrement f(x)−f(a) die Funktionen f dargestellt als

    f(x)−f(a)=A cdot(x−a)+o(x−a) quadfĂźr Raumx zua, Raumx inE.

  2. Wert

    f′(a)= lim limitE nix zua fracf(x)−f(a)x−a


    Ableitungsfunktion genannt f an der Stelle a .

Auch

f′(x)= lim Teilstapelh bis0x+h,x inE fracf(x+h)−f(x)h.



Definition 7:

  1. Punkt x0 inE subset mathbbR wird als Punkt des lokalen Maximums (Minimums) bezeichnet , und der Wert der darin enthaltenen Funktion wird als lokales Maximum (Minimum) der Funktion bezeichnet f DoppelpunktE bis mathbbR wenn  existiertUE(x0) :

     forallx inUE(x0) Leerzeichen Leerzeichenf(x) leqf(x0)(jeweilsf(x) geqf(x0)).

  2. Die Punkte des lokalen Maximums und Minimums werden als Punkte des lokalen Extremums bezeichnet , und die Werte der Funktion in ihnen werden als lokale Extrema der Funktion bezeichnet .
  3. Punkt x0 inE Extremumfunktion f DoppelpunktE bis mathbbR ein interner Extremumpunkt genannt , wenn x0 ist der Grenzpunkt fĂźr die Menge E _- = \ {x \ in E | x <x_0 \} und fĂźr das Set E _ + = \ {x \ in E | x> x_0 \} .

Lemma 1 (Fermat):

Wenn die Funktion f DoppelpunktE bis mathbbR am Punkt des inneren Extremums differenzierbar x0 inE , dann ist seine Ableitung an diesem Punkt Null: f′(x0)=0 .

Satz 1 (Satz von Roll):
Wenn die Funktion f Doppelpunkt[a,b] bis mathbbR kontinuierlich auf einem Segment [a,b] im Intervall differenzierbar ]a,b[ und f(a)=f(b) dann gibt es einen Punkt  xi in]a,b[ so dass f′( xi)=0 .

Satz 1 (Lagrange-Satz mit endlichem Inkrement):

Wenn die Funktion f Doppelpunkt[a,b] bis mathbbR kontinuierlich auf einem Segment [a,b] und im Intervall differenzierbar ]a,b[ dann gibt es einen Punkt  xi in]a,b[ so dass

f(b)−f(a)=f′( xi)(b−a).


Folgerung 1 (ein Zeichen der Monotonie einer Funktion):
Wenn zu irgendeinem Zeitpunkt eines Intervalls die Ableitung der Funktion nicht negativ (positiv) ist, nimmt die Funktion in diesem Intervall nicht ab (zu).

Folgerung 2 (Kriterium fĂźr die Konstanz der Funktion):
Kontinuierlich auf einem Schnitt [a,b] Eine Funktion ist nicht genau dann konstant, wenn ihre Ableitung zu einem beliebigen Zeitpunkt im Intervall Null ist [a,b] (oder zumindest das Intervall ]a,b[ )

Partielle Ableitung einer Funktion vieler Variablen


Durch  mathbbRm bezeichnen die Menge:

\ mathbb {R} ^ m = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ m = \ {(\ omega_1, \ omega_2, ... , \ omega_m), \ space \ omega_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, m} \}.



Definition 8:

Funktion f DoppelpunktE bis mathbbR am Set definiert E subset mathbbRm wird an der Stelle als differenzierbar bezeichnet x inE Begrenzung fĂźr das Set E wenn

f(x+h)−f(x)=L(x)h+ alpha(x;h), qquad(1)

wo L(x) Doppelpunkt mathbbRm bis mathbbR - linear in Bezug auf h Funktion [Funktionsdifferential f an der Stelle x (Referenz df(x) oder f′(x) )] und  alpha(x;h)=o(h) bei h bis0,x+h inE .

Beziehung (1) kann wie folgt umgeschrieben werden:

f(x+h)−f(x)=f′(x)h+ alpha(x;h)

oder

 bigtriangleupf(x;h)=df(x)h+ alpha(x;h).


Wenn wir zum Koordinatendatensatz des Punktes gehen x=(x1,...,xm) , Vektor h=(h1,...,hm) und lineare Funktionen L(x)h=a1(x)h1+...+am(x)hm dann sieht Gleichheit (1) so aus

f(x1+h1,...,xm+hm)−f(x1,...,xm)==a1(x)h1+...+am(x)hm+o(h) quadfĂźr space spaceh bis0, qquad(2)

wo a1(x),...,am(x) - mit Punkt verbunden x reelle Zahlen. Sie mĂźssen diese Nummern finden.

Wir bezeichnen

hi=hiei=0 cdote1+...+0 cdotei−1+hi cdotei+0 cdotei+1+...+0 cdotem,

wo \ {e_1, ..., e_m \} - Basis in  mathbbRm .

Bei h=hi aus (2) erhalten wir

f(x1,...,xi−1,xi+hi,xi+1,...,xm)−f(x1,...,xi,...,xm)==ai(x)hi+o(hi) quadfĂźr space spacehi bis0. qquad(3)



Aus (3) erhalten wir

ai(x)= limhi bis0 fracf(x1,...,xi−1,xi+hi,xi+1,..,xm)−f(x1,...,xi,...,xm)hi. qquad(4)


Definition 9:
Die Grenze (4) wird als partielle Ableitung der Funktion bezeichnet f(x) an der Stelle x=(x1,...,xm) nach Variablen xi . Es ist bezeichnet:

 frac partiellef partiellexi(x), quad partielleif(x), quadf′xi(x).



Beispiel 1:

f(u,v)=u3+v2 sinu, partielle1f(u,v)= frac partiellef partielleu(u,v)=3u2+v2 cosu, partielle2f(u,v)= frac partiellef partiellev(u,v)=2v sinu.





Gefälle


Lassen f Doppelpunkt mathbbRn bis mathbbR wo \ mathbb {R} ^ n = \ underbrace {\ mathbb {R} \ times \ mathbb {R} \ times \ cdots \ times \ mathbb {R}} _ n = \ {(\ theta_1, \ theta_2, ... , \ theta_n), \ space \ theta_i \ in \ mathbb {R} \ space \ forall i \ in \ overline {1, n} \} .

Definition 10:

Verlaufsfunktion f Doppelpunkt mathbbRn bis mathbbR ein Vektor genannt, i dessen Element ist gleich  frac partiellef partielle thetai :

 bigtriangledown thetaf= left( beginarrayc frac partiellef partielle theta1 frac partiellef partielle theta2 vdots frac partiellf partiell thetan endarray rechts), quad theta=( theta1, theta2,..., thetan).


Gradient ist die Richtung, in der die Funktion am schnellsten zunimmt. Dies bedeutet, dass die Richtung, in der es am schnellsten abnimmt, die dem Gradienten entgegengesetzte Richtung ist, d.h. − bigtriangledown thetaf .

Das Ziel der Gradientenabstiegsmethode ist die Suche nach dem äußersten (minimalen) Punkt einer Funktion.

Bezeichnen mit  theta(t) Funktionsparametervektor in Schritt t . Parameteraktualisierungsvektor in Schritt t :

u(t)=− eta bigtriangledown thetaf( theta(t−1)), quad theta(t)= theta(t−1)+u(t).


In der obigen Formel der Parameter  eta Ist die Lerngeschwindigkeit , die die Schrittgröße steuert, die wir in Richtung der Gradientensteigung nehmen. Insbesondere kĂśnnen zwei gegensätzliche Probleme auftreten:

  • Wenn die Schritte zu klein sind, ist das Training zu lang und die Wahrscheinlichkeit, in einem kleinen erfolglosen lokalen Minimum entlang der Straße stecken zu bleiben, steigt (das erste Bild im Bild unten).
  • Wenn sie zu groß sind, kĂśnnen Sie endlos Ăźber das gewĂźnschte Minimum hin und her springen, aber niemals den tiefsten Punkt erreichen (das dritte Bild im Bild unten).


Ein Beispiel:
Betrachten Sie im einfachsten Fall das Beispiel der Gradientenabstiegsmethode ( n=1 ) Also f Doppelpunkt mathbbR bis mathbbR .
Lassen f(x)=x2, quad theta(0)=3, quad eta=1 . Dann:

 frac partiellesf partiellesx(x)=2x quad rechterPfeil quad bigtriangledownf theta(x)=2x; theta(1)= theta(0)−1 cdotf theta( theta(0))=3−6=−3; theta(2)= theta(1)−1 cdotf theta( theta(1))=−3+6=3= theta(0).

In dem Fall, wenn  eta=1 ist die Situation wie im dritten Bild des obigen Bildes. Wir springen ständig Ăźber den Extrempunkt.
Lassen  eta=0,8 . Dann:

 theta(1)= theta(0)−0,8 malf theta( theta(0))=3−0,8 mal6=3−4,8=−1,8; theta(2)= theta(1)−0,8 malf theta( theta(1))=−1,8+0,8 mal3,6=−1,8+2,88=1,08; theta(3)= theta(2)−0,8 malf theta( theta(2))=1,08−0,8 mal2,16=1,08−1,728=−0,648; theta(4)= theta(3)−0,8 malf theta( theta(3))=−0,648+0,8 mal1,296=−0,648+1,0368=0,3888; theta(5)= theta(4)−0,8 malf theta( theta(4))=0,3888−0,8 mal0,7776=0,3888−0,62208=−0,23328; theta(6)= theta(5)−0,8 malf theta( theta(5))=−0,23328+0,8 mal0,46656=−0,23328+0,373248==0,139968.

Es ist zu sehen, dass wir uns iterativ dem Punkt des Extremums nähern.
Lassen  eta=0,5 . Dann:

 theta(1)= theta(0)−0,5 malf theta( theta(0))=3−0,5 mal6=3−3=0; theta(2)= theta(1)−0,5 malf theta( theta(1))=0−0,5 mal0=0.

Der Extrempunkt wurde in 1 Schritt gefunden.

Liste der verwendeten Literatur:


  • „Mathematische Analyse. Teil 1 ", V.A. Zorich, Moskau, 1997;
  • „Tiefes Lernen. Eintauchen in die Welt der neuronalen Netze “, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.

Source: https://habr.com/ru/post/de474338/


All Articles