Synopsis zum maschinellen Lernen. Mathematische Statistik. Maximum-Likelihood-Methode



Erinnern Sie sich an einige Definitionen der mathematischen Statistik.


Es sei ein Wahrscheinlichkeitsraum gegeben ( Omega, Sigma,P) .

Definition 1:

Zufällige Variable  xi= xi(w) Werte im Set nehmen S c  sigma -Algebra von Teilmengen  Phi nannte irgendeinen ( Sigma, Phi) messbare Funktion  xi Doppelpunkt Omega bisS , also  forallA subseteqS,A in Phi die Bedingung ist erfüllt \ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ Leerzeichen \ Doppelpunkt \ Leerzeichen \ xi (w) \ in A \} \ in \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ Leerzeichen \ Doppelpunkt \ Leerzeichen \ xi (w) \ in A \} \ in \ Sigma .

Definition 2:

Der Probenraum ist der Raum aller möglichen Werte der Beobachtung oder Probe zusammen mit  sigma -Algebra messbarer Teilmengen dieses Raumes.
Bezeichnung: (B, mathscrB) .

Auf Wahrscheinlichkeitsraum definiert ( Omega, Sigma,P) Zufallsvariablen  xi, eta, ldots Doppelpunkt Omega bisB im Weltraum laichen (B, mathscrB) probabilistische Maßnahmen P_ \ xi \ {C \} = P \ {\ xi \ in C \}, P_ \ eta \ {C \} = P \ {\ eta \ in C \}, \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ in C \}, P_ \ eta \ {C \} = P \ {\ eta \ in C \}, \ ldots Auf einem Probenraum wird nicht ein Wahrscheinlichkeitsmaß bestimmt, sondern eine endliche oder unendliche Familie von Wahrscheinlichkeitsmaßen.

Bei Problemen der mathematischen Statistik ist eine Familie von Wahrscheinlichkeitsmaßen bekannt. \ {P_ \ Theta \ Space \ Theta \ in \ Theta \}\ {P_ \ Theta \ Space \ Theta \ in \ Theta \} im Stichprobenraum definiert, und es ist erforderlich , anhand der Stichprobe zu bestimmen, welche der Wahrscheinlichkeitsmaße dieser Familie der Stichprobe entspricht.

Definition 3:

Ein statistisches Modell ist ein Aggregat, das aus einem Stichprobenraum und einer Familie von darauf definierten Wahrscheinlichkeitsmaßen besteht.

Bezeichnung: (B, mathscrB, mathscrP) wo \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \} .

Lassen B= mathbbRn und ( mathbbRn, mathscrB) - selektiver Raum.

Probenahme X=(x1, ldots,xn) kann als Kombination betrachtet werden n reelle Zahlen. Weisen Sie jedem Element der Stichprobe eine Wahrscheinlichkeit gleich zu  frac1n .

Lassen

Ix(B)= beginFälle1, quadx inB0, quadx nicht inB endFälle

ää


Definition 4:

Eine aus Probe X konstruierte empirische Verteilung ist ein Wahrscheinlichkeitsmaß Pn :

Pn(B)= frac1n sumnk=1Ixk(B)


Also Pn(B) - das Verhältnis der Anzahl der dazugehörigen Stichprobenelemente B , zur Gesamtzahl der Musterartikel: Pn(B)= frac nun(B)n, Leerzeichen nun(B)= Summe Grenzennk=1I(xk inB), LeerzeichenB. in mathscrB .

Definition 5:

Selektive Momentreihenfolge k genannt

 hatmk= hatmk(X)= frac1n sumnj=1xkj

 hatm1= overlineX= frac1n sum limitnj=1xj - Stichprobenmittelwert .

Definition 6:

Selektiver zentraler Moment der Bestellung k wird durch Gleichheit bestimmt

 hatm(0)k= hatm(0)k(X)= frac1n sumnj=1(xj overlineX)k

S2=S2(X)= hatm(0)2= frac1n sum limitnj=1(xj overlineX)2 - Stichprobenvarianz .

Beim maschinellen Lernen müssen viele Aufgaben darin bestehen, zu lernen, wie ein Parameter aus den verfügbaren Daten ausgewählt wird  theta welches beschreibt diese Daten am besten. In der mathematischen Statistik wird häufig die Maximum-Likelihood-Methode verwendet, um ein ähnliches Problem zu lösen.

Im wirklichen Leben hat die Fehlerverteilung oft eine Normalverteilung. Zur Rechtfertigung geben wir den zentralen Grenzwertsatz an .

Satz 1 (CLT):

Wenn Zufallsvariablen  xi1, ldots, xin - unabhängige, gleichmäßig verteilte mathematische Erwartung M( xii)=a Varianz D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n dann

\ lim \ limit_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limitiert _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.


Nachfolgend formulieren wir die Maximum-Likelihood-Methode und betrachten ihre Funktionsweise als Beispiel für eine Familie von Normalverteilungen.

Maximum-Likelihood-Methode


Lassen Sie für ein statistisches Modell (B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}) zwei Bedingungen sind erfüllt:

  • wenn  theta1 not= theta2 dann P theta1 not=P theta2 ;
  • es gibt eine solche Maßnahme  mu auf (B, mathscrB) über welche für jede Maßnahme P theta ,  theta in Theta gibt es eine Dichte f theta(x)= fracdP theta(x)d mu(x) , also  forallC in mathscrB quadP theta(C)= int limitCf theta(x) mu(dx) .

Definition 7:

Maximum Likelihood Assessment (OMP)  hat theta Parameter  theta empirisch konstruiert genannt Pn entsprechend der Probe X=(x1, ldots,xn) Wert  theta in Theta bei denen  max Grenzen Theta in Theta int lnf Theta(x)Pn(dx)= max Grenzen Theta in Theta frac1n sum limitni=1 lnf theta(x).

Definition 8:

Funktion  Lambda Theta(X)= Prod Limitsni=1f Theta(xi) als eine Funktion von  theta heißt die Wahrscheinlichkeitsfunktion und die Funktion L(X, Theta)= Summe Grenzenni=1 lnf Theta(xi) - logarithmische Wahrscheinlichkeitsfunktion .

Diese Funktionen erreichen Spitzenwerte bei denselben Werten.  theta , als  lnx - monoton ansteigende Funktion.

Ein Beispiel:

\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \} - Familie von Normalverteilungen mit Dichten \ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . Nach Probe X=(x1, ldots,xn)

\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ border_ {i = 1} ^ n (x_j-a) ^ 2 \};

L(X,(a, sigma))= fracn2 ln2 pin ln sigma frac12 sigma2 sum limitsni=1(xia)2;

 frac partiellesL partiellesa= frac1 sigma2 sum limitni=1(xia), quad frac partiellesL. partielle sigma= fracn sigma+ frac1 sigma3 sum limitni=1(xia)2;

 frac partiellesL partiellesa=0 quad rechterPfeil quad summe Grenzenni=1xina=0 quad rechterPfeil quad frac1n sum limitsni=1xi= overlineX= hata;

 frac partialL partial sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitsni=1(xia)2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitni=1(xi overlineX)2= sqrtS2.

Schätzungen für die mathematische Erwartung und Varianz wurden erhalten.

Wenn Sie sich die Formel genau ansehen

L(X,(a, sigma))= fracn2 ln2 pin ln sigma frac12 sigma2 sum limitsni=1(xia)2

wir können daraus schließen, dass die Funktion L(X,(a, sigma)) nimmt seinen Maximalwert an, wenn  sum limitni=1(xia)2 ist minimal. Bei maschinellen Lernproblemen wird häufig die Methode der kleinsten Quadrate verwendet, bei der die Summe der quadratischen Abweichungen der vorhergesagten Werte von den wahren minimiert wird.

Liste der verwendeten Literatur:


  • Vorlesungsunterlagen zur mathematischen Statistik, Autor unbekannt;
  • „Tiefes Lernen. Eintauchen in die Welt der neuronalen Netze “, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.

Source: https://habr.com/ru/post/de474478/


All Articles