
Erinnern Sie sich an einige Definitionen der mathematischen Statistik.
Es sei ein 
Wahrscheinlichkeitsraum gegeben 
( Omega, Sigma,P) .
Definition 1:Zufällige Variable  xi= xi(w) Werte im Set nehmen 
S c 
 sigma -Algebra von Teilmengen 
 Phi nannte irgendeinen 
( Sigma, Phi) messbare Funktion 
 xi Doppelpunkt Omega bisS , also 
 forallA subseteqS,A in Phi die Bedingung ist erfüllt 
\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ Leerzeichen \ Doppelpunkt \ Leerzeichen \ xi (w) \ in A \} \ in \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ Leerzeichen \ Doppelpunkt \ Leerzeichen \ xi (w) \ in A \} \ in \ Sigma .
Definition 2:Der Probenraum ist der Raum aller möglichen Werte der Beobachtung oder Probe zusammen mit 
 sigma -Algebra messbarer Teilmengen dieses Raumes.
Bezeichnung: (B, mathscrB) .
Auf Wahrscheinlichkeitsraum definiert 
( Omega, Sigma,P) Zufallsvariablen 
 xi, eta, ldots Doppelpunkt Omega bisB im Weltraum laichen 
(B, mathscrB) probabilistische Maßnahmen 
P_ \ xi \ {C \} = P \ {\ xi \ in C \}, P_ \ eta \ {C \} = P \ {\ eta \ in C \}, \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ in C \}, P_ \ eta \ {C \} = P \ {\ eta \ in C \}, \ ldots Auf einem Probenraum wird nicht ein Wahrscheinlichkeitsmaß bestimmt, sondern eine endliche oder unendliche Familie von Wahrscheinlichkeitsmaßen.
Bei 
Problemen der mathematischen Statistik ist eine Familie von Wahrscheinlichkeitsmaßen 
bekannt. \ {P_ \ Theta \ Space \ Theta \ in \ Theta \}\ {P_ \ Theta \ Space \ Theta \ in \ Theta \} im Stichprobenraum definiert, und 
es ist erforderlich , anhand der Stichprobe zu bestimmen, welche der Wahrscheinlichkeitsmaße dieser Familie der Stichprobe entspricht.
Definition 3:Ein statistisches Modell ist ein Aggregat, das aus einem Stichprobenraum und einer Familie von darauf definierten Wahrscheinlichkeitsmaßen besteht.
Bezeichnung: (B, mathscrB, mathscrP) wo 
\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \} .
Lassen 
B= mathbbRn und 
( mathbbRn, mathscrB) - selektiver Raum.
Probenahme 
X=(x1, ldots,xn) kann als Kombination betrachtet werden 
n reelle Zahlen. Weisen Sie jedem Element der Stichprobe eine Wahrscheinlichkeit gleich zu 
 frac1n .
Lassen
Ix(B)= beginFälle1, quadx inB0, quadx nicht inB endFälle
Definition 4:Eine aus Probe X konstruierte 
empirische Verteilung ist ein Wahrscheinlichkeitsmaß 
P∗n :
P∗n(B)= frac1n sumnk=1Ixk(B)
Also 
P∗n(B) - das Verhältnis der Anzahl der dazugehörigen Stichprobenelemente 
B , zur Gesamtzahl der Musterartikel: 
P∗n(B)= frac nun(B)n, Leerzeichen nun(B)= Summe Grenzennk=1I(xk inB), LeerzeichenB. in mathscrB .
Definition 5:Selektive Momentreihenfolge k genannt
 hatm∗k= hatm∗k(X)= frac1n sumnj=1xkj
 hatm∗1= overlineX= frac1n sum limitnj=1xj - 
Stichprobenmittelwert .
Definition 6:Selektiver zentraler Moment der Bestellung k wird durch Gleichheit bestimmt
 hatm∗(0)k= hatm∗(0)k(X)= frac1n sumnj=1(xj− overlineX)k
S2=S2(X)= hatm∗(0)2= frac1n sum limitnj=1(xj− overlineX)2 - 
Stichprobenvarianz .
Beim maschinellen Lernen müssen viele Aufgaben darin bestehen, zu lernen, wie ein Parameter aus den verfügbaren Daten ausgewählt wird 
 theta welches beschreibt diese Daten am besten. In der mathematischen Statistik wird häufig 
die Maximum-Likelihood-Methode verwendet, um ein ähnliches Problem zu lösen.
Im wirklichen Leben hat die Fehlerverteilung oft eine Normalverteilung. Zur Rechtfertigung geben wir den 
zentralen Grenzwertsatz an .
Satz 1 (CLT):Wenn Zufallsvariablen 
 xi1, ldots, xin - unabhängige, gleichmäßig verteilte 
mathematische Erwartung M( xii)=a Varianz D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n dann
\ lim \ limit_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limitiert _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.
Nachfolgend formulieren wir die Maximum-Likelihood-Methode und betrachten ihre Funktionsweise als Beispiel für eine Familie von Normalverteilungen.
Maximum-Likelihood-Methode
Lassen Sie für ein statistisches Modell 
(B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}) zwei Bedingungen sind erfüllt:
- wenn  theta1 not= theta2 dann P theta1 not=P theta2 ;
- es gibt eine solche Maßnahme  mu auf (B, mathscrB) über welche für jede Maßnahme P theta ,  theta in Theta gibt es eine Dichte f theta(x)= fracdP theta(x)d mu(x) , also  forallC in mathscrB quadP theta(C)= int limitCf theta(x) mu(dx) .
Definition 7:Maximum Likelihood Assessment (OMP) 
 hat theta Parameter 
 theta empirisch konstruiert genannt 
P∗n entsprechend der Probe 
X=(x1, ldots,xn) Wert 
 theta in Theta bei denen 
 max Grenzen Theta in Theta int lnf Theta(x)P∗n(dx)= max Grenzen Theta in Theta frac1n sum limitni=1 lnf theta(x).Definition 8:Funktion 
 Lambda Theta(X)= Prod Limitsni=1f Theta(xi) als eine Funktion von 
 theta heißt die 
Wahrscheinlichkeitsfunktion und die Funktion 
L(X, Theta)= Summe Grenzenni=1 lnf Theta(xi) - 
logarithmische Wahrscheinlichkeitsfunktion .
Diese Funktionen erreichen Spitzenwerte bei denselben Werten. 
 theta , als 
 lnx - 
monoton ansteigende Funktion.
Ein Beispiel:\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \} - Familie von 
Normalverteilungen mit Dichten 
\ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . Nach Probe 
X=(x1, ldots,xn)\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ border_ {i = 1} ^ n (x_j-a) ^ 2 \};
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2;
 frac partiellesL partiellesa= frac1 sigma2 sum limitni=1(xi−a), quad frac partiellesL. partielle sigma=− fracn sigma+ frac1 sigma3 sum limitni=1(xi−a)2;
 frac partiellesL partiellesa=0 quad rechterPfeil quad summe Grenzenni=1xi−na=0 quad rechterPfeil quad frac1n sum limitsni=1xi= overlineX= hata;
 frac partialL partial sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitsni=1(xi−a)2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitni=1(xi− overlineX)2= sqrtS2.
Schätzungen für die mathematische Erwartung und Varianz wurden erhalten.
Wenn Sie sich die Formel genau ansehen
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2
wir können daraus schließen, dass die Funktion 
L(X,(a, sigma)) nimmt seinen Maximalwert an, wenn 
 sum limitni=1(xi−a)2 ist minimal. Bei maschinellen Lernproblemen wird häufig die 
Methode der kleinsten Quadrate verwendet, bei der die Summe der quadratischen Abweichungen der vorhergesagten Werte von den wahren minimiert wird.
Liste der verwendeten Literatur:
- Vorlesungsunterlagen zur mathematischen Statistik, Autor unbekannt;
- „Tiefes Lernen. Eintauchen in die Welt der neuronalen Netze “, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.