
Erinnern Sie sich an einige Definitionen der mathematischen Statistik.
Es sei ein
Wahrscheinlichkeitsraum gegeben
( Omega, Sigma,P) .
Definition 1:Zufällige Variable xi= xi(w) Werte im Set nehmen
S c
sigma -Algebra von Teilmengen
Phi nannte irgendeinen
( Sigma, Phi) messbare Funktion
xi Doppelpunkt Omega bisS , also
forallA subseteqS,A in Phi die Bedingung ist erfüllt
\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ Leerzeichen \ Doppelpunkt \ Leerzeichen \ xi (w) \ in A \} \ in \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ Leerzeichen \ Doppelpunkt \ Leerzeichen \ xi (w) \ in A \} \ in \ Sigma .
Definition 2:Der Probenraum ist der Raum aller möglichen Werte der Beobachtung oder Probe zusammen mit
sigma -Algebra messbarer Teilmengen dieses Raumes.
Bezeichnung: (B, mathscrB) .
Auf Wahrscheinlichkeitsraum definiert
( Omega, Sigma,P) Zufallsvariablen
xi, eta, ldots Doppelpunkt Omega bisB im Weltraum laichen
(B, mathscrB) probabilistische Maßnahmen
P_ \ xi \ {C \} = P \ {\ xi \ in C \}, P_ \ eta \ {C \} = P \ {\ eta \ in C \}, \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ in C \}, P_ \ eta \ {C \} = P \ {\ eta \ in C \}, \ ldots Auf einem Probenraum wird nicht ein Wahrscheinlichkeitsmaß bestimmt, sondern eine endliche oder unendliche Familie von Wahrscheinlichkeitsmaßen.
Bei
Problemen der mathematischen Statistik ist eine Familie von Wahrscheinlichkeitsmaßen
bekannt. \ {P_ \ Theta \ Space \ Theta \ in \ Theta \}\ {P_ \ Theta \ Space \ Theta \ in \ Theta \} im Stichprobenraum definiert, und
es ist erforderlich , anhand der Stichprobe zu bestimmen, welche der Wahrscheinlichkeitsmaße dieser Familie der Stichprobe entspricht.
Definition 3:Ein statistisches Modell ist ein Aggregat, das aus einem Stichprobenraum und einer Familie von darauf definierten Wahrscheinlichkeitsmaßen besteht.
Bezeichnung: (B, mathscrB, mathscrP) wo
\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \} .
Lassen
B= mathbbRn und
( mathbbRn, mathscrB) - selektiver Raum.
Probenahme
X=(x1, ldots,xn) kann als Kombination betrachtet werden
n reelle Zahlen. Weisen Sie jedem Element der Stichprobe eine Wahrscheinlichkeit gleich zu
frac1n .
Lassen
Ix(B)= beginFälle1, quadx inB0, quadx nicht inB endFälle
Definition 4:Eine aus Probe X konstruierte
empirische Verteilung ist ein Wahrscheinlichkeitsmaß
P∗n :
P∗n(B)= frac1n sumnk=1Ixk(B)
Also
P∗n(B) - das Verhältnis der Anzahl der dazugehörigen Stichprobenelemente
B , zur Gesamtzahl der Musterartikel:
P∗n(B)= frac nun(B)n, Leerzeichen nun(B)= Summe Grenzennk=1I(xk inB), LeerzeichenB. in mathscrB .
Definition 5:Selektive Momentreihenfolge k genannt
hatm∗k= hatm∗k(X)= frac1n sumnj=1xkj
hatm∗1= overlineX= frac1n sum limitnj=1xj -
Stichprobenmittelwert .
Definition 6:Selektiver zentraler Moment der Bestellung k wird durch Gleichheit bestimmt
hatm∗(0)k= hatm∗(0)k(X)= frac1n sumnj=1(xj− overlineX)k
S2=S2(X)= hatm∗(0)2= frac1n sum limitnj=1(xj− overlineX)2 -
Stichprobenvarianz .
Beim maschinellen Lernen müssen viele Aufgaben darin bestehen, zu lernen, wie ein Parameter aus den verfügbaren Daten ausgewählt wird
theta welches beschreibt diese Daten am besten. In der mathematischen Statistik wird häufig
die Maximum-Likelihood-Methode verwendet, um ein ähnliches Problem zu lösen.
Im wirklichen Leben hat die Fehlerverteilung oft eine Normalverteilung. Zur Rechtfertigung geben wir den
zentralen Grenzwertsatz an .
Satz 1 (CLT):Wenn Zufallsvariablen
xi1, ldots, xin - unabhängige, gleichmäßig verteilte
mathematische Erwartung M( xii)=a Varianz D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n dann
\ lim \ limit_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limitiert _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.
Nachfolgend formulieren wir die Maximum-Likelihood-Methode und betrachten ihre Funktionsweise als Beispiel für eine Familie von Normalverteilungen.
Maximum-Likelihood-Methode
Lassen Sie für ein statistisches Modell
(B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}) zwei Bedingungen sind erfüllt:
- wenn theta1 not= theta2 dann P theta1 not=P theta2 ;
- es gibt eine solche Maßnahme mu auf (B, mathscrB) über welche für jede Maßnahme P theta , theta in Theta gibt es eine Dichte f theta(x)= fracdP theta(x)d mu(x) , also forallC in mathscrB quadP theta(C)= int limitCf theta(x) mu(dx) .
Definition 7:Maximum Likelihood Assessment (OMP)
hat theta Parameter
theta empirisch konstruiert genannt
P∗n entsprechend der Probe
X=(x1, ldots,xn) Wert
theta in Theta bei denen
max Grenzen Theta in Theta int lnf Theta(x)P∗n(dx)= max Grenzen Theta in Theta frac1n sum limitni=1 lnf theta(x).Definition 8:Funktion
Lambda Theta(X)= Prod Limitsni=1f Theta(xi) als eine Funktion von
theta heißt die
Wahrscheinlichkeitsfunktion und die Funktion
L(X, Theta)= Summe Grenzenni=1 lnf Theta(xi) -
logarithmische Wahrscheinlichkeitsfunktion .
Diese Funktionen erreichen Spitzenwerte bei denselben Werten.
theta , als
lnx -
monoton ansteigende Funktion.
Ein Beispiel:\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \} - Familie von
Normalverteilungen mit Dichten
\ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . Nach Probe
X=(x1, ldots,xn)\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ border_ {i = 1} ^ n (x_j-a) ^ 2 \};
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2;
frac partiellesL partiellesa= frac1 sigma2 sum limitni=1(xi−a), quad frac partiellesL. partielle sigma=− fracn sigma+ frac1 sigma3 sum limitni=1(xi−a)2;
frac partiellesL partiellesa=0 quad rechterPfeil quad summe Grenzenni=1xi−na=0 quad rechterPfeil quad frac1n sum limitsni=1xi= overlineX= hata;
frac partialL partial sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitsni=1(xi−a)2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitni=1(xi− overlineX)2= sqrtS2.
Schätzungen für die mathematische Erwartung und Varianz wurden erhalten.
Wenn Sie sich die Formel genau ansehen
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2
wir können daraus schließen, dass die Funktion
L(X,(a, sigma)) nimmt seinen Maximalwert an, wenn
sum limitni=1(xi−a)2 ist minimal. Bei maschinellen Lernproblemen wird häufig die
Methode der kleinsten Quadrate verwendet, bei der die Summe der quadratischen Abweichungen der vorhergesagten Werte von den wahren minimiert wird.
Liste der verwendeten Literatur:
- Vorlesungsunterlagen zur mathematischen Statistik, Autor unbekannt;
- „Tiefes Lernen. Eintauchen in die Welt der neuronalen Netze “, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.