🍉 🏰 🌬️ Synopsis zum maschinellen Lernen. Mathematische Statistik. Maximum-Likelihood-Methode 👨🏾‍🍳 🥛 🍪

Erinnern Sie sich an einige Definitionen der mathematischen Statistik.

Es sei ein Wahrscheinlichkeitsraum gegeben

$(\ Omega, \ Sigma, P)$ .Definition 1:Zufällige Variable

$\ xi = \ xi (w)$ Werte im Set nehmen

$S$ c

$\ sigma$ -Algebra von Teilmengen

$\ Phi$ nannte irgendeinen

$(\ Sigma, \ Phi)$ messbare Funktion

$\ xi \ Doppelpunkt \ Omega \ bis S$ , also

$\ forall A \ subseteq S, A \ in \ Phi$ die Bedingung ist erfüllt

\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ Leerzeichen \ Doppelpunkt \ Leerzeichen \ xi (w) \ in A \} \ in \ Sigma

$\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ Leerzeichen \ Doppelpunkt \ Leerzeichen \ xi (w) \ in A \} \ in \ Sigma$ .

Definition 2:

Der Probenraum ist der Raum aller möglichen Werte der Beobachtung oder Probe zusammen mit

$\ sigma$ -Algebra messbarer Teilmengen dieses Raumes.
Bezeichnung:

$(B, \ mathscr {B})$ .

Auf Wahrscheinlichkeitsraum definiert

$(\ Omega, \ Sigma, P)$ Zufallsvariablen

$\ xi, \ eta, \ ldots \ Doppelpunkt \ Omega \ bis B$ im Weltraum laichen

$(B, \ mathscr {B})$ probabilistische Maßnahmen

P_ \ xi \ {C \} = P \ {\ xi \ in C \}, P_ \ eta \ {C \} = P \ {\ eta \ in C \}, \ ldots

$P_ \ xi \ {C \} = P \ {\ xi \ in C \}, P_ \ eta \ {C \} = P \ {\ eta \ in C \}, \ ldots$ Auf einem Probenraum wird nicht ein Wahrscheinlichkeitsmaß bestimmt, sondern eine endliche oder unendliche Familie von Wahrscheinlichkeitsmaßen.

Bei Problemen der mathematischen Statistik ist eine Familie von Wahrscheinlichkeitsmaßen bekannt.

\ {P_ \ Theta \ Space \ Theta \ in \ Theta \}

$\ {P_ \ Theta \ Space \ Theta \ in \ Theta \}$ im Stichprobenraum definiert, und es ist erforderlich , anhand der Stichprobe zu bestimmen, welche der Wahrscheinlichkeitsmaße dieser Familie der Stichprobe entspricht.

Definition 3:

Ein statistisches Modell ist ein Aggregat, das aus einem Stichprobenraum und einer Familie von darauf definierten Wahrscheinlichkeitsmaßen besteht.

Bezeichnung:

$(B, \ mathscr {B}, \ mathscr {P})$ wo

\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}

$\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}$ .

Lassen

$B = \ mathbb {R} ^ n$ und

$(\ mathbb {R} ^ n, \ mathscr {B})$ - selektiver Raum.

Probenahme

$X = (x_1, \ ldots, x_n)$ kann als Kombination betrachtet werden

$n$ reelle Zahlen. Weisen Sie jedem Element der Stichprobe eine Wahrscheinlichkeit gleich zu

$\ frac {1} {n}$ .

Lassen

ä ä

$I_x (B) = \ begin {Fälle} 1, \ quad x \ in B \\ 0, \ quad x \ nicht \ in B \ end {Fälle}$

Definition 4:

Eine aus Probe X konstruierte empirische Verteilung ist ein Wahrscheinlichkeitsmaß

$P_n ^ *$ :

$P_n ^ * (B) = \ frac {1} {n} \ sum_ {k = 1} ^ nI_ {x_k} (B)$

Also

$P_n ^ * (B)$ - das Verhältnis der Anzahl der dazugehörigen Stichprobenelemente

$B$ , zur Gesamtzahl der Musterartikel:

$P_n ^ * (B) = \ frac {\ nu_n (B)} {n}, \ Leerzeichen \ nu_n (B) = \ Summe \ Grenzen_ {k = 1} ^ nI (x_k \ in B), \ Leerzeichen B. \ in \ mathscr {B}$ .

Definition 5:

Selektive Momentreihenfolge

$k$ genannt

$\ hat {m} ^ * _ k = \ hat {m} ^ * _ k (X) = \ frac {1} {n} \ sum_ {j = 1} ^ nx_j ^ k$

$\ hat {m} _1 ^ * = \ overline {X} = \ frac {1} {n} \ sum \ limit_ {j = 1} ^ n x_j$ - Stichprobenmittelwert .

Definition 6:

Selektiver zentraler Moment der Bestellung

$k$ wird durch Gleichheit bestimmt

$\ hat {m} _k ^ {* (0)} = \ hat {m} _k ^ {* (0)} (X) = \ frac {1} {n} \ sum_ {j = 1} ^ n ( x_j - \ overline {X}) ^ k$

$S ^ 2 = S ^ 2 (X) = \ hat {m} _2 ^ {* (0)} = \ frac {1} {n} \ sum \ limit_ {j = 1} ^ n (x_j - \ overline {X}) ^ 2$ - Stichprobenvarianz .

Beim maschinellen Lernen müssen viele Aufgaben darin bestehen, zu lernen, wie ein Parameter aus den verfügbaren Daten ausgewählt wird

$\ theta$ welches beschreibt diese Daten am besten. In der mathematischen Statistik wird häufig die Maximum-Likelihood-Methode verwendet, um ein ähnliches Problem zu lösen.

Im wirklichen Leben hat die Fehlerverteilung oft eine Normalverteilung. Zur Rechtfertigung geben wir den zentralen Grenzwertsatz an .

Satz 1 (CLT):

Wenn Zufallsvariablen

$\ xi_1, \ ldots, \ xi_n$ - unabhängige, gleichmäßig verteilte mathematische Erwartung

$M (\ xi_i) = a$ Varianz

$D (\ xi_i) = \ sigma ^ 2 \ in (0, + \ infty) \ space \ forall i \ in \ overline {1, n}$ dann

$\ lim \ limit_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limitiert _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.$

Nachfolgend formulieren wir die Maximum-Likelihood-Methode und betrachten ihre Funktionsweise als Beispiel für eine Familie von Normalverteilungen.

Maximum-Likelihood-Methode

Lassen Sie für ein statistisches Modell

$(B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \})$ zwei Bedingungen sind erfüllt:

wenn $\ theta_1 \ not = \ theta_2$ dann $P _ {\ theta_1} \ not = P _ {\ theta_2}$ ;
es gibt eine solche Maßnahme $\ mu$ auf $(B, \ mathscr {B})$ über welche für jede Maßnahme $P_ \ theta$ , $\ theta \ in \ Theta$ gibt es eine Dichte $f_ \ theta (x) = \ frac {dP_ \ theta (x)} {d \ mu} (x)$ , also $\ forall C \ in \ mathscr {B} \ quad P_ \ theta (C) = \ int \ limit_Cf_ \ theta (x) \ mu (dx)$ .

Definition 7:

Maximum Likelihood Assessment (OMP)

$\ hat {\ theta}$ Parameter

$\ theta$ empirisch konstruiert genannt

$P ^ * _ n$ entsprechend der Probe

$X = (x_1, \ ldots, x_n)$ Wert

$\ theta \ in \ Theta$ bei denen

$\ max \ Grenzen _ {\ Theta \ in \ Theta} \ int \ ln f_ \ Theta (x) P_n ^ * (dx) = \ max \ Grenzen _ {\ Theta \ in \ Theta} \ frac {1} {n} \ sum \ limit_ {i = 1} ^ n \ ln f_ \ theta (x).$

Definition 8:

Funktion

$\ Lambda_ \ Theta (X) = \ Prod \ Limits_ {i = 1} ^ n f_ \ Theta (x_i)$ als eine Funktion von

$\ theta$ heißt die Wahrscheinlichkeitsfunktion und die Funktion

$L (X, \ Theta) = \ Summe \ Grenzen_ {i = 1} ^ n \ ln f_ \ Theta (x_i)$ - logarithmische Wahrscheinlichkeitsfunktion .

Diese Funktionen erreichen Spitzenwerte bei denselben Werten.

$\ theta$ , als

$\ ln x$ - monoton ansteigende Funktion.

Ein Beispiel:

$\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \}$ - Familie von Normalverteilungen mit Dichten

$\ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \}$ . Nach Probe

$X = (x_1, \ ldots, x_n)$

$\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ border_ {i = 1} ^ n (x_j-a) ^ 2 \};$

$L (X, (a, \ sigma)) = - \ frac {n} {2} \ ln2 \ pi - n \ ln \ sigma - \ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ { i = 1} ^ n (x_i-a) ^ 2;$

$\ frac {\ partielles L} {\ partielles a} = \ frac {1} {\ sigma ^ 2} \ sum \ limit_ {i = 1} ^ n (x_i-a), \ quad \ frac {\ partielles L. } {\ partielle \ sigma} = - \ frac {n} {\ sigma} + \ frac {1} {\ sigma ^ 3} \ sum \ limit_ {i = 1} ^ n (x_i-a) ^ 2;$

$\ frac {\ partielles L} {\ partielles a} = 0 \ quad \ rechter Pfeil \ quad \ summe \ Grenzen_ {i = 1} ^ nx_i - na = 0 \ quad \ rechter Pfeil \ quad \ frac {1} {n} \ sum \ limits_ {i = 1} ^ nx_i = \ overline {X} = \ hat {a};$

$\ frac {\ partial L} {\ partial \ sigma} = 0 \ quad \ Rightarrow \ quad \ frac {n} {\ sigma} = \ frac {1} {\ sigma ^ 3} \ sum \ limits_ {i = 1} ^ n (x_i - a) ^ 2 \ quad \ Rightarrow \ quad \ hat {\ sigma} = \ sqrt {\ frac {1} {n} \ sum \ limit_ {i = 1} ^ n (x_i - \ overline {X}) ^ 2} = \ sqrt {S ^ 2}.$

Schätzungen für die mathematische Erwartung und Varianz wurden erhalten.

Wenn Sie sich die Formel genau ansehen

$L (X, (a, \ sigma)) = - \ frac {n} {2} \ ln2 \ pi - n \ ln \ sigma - \ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ { i = 1} ^ n (x_i-a) ^ 2$

wir können daraus schließen, dass die Funktion

$L (X, (a, \ sigma))$ nimmt seinen Maximalwert an, wenn

$\ sum \ limit_ {i = 1} ^ n (x_i-a) ^ 2$ ist minimal. Bei maschinellen Lernproblemen wird häufig die Methode der kleinsten Quadrate verwendet, bei der die Summe der quadratischen Abweichungen der vorhergesagten Werte von den wahren minimiert wird.

Liste der verwendeten Literatur:

Vorlesungsunterlagen zur mathematischen Statistik, Autor unbekannt;
„Tiefes Lernen. Eintauchen in die Welt der neuronalen Netze “, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.

Synopsis zum maschinellen Lernen. Mathematische Statistik. Maximum-Likelihood-Methode

Erinnern Sie sich an einige Definitionen der mathematischen Statistik.

Maximum-Likelihood-Methode

Liste der verwendeten Literatur:

More articles: