👩🏿‍🤝‍👩🏼 🧑🏿‍🤝‍🧑🏽 🙆 Synopsis sur l'apprentissage automatique. Statistiques mathématiques. Méthode du maximum de vraisemblance 🧝🏿 🔃 🖼️

Rappelez-vous quelques définitions des statistiques mathématiques.

Soit un espace de probabilité donné

$(\ Omega, \ Sigma, P)$ .Définition 1:Variable aléatoire

$\ xi = \ xi (w)$ prendre des valeurs dans l'ensemble

$S$ c

$\ sigma$ -algèbre des sous - ensembles

$\ Phi$ appelé tout

$(\ Sigma, \ Phi)$ fonction mesurable

à

$\ xi \ colon \ Omega \ à S$ c'est

$\ forall A \ subseteq S, A \ in \ Phi$ la condition est remplie

\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma

$\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma$ .

Définition 2:

L'espace échantillon est l'espace de toutes les valeurs possibles de l'observation ou de l'échantillon avec

$\ sigma$ -algèbre de sous-ensembles mesurables de cet espace.
Désignation:

$(B, \ mathscr {B})$ .

Défini sur l'espace des probabilités

$(\ Omega, \ Sigma, P)$ variables aléatoires

à

$\ xi, \ eta, \ ldots \ colon \ Omega \ à B$ frayer dans l'espace

$(B, \ mathscr {B})$ mesures probabilistes

P_ \ xi \ {C \} = P \ {\ xi \ en C \}, P_ \ eta \ {C \} = P \ {\ eta \ en C \}, \ ldots

$P_ \ xi \ {C \} = P \ {\ xi \ en C \}, P_ \ eta \ {C \} = P \ {\ eta \ en C \}, \ ldots$ Sur un espace échantillon, pas une mesure de probabilité n'est déterminée, mais une famille finie ou infinie de mesures de probabilité.

Dans les problèmes de statistiques mathématiques , une famille de mesures de probabilité est connue.

\ {P_ \ theta, \ space \ theta \ in \ Theta \}

$\ {P_ \ theta, \ space \ theta \ in \ Theta \}$ défini dans l'espace d'échantillon, et il est nécessaire de déterminer à partir de l'échantillon laquelle des mesures probabilistes de cette famille correspond à l'échantillon.

Définition 3:

Un modèle statistique est un agrégat composé d'un espace échantillon et d'une famille de mesures de probabilité définies sur celui-ci.

Désignation:

$(B, \ mathscr {B}, \ mathscr {P})$ où

\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}

$\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}$ .

Soit

$B = \ mathbb {R} ^ n$ et

$(\ mathbb {R} ^ n, \ mathscr {B})$ - espace sélectif.

Échantillonnage

$X = (x_1, \ ldots, x_n)$ peut être considéré comme une combinaison

$n$ nombres réels. Attribuez à chaque élément de l'échantillon une probabilité égale à

$\ frac {1} {n}$ .

Soit

$I_x (B) = \ begin {cases} 1, \ quad x \ in B \\ 0, \ quad x \ not \ in B \ end {cases}$

Définition 4:

Une distribution empirique construite à partir de l'échantillon X est une mesure de probabilité

$P_n ^ *$ :

$P_n ^ * (B) = \ frac {1} {n} \ sum_ {k = 1} ^ nI_ {x_k} (B)$

C’est

$P_n ^ * (B)$ - le rapport du nombre d'éléments d'échantillonnage qui appartiennent

$B$ , au nombre total d'éléments d'échantillon:

$P_n ^ * (B) = \ frac {\ nu_n (B)} {n}, \ space \ nu_n (B) = \ sum \ limits_ {k = 1} ^ nI (x_k \ in B), \ espace B \ in \ mathscr {B}$ .

Définition 5:

Ordre des moments sélectifs

$k$ appelé

$\ hat {m} ^ * _ k = \ hat {m} ^ * _ k (X) = \ frac {1} {n} \ sum_ {j = 1} ^ nx_j ^ k$

$\ hat {m} _1 ^ * = \ overline {X} = \ frac {1} {n} \ sum \ limits_ {j = 1} ^ n x_j$ - moyenne de l'échantillon .

Définition 6:

Moment de commande central sélectif

$k$ est déterminé par l'égalité

$\ hat {m} _k ^ {* (0)} = \ hat {m} _k ^ {* (0)} (X) = \ frac {1} {n} \ sum_ {j = 1} ^ n ( x_j - \ overline {X}) ^ k$

$S ^ 2 = S ^ 2 (X) = \ hat {m} _2 ^ {* (0)} = \ frac {1} {n} \ sum \ limits_ {j = 1} ^ n (x_j - \ overline {X}) ^ 2$ - variance de l'échantillon .

En apprentissage automatique, de nombreuses tâches consistent à apprendre à sélectionner un paramètre parmi les données disponibles

$\ theta$ qui décrit le mieux ces données. En statistique mathématique, la méthode du maximum de vraisemblance est souvent utilisée pour résoudre un problème similaire.

Dans la vie réelle, la distribution d'erreur a souvent une distribution normale. Pour une justification, nous énonçons le théorème de la limite centrale .

Théorème 1 (CLT):

Si variables aléatoires

$\ xi_1, \ ldots, \ xi_n$ - attente mathématique indépendante, également répartie

$M (\ xi_i) = a$ variance

$D (\ xi_i) = \ sigma ^ 2 \ in (0, + \ infty) \ space \ forall i \ in \ overline {1, n}$ alors

$\ lim \ limits_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limits _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.$

Ci-dessous, nous formulons la méthode du maximum de vraisemblance et considérons son fonctionnement comme un exemple de famille de distributions normales.

Méthode du maximum de vraisemblance

Soit un modèle statistique

$(B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \})$ deux conditions sont remplies:

si $\ theta_1 \ not = \ theta_2$ alors $P _ {\ theta_1} \ not = P _ {\ theta_2}$ ;
il y a une telle mesure $\ mu$ sur $(B, \ mathscr {B})$ dont pour toute mesure $P_ \ theta$ , $\ theta \ in \ Theta$ , il y a une densité $f_ \ theta (x) = \ frac {dP_ \ theta (x)} {d \ mu} (x)$ c'est $\ forall C \ in \ mathscr {B} \ quad P_ \ theta (C) = \ int \ limits_Cf_ \ theta (x) \ mu (dx)$ .

Définition 7:

Évaluation du maximum de vraisemblance (OMP)

$\ hat {\ theta}$ paramètre

$\ theta$ appelé empiriquement construit

$P ^ * _ n$ correspondant à l'échantillon

$X = (x_1, \ ldots, x_n)$ , valeur

$\ theta \ in \ Theta$ à quel

$\ max \ limits _ {\ theta \ in \ Theta} \ int \ ln f_ \ theta (x) P_n ^ * (dx) = \ max \ limits _ {\ theta \ in \ Theta} \ frac {1} {n} \ sum \ limits_ {i = 1} ^ n \ ln f_ \ theta (x).$

Définition 8:

Fonction

$\ Lambda_ \ theta (X) = \ prod \ limits_ {i = 1} ^ n f_ \ theta (x_i)$ en fonction de

$\ theta$ est appelée la fonction de vraisemblance , et la fonction

$L (X, \ theta) = \ sum \ limits_ {i = 1} ^ n \ ln f_ \ theta (x_i)$ - fonction de vraisemblance logarithmique .

Ces fonctions atteignent leur pic aux mêmes valeurs.

$\ theta$ depuis

$\ ln x$ - fonction croissante monotone .

Un exemple:

$\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \}$ - famille de distributions normales avec des densités

$\ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \}$ . Par échantillon

$X = (x_1, \ ldots, x_n)$

$\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ {i = 1} ^ n (x_j-a) ^ 2 \};$

$L (X, (a, \ sigma)) = - \ frac {n} {2} \ ln2 \ pi - n \ ln \ sigma - \ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ { i = 1} ^ n (x_i-a) ^ 2;$

$\ frac {\ partial L} {\ partial a} = \ frac {1} {\ sigma ^ 2} \ sum \ limits_ {i = 1} ^ n (x_i-a), \ quad \ frac {\ partial L } {\ partial \ sigma} = - \ frac {n} {\ sigma} + \ frac {1} {\ sigma ^ 3} \ sum \ limits_ {i = 1} ^ n (x_i-a) ^ 2;$

$\ frac {\ partial L} {\ partial a} = 0 \ quad \ Rightarrow \ quad \ sum \ limits_ {i = 1} ^ nx_i - na = 0 \ quad \ Rightarrow \ quad \ frac {1} {n} \ sum \ limits_ {i = 1} ^ nx_i = \ overline {X} = \ hat {a};$

$\ frac {\ partial L} {\ partial \ sigma} = 0 \ quad \ Rightarrow \ quad \ frac {n} {\ sigma} = \ frac {1} {\ sigma ^ 3} \ sum \ limits_ {i = 1} ^ n (x_i - a) ^ 2 \ quad \ Rightarrow \ quad \ hat {\ sigma} = \ sqrt {\ frac {1} {n} \ sum \ limits_ {i = 1} ^ n (x_i - \ overline {X}) ^ 2} = \ sqrt {S ^ 2}.$

Des estimations de l'espérance et de la variance mathématiques ont été obtenues.

Si vous regardez attentivement la formule

$L (X, (a, \ sigma)) = - \ frac {n} {2} \ ln2 \ pi - n \ ln \ sigma - \ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ { i = 1} ^ n (x_i-a) ^ 2$

nous pouvons conclure que la fonction

$L (X, (a, \ sigma))$ prend sa valeur maximale lorsque

$\ sum \ limits_ {i = 1} ^ n (x_i-a) ^ 2$ est minime. Dans les problèmes d'apprentissage automatique, la méthode des moindres carrés est souvent utilisée, dans laquelle la somme des écarts au carré des valeurs prédites par rapport aux vraies est minimisée.

Liste de la littérature utilisée:

Notes de cours sur les statistiques mathématiques, auteur inconnu;
«Apprentissage profond. Immersion dans le monde des réseaux de neurones », S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.

Synopsis sur l'apprentissage automatique. Statistiques mathématiques. Méthode du maximum de vraisemblance

Rappelez-vous quelques définitions des statistiques mathématiques.

Méthode du maximum de vraisemblance

Liste de la littérature utilisée:

More articles: