Synopsis sur l'apprentissage automatique. Statistiques mathématiques. Méthode du maximum de vraisemblance



Rappelez-vous quelques définitions des statistiques mathématiques.


Soit un espace de probabilité donné ( Omega, Sigma,P) .

Définition 1:

Variable aléatoire  xi= xi(w) prendre des valeurs dans l'ensemble S c  sigma -algèbre des sous - ensembles  Phi appelé tout ( Sigma, Phi) fonction mesurable  xi colon Omega àSà c'est  forallA subseteqS,A in Phi la condition est remplie \ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma .

Définition 2:

L'espace échantillon est l'espace de toutes les valeurs possibles de l'observation ou de l'échantillon avec  sigma -algèbre de sous-ensembles mesurables de cet espace.
Désignation: (B, mathscrB) .

Défini sur l'espace des probabilités ( Omega, Sigma,P) variables aléatoires  xi, eta, ldots colon Omega àBà frayer dans l'espace (B, mathscrB) mesures probabilistes P_ \ xi \ {C \} = P \ {\ xi \ en C \}, P_ \ eta \ {C \} = P \ {\ eta \ en C \}, \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ en C \}, P_ \ eta \ {C \} = P \ {\ eta \ en C \}, \ ldots Sur un espace échantillon, pas une mesure de probabilité n'est déterminée, mais une famille finie ou infinie de mesures de probabilité.

Dans les problèmes de statistiques mathématiques , une famille de mesures de probabilité est connue. \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ {P_ \ theta, \ space \ theta \ in \ Theta \} défini dans l'espace d'échantillon, et il est nécessaire de déterminer à partir de l'échantillon laquelle des mesures probabilistes de cette famille correspond à l'échantillon.

Définition 3:

Un modèle statistique est un agrégat composé d'un espace échantillon et d'une famille de mesures de probabilité définies sur celui-ci.

Désignation: (B, mathscrB, mathscrP)\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \} .

Soit B= mathbbRn et ( mathbbRn, mathscrB) - espace sélectif.

Échantillonnage X=(x1, ldots,xn) peut être considéré comme une combinaison n nombres réels. Attribuez à chaque élément de l'échantillon une probabilité égale à  frac1n .

Soit

Ix(B)= begincases1, quadx inB0, quadx not inB endcases


Définition 4:

Une distribution empirique construite à partir de l'échantillon X est une mesure de probabilité Pn :

Pn(B)= frac1n sumnk=1Ixk(B)


C’est Pn(B) - le rapport du nombre d'éléments d'échantillonnage qui appartiennent B , au nombre total d'éléments d'échantillon: Pn(B)= frac nun(B)n, space nun(B)= sum limitsnk=1I(xk inB), espaceB in mathscrB .

Définition 5:

Ordre des moments sélectifs k appelé

 hatmk= hatmk(X)= frac1n sumnj=1xkj

 hatm1= overlineX= frac1n sum limitsnj=1xj - moyenne de l'échantillon .

Définition 6:

Moment de commande central sélectif k est déterminé par l'égalité

 hatm(0)k= hatm(0)k(X)= frac1n sumnj=1(xj overlineX)k

S2=S2(X)= hatm(0)2= frac1n sum limitsnj=1(xj overlineX)2 - variance de l'échantillon .

En apprentissage automatique, de nombreuses tâches consistent à apprendre à sélectionner un paramètre parmi les données disponibles  theta qui décrit le mieux ces données. En statistique mathématique, la méthode du maximum de vraisemblance est souvent utilisée pour résoudre un problème similaire.

Dans la vie réelle, la distribution d'erreur a souvent une distribution normale. Pour une justification, nous énonçons le théorème de la limite centrale .

Théorème 1 (CLT):

Si variables aléatoires  xi1, ldots, xin - attente mathématique indépendante, également répartie M( xii)=a variance D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n alors

\ lim \ limits_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limits _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.


Ci-dessous, nous formulons la méthode du maximum de vraisemblance et considérons son fonctionnement comme un exemple de famille de distributions normales.

Méthode du maximum de vraisemblance


Soit un modèle statistique (B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}) deux conditions sont remplies:

  • si  theta1 not= theta2 alors P theta1 not=P theta2 ;
  • il y a une telle mesure  mu sur (B, mathscrB) dont pour toute mesure P theta ,  theta in Theta , il y a une densité f theta(x)= fracdP theta(x)d mu(x) c'est  forallC in mathscrB quadP theta(C)= int limitsCf theta(x) mu(dx) .

Définition 7:

Évaluation du maximum de vraisemblance (OMP)  hat theta paramètre  theta appelé empiriquement construit Pn correspondant à l'échantillon X=(x1, ldots,xn) , valeur  theta in Theta à quel  max limits theta in Theta int lnf theta(x)Pn(dx)= max limits theta in Theta frac1n sum limitsni=1 lnf theta(x).

Définition 8:

Fonction  Lambda theta(X)= prod limitsni=1f theta(xi) en fonction de  theta est appelée la fonction de vraisemblance , et la fonction L(X, theta)= sum limitsni=1 lnf theta(xi) - fonction de vraisemblance logarithmique .

Ces fonctions atteignent leur pic aux mêmes valeurs.  theta depuis  lnx - fonction croissante monotone .

Un exemple:

\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \} - famille de distributions normales avec des densités \ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . Par échantillon X=(x1, ldots,xn)

\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ {i = 1} ^ n (x_j-a) ^ 2 \};

L(X,(a, sigma))= fracn2 ln2 pin ln sigma frac12 sigma2 sum limitsni=1(xia)2;

 frac partialL partiala= frac1 sigma2 sum limitsni=1(xia), quad frac partialL partial sigma= fracn sigma+ frac1 sigma3 sum limitsni=1(xia)2;

 frac partialL partiala=0 quad Rightarrow quad sum limitsni=1xina=0 quad Rightarrow quad frac1n sum limitsni=1xi= overlineX= hata;

 frac partialL partial sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitsni=1(xia)2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitsni=1(xi overlineX)2= sqrtS2.

Des estimations de l'espérance et de la variance mathématiques ont été obtenues.

Si vous regardez attentivement la formule

L(X,(a, sigma))= fracn2 ln2 pin ln sigma frac12 sigma2 sum limitsni=1(xia)2

nous pouvons conclure que la fonction L(X,(a, sigma)) prend sa valeur maximale lorsque  sum limitsni=1(xia)2 est minime. Dans les problèmes d'apprentissage automatique, la méthode des moindres carrés est souvent utilisée, dans laquelle la somme des écarts au carré des valeurs prédites par rapport aux vraies est minimisée.

Liste de la littérature utilisée:


  • Notes de cours sur les statistiques mathématiques, auteur inconnu;
  • «Apprentissage profond. Immersion dans le monde des réseaux de neurones », S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.

Source: https://habr.com/ru/post/fr474478/


All Articles