
Rappelez-vous quelques définitions des statistiques mathématiques.
Soit un
espace de probabilité donné
( Omega, Sigma,P) .
Définition 1:Variable aléatoire xi= xi(w) prendre des valeurs dans l'ensemble
S c
sigma -algèbre des sous
- ensembles
Phi appelé tout
( Sigma, Phi) fonction mesurable
xi colon Omega àS c'est
forallA subseteqS,A in Phi la condition est remplie
\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma .
Définition 2:L'espace échantillon est l'espace de toutes les valeurs possibles de l'observation ou de l'échantillon avec
sigma -algèbre de sous-ensembles mesurables de cet espace.
Désignation: (B, mathscrB) .
Défini sur l'espace des probabilités
( Omega, Sigma,P) variables aléatoires
xi, eta, ldots colon Omega àB frayer dans l'espace
(B, mathscrB) mesures probabilistes
P_ \ xi \ {C \} = P \ {\ xi \ en C \}, P_ \ eta \ {C \} = P \ {\ eta \ en C \}, \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ en C \}, P_ \ eta \ {C \} = P \ {\ eta \ en C \}, \ ldots Sur un espace échantillon, pas une mesure de probabilité n'est déterminée, mais une famille finie ou infinie de mesures de probabilité.
Dans les
problèmes de statistiques mathématiques , une famille de mesures de probabilité est
connue. \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ {P_ \ theta, \ space \ theta \ in \ Theta \} défini dans l'espace d'échantillon, et
il est nécessaire de déterminer à partir de l'échantillon laquelle des mesures probabilistes de cette famille correspond à l'échantillon.
Définition 3:Un modèle statistique est un agrégat composé d'un espace échantillon et d'une famille de mesures de probabilité définies sur celui-ci.
Désignation: (B, mathscrB, mathscrP) où
\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \} .
Soit
B= mathbbRn et
( mathbbRn, mathscrB) - espace sélectif.
Échantillonnage
X=(x1, ldots,xn) peut être considéré comme une combinaison
n nombres réels. Attribuez à chaque élément de l'échantillon une probabilité égale à
frac1n .
Soit
Ix(B)= begincases1, quadx inB0, quadx not inB endcases
Définition 4:Une distribution empirique construite à partir de l'échantillon X est une mesure de probabilité
P∗n :
P∗n(B)= frac1n sumnk=1Ixk(B)
C’est
P∗n(B) - le rapport du nombre d'éléments d'échantillonnage qui appartiennent
B , au nombre total d'éléments d'échantillon:
P∗n(B)= frac nun(B)n, space nun(B)= sum limitsnk=1I(xk inB), espaceB in mathscrB .
Définition 5:Ordre des moments sélectifs k appelé
hatm∗k= hatm∗k(X)= frac1n sumnj=1xkj
hatm∗1= overlineX= frac1n sum limitsnj=1xj -
moyenne de l'échantillon .
Définition 6:Moment de commande central sélectif k est déterminé par l'égalité
hatm∗(0)k= hatm∗(0)k(X)= frac1n sumnj=1(xj− overlineX)k
S2=S2(X)= hatm∗(0)2= frac1n sum limitsnj=1(xj− overlineX)2 -
variance de l'échantillon .
En apprentissage automatique, de nombreuses tâches consistent à apprendre à sélectionner un paramètre parmi les données disponibles
theta qui décrit le mieux ces données. En statistique mathématique,
la méthode du maximum de vraisemblance est souvent utilisée pour résoudre un problème similaire.
Dans la vie réelle, la distribution d'erreur a souvent une distribution normale. Pour une justification, nous énonçons le
théorème de la limite centrale .
Théorème 1 (CLT):Si variables aléatoires
xi1, ldots, xin -
attente mathématique indépendante, également répartie
M( xii)=a variance D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n alors
\ lim \ limits_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limits _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.
Ci-dessous, nous formulons la méthode du maximum de vraisemblance et considérons son fonctionnement comme un exemple de famille de distributions normales.
Méthode du maximum de vraisemblance
Soit un modèle statistique
(B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}) deux conditions sont remplies:
- si theta1 not= theta2 alors P theta1 not=P theta2 ;
- il y a une telle mesure mu sur (B, mathscrB) dont pour toute mesure P theta , theta in Theta , il y a une densité f theta(x)= fracdP theta(x)d mu(x) c'est forallC in mathscrB quadP theta(C)= int limitsCf theta(x) mu(dx) .
Définition 7:Évaluation du maximum de vraisemblance (OMP)
hat theta paramètre
theta appelé empiriquement construit
P∗n correspondant à l'échantillon
X=(x1, ldots,xn) , valeur
theta in Theta à quel
max limits theta in Theta int lnf theta(x)P∗n(dx)= max limits theta in Theta frac1n sum limitsni=1 lnf theta(x).Définition 8:Fonction
Lambda theta(X)= prod limitsni=1f theta(xi) en fonction de
theta est appelée la
fonction de vraisemblance , et la fonction
L(X, theta)= sum limitsni=1 lnf theta(xi) -
fonction de vraisemblance logarithmique .
Ces fonctions atteignent leur pic aux mêmes valeurs.
theta depuis
lnx - fonction croissante
monotone .
Un exemple:\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \} - famille de
distributions normales avec des densités
\ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . Par échantillon
X=(x1, ldots,xn)\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ {i = 1} ^ n (x_j-a) ^ 2 \};
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2;
frac partialL partiala= frac1 sigma2 sum limitsni=1(xi−a), quad frac partialL partial sigma=− fracn sigma+ frac1 sigma3 sum limitsni=1(xi−a)2;
frac partialL partiala=0 quad Rightarrow quad sum limitsni=1xi−na=0 quad Rightarrow quad frac1n sum limitsni=1xi= overlineX= hata;
frac partialL partial sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitsni=1(xi−a)2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitsni=1(xi− overlineX)2= sqrtS2.
Des estimations de l'espérance et de la variance mathématiques ont été obtenues.
Si vous regardez attentivement la formule
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2
nous pouvons conclure que la fonction
L(X,(a, sigma)) prend sa valeur maximale lorsque
sum limitsni=1(xi−a)2 est minime. Dans les problèmes d'apprentissage automatique,
la méthode des moindres carrés est souvent utilisée, dans laquelle la somme des écarts au carré des valeurs prédites par rapport aux vraies est minimisée.
Liste de la littérature utilisée:
- Notes de cours sur les statistiques mathématiques, auteur inconnu;
- «Apprentissage profond. Immersion dans le monde des réseaux de neurones », S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.