
Recordemos algunas definiciones de estadística matemática.
Deje que se dé un 
espacio de probabilidad ( Omega, Sigma,P) .
Definición 1:Variable aleatoria  xi= xi(w) tomando valores en el conjunto 
S c 
 sigma -álgebra de subconjuntos 
 Phi llamado cualquiera 
( Sigma, Phi) función medible 
 xi colon Omega aS eso es 
 forallA subseteqS,A in Phi la condición está satisfecha 
\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma .
Definición 2:El espacio muestral es el espacio de todos los valores posibles de la observación o muestra junto con 
 sigma -álgebra de subconjuntos medibles de este espacio.
Designación: (B, mathscrB) .
Definido en espacio de probabilidad 
( Omega, Sigma,P) variables aleatorias 
 xi, eta, ldots colon Omega aB desovar en el espacio 
(B, mathscrB) medidas probabilísticas 
P_ \ xi \ {C \} = P \ {\ xi \ en C \}, P_ \ eta \ {C \} = P \ {\ eta \ en C \}, \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ en C \}, P_ \ eta \ {C \} = P \ {\ eta \ en C \}, \ ldots En un espacio muestral, no se determina una medida de probabilidad, sino una familia de medidas de probabilidad finita o infinita.
En 
problemas de estadística matemática , se 
conoce una familia de medidas de probabilidad 
. \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ {P_ \ theta, \ space \ theta \ in \ Theta \} definido en el espacio de muestreo, y 
se requiere de la muestra para determinar cuál de las medidas probabilísticas de esta familia corresponde a la muestra.
Definición 3:Un modelo estadístico es un agregado que consiste en un espacio muestral y una familia de medidas de probabilidad definidas en él.
Designación: (B, mathscrB, mathscrP) donde 
\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \} .
Dejar 
B= mathbbRn y 
( mathbbRn, mathscrB) - espacio selectivo.
Muestreo 
X=(x1, ldots,xn) puede considerarse como una combinación 
n Números reales. Asigne a cada elemento de la muestra una probabilidad igual a 
 frac1n .
Dejar
Ix(B)= begincases1, quadx enB0, quadx not enB endcases
Definición 4:Una distribución empírica construida a partir de la muestra X es una medida de probabilidad 
P∗n :
P∗n(B)= frac1n sumnk=1Ixk(B)
Eso es 
P∗n(B) - la proporción del número de elementos de muestra que pertenecen 
B , al número total de elementos de muestra: 
P∗n(B)= frac nun(B)n, space nun(B)= sum limitsnk=1I(xk inB), spaceB in mathscrB .
Definición 5:Orden de momento selectivo k llamado
 hatm∗k= hatm∗k(X)= frac1n sumnj=1xkj
 hatm∗1= overlineX= frac1n sum limitsnj=1xj - 
muestra media .
Definición 6:Momento central selectivo de orden k está determinado por la igualdad
 hatm∗(0)k= hatm∗(0)k(X)= frac1n sumnj=1(xj− overlineX)k
S2=S2(X)= hatm∗(0)2= frac1n sum limitsnj=1(xj− overlineX)2 - 
varianza muestral .
En el aprendizaje automático, muchas tareas son aprender a seleccionar un parámetro de los datos disponibles. 
 theta cuál describe mejor estos datos. En estadística matemática, 
el método de máxima verosimilitud se usa a menudo para resolver un problema similar.
En la vida real, la distribución de errores a menudo tiene una distribución normal. Para alguna justificación, establecemos el 
teorema del límite central .
Teorema 1 (CLT):Si variables aleatorias 
 xi1, ldots, xin - 
expectativa matemática independiente, igualmente distribuida 
M( xii)=a varianza D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n entonces
\ lim \ limits_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limits _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.
A continuación, formulamos el método de máxima verosimilitud y consideramos su funcionamiento como un ejemplo de una familia de distribuciones normales.
Método de máxima verosimilitud
Dejar un modelo estadístico 
(B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}) Se cumplen dos condiciones:
- si  theta1 not= theta2 entonces P theta1 not=P theta2 ;
- hay tal medida  mu en (B, mathscrB) respecto de cual para cualquier medida P theta ,  theta in Theta , hay una densidad f theta(x)= fracdP theta(x)d mu(x) eso es  forallC in mathscrB quadP theta(C)= int limitsCf theta(x) mu(dx) .
Definición 7:Evaluación de máxima verosimilitud (OMP) 
 hat theta parámetro 
 theta llamado empíricamente construido 
P∗n correspondiente a la muestra 
X=(x1, ldots,xn) valor 
 theta in Theta en que 
 max limits theta in Theta int lnf theta(x)P∗n(dx)= max limits theta in Theta frac1n sum limitsni=1 lnf theta(x).Definición 8:Función 
 Lambda theta(X)= prod limitsni=1f theta(xi) en función de 
 theta se llama 
función de verosimilitud y la función 
L(X, theta)= sum limitsni=1 lnf theta(xi) - 
función de probabilidad logarítmica .
Estas funciones alcanzan su punto máximo en los mismos valores. 
 theta desde 
 lnx - Función 
monótona creciente.
Un ejemplo:\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \} - familia de 
distribuciones normales con densidades 
\ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . Por muestra 
X=(x1, ldots,xn)\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ {i = 1} ^ n (x_j-a) ^ 2 \};
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2;
 frac partialL partiala= frac1 sigma2 sum limitsni=1(xi−a), quad frac partialL partial sigma=− fracn sigma+ frac1 sigma3 sum limitsni=1(xi−a)2;
 frac partialL partiala=0 quad Rightarrow quad sum limitsni=1xi−na=0 quad Rightarrow quad frac1n sum limitsni=1xi= overlineX= hata;
 frac partialL partial sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitsni=1(xi−a)2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitsni=1(xi− overlineX)2= sqrtS2.
Se obtuvieron estimaciones para la expectativa matemática y la varianza.
Si miras detenidamente la fórmula
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2
podemos concluir que la función 
L(X,(a, sigma)) asume su valor máximo cuando 
 sum limitsni=1(xi−a)2 es mínimo En los problemas de aprendizaje automático, a menudo se usa el 
método de mínimos cuadrados , en el que se minimiza la suma de las desviaciones al cuadrado de los valores pronosticados de los verdaderos.
Lista de literatura utilizada:
- Apuntes de estadística matemática, autor desconocido;
- “Aprendizaje profundo. Inmersión en el mundo de las redes neuronales ”, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.