
Recordemos algunas definiciones de estadística matemática.
Deje que se dé un
espacio de probabilidad ( Omega, Sigma,P) .
Definición 1:Variable aleatoria xi= xi(w) tomando valores en el conjunto
S c
sigma -álgebra de subconjuntos
Phi llamado cualquiera
( Sigma, Phi) función medible
xi colon Omega aS eso es
forallA subseteqS,A in Phi la condición está satisfecha
\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma .
Definición 2:El espacio muestral es el espacio de todos los valores posibles de la observación o muestra junto con
sigma -álgebra de subconjuntos medibles de este espacio.
Designación: (B, mathscrB) .
Definido en espacio de probabilidad
( Omega, Sigma,P) variables aleatorias
xi, eta, ldots colon Omega aB desovar en el espacio
(B, mathscrB) medidas probabilísticas
P_ \ xi \ {C \} = P \ {\ xi \ en C \}, P_ \ eta \ {C \} = P \ {\ eta \ en C \}, \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ en C \}, P_ \ eta \ {C \} = P \ {\ eta \ en C \}, \ ldots En un espacio muestral, no se determina una medida de probabilidad, sino una familia de medidas de probabilidad finita o infinita.
En
problemas de estadística matemática , se
conoce una familia de medidas de probabilidad
. \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ {P_ \ theta, \ space \ theta \ in \ Theta \} definido en el espacio de muestreo, y
se requiere de la muestra para determinar cuál de las medidas probabilísticas de esta familia corresponde a la muestra.
Definición 3:Un modelo estadístico es un agregado que consiste en un espacio muestral y una familia de medidas de probabilidad definidas en él.
Designación: (B, mathscrB, mathscrP) donde
\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \} .
Dejar
B= mathbbRn y
( mathbbRn, mathscrB) - espacio selectivo.
Muestreo
X=(x1, ldots,xn) puede considerarse como una combinación
n Números reales. Asigne a cada elemento de la muestra una probabilidad igual a
frac1n .
Dejar
Ix(B)= begincases1, quadx enB0, quadx not enB endcases
Definición 4:Una distribución empírica construida a partir de la muestra X es una medida de probabilidad
P∗n :
P∗n(B)= frac1n sumnk=1Ixk(B)
Eso es
P∗n(B) - la proporción del número de elementos de muestra que pertenecen
B , al número total de elementos de muestra:
P∗n(B)= frac nun(B)n, space nun(B)= sum limitsnk=1I(xk inB), spaceB in mathscrB .
Definición 5:Orden de momento selectivo k llamado
hatm∗k= hatm∗k(X)= frac1n sumnj=1xkj
hatm∗1= overlineX= frac1n sum limitsnj=1xj -
muestra media .
Definición 6:Momento central selectivo de orden k está determinado por la igualdad
hatm∗(0)k= hatm∗(0)k(X)= frac1n sumnj=1(xj− overlineX)k
S2=S2(X)= hatm∗(0)2= frac1n sum limitsnj=1(xj− overlineX)2 -
varianza muestral .
En el aprendizaje automático, muchas tareas son aprender a seleccionar un parámetro de los datos disponibles.
theta cuál describe mejor estos datos. En estadística matemática,
el método de máxima verosimilitud se usa a menudo para resolver un problema similar.
En la vida real, la distribución de errores a menudo tiene una distribución normal. Para alguna justificación, establecemos el
teorema del límite central .
Teorema 1 (CLT):Si variables aleatorias
xi1, ldots, xin -
expectativa matemática independiente, igualmente distribuida
M( xii)=a varianza D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n entonces
\ lim \ limits_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limits _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.
A continuación, formulamos el método de máxima verosimilitud y consideramos su funcionamiento como un ejemplo de una familia de distribuciones normales.
Método de máxima verosimilitud
Dejar un modelo estadístico
(B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}) Se cumplen dos condiciones:
- si theta1 not= theta2 entonces P theta1 not=P theta2 ;
- hay tal medida mu en (B, mathscrB) respecto de cual para cualquier medida P theta , theta in Theta , hay una densidad f theta(x)= fracdP theta(x)d mu(x) eso es forallC in mathscrB quadP theta(C)= int limitsCf theta(x) mu(dx) .
Definición 7:Evaluación de máxima verosimilitud (OMP)
hat theta parámetro
theta llamado empíricamente construido
P∗n correspondiente a la muestra
X=(x1, ldots,xn) valor
theta in Theta en que
max limits theta in Theta int lnf theta(x)P∗n(dx)= max limits theta in Theta frac1n sum limitsni=1 lnf theta(x).Definición 8:Función
Lambda theta(X)= prod limitsni=1f theta(xi) en función de
theta se llama
función de verosimilitud y la función
L(X, theta)= sum limitsni=1 lnf theta(xi) -
función de probabilidad logarítmica .
Estas funciones alcanzan su punto máximo en los mismos valores.
theta desde
lnx - Función
monótona creciente.
Un ejemplo:\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \} - familia de
distribuciones normales con densidades
\ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . Por muestra
X=(x1, ldots,xn)\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ {i = 1} ^ n (x_j-a) ^ 2 \};
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2;
frac partialL partiala= frac1 sigma2 sum limitsni=1(xi−a), quad frac partialL partial sigma=− fracn sigma+ frac1 sigma3 sum limitsni=1(xi−a)2;
frac partialL partiala=0 quad Rightarrow quad sum limitsni=1xi−na=0 quad Rightarrow quad frac1n sum limitsni=1xi= overlineX= hata;
frac partialL partial sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitsni=1(xi−a)2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitsni=1(xi− overlineX)2= sqrtS2.
Se obtuvieron estimaciones para la expectativa matemática y la varianza.
Si miras detenidamente la fórmula
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2
podemos concluir que la función
L(X,(a, sigma)) asume su valor máximo cuando
sum limitsni=1(xi−a)2 es mínimo En los problemas de aprendizaje automático, a menudo se usa el
método de mínimos cuadrados , en el que se minimiza la suma de las desviaciones al cuadrado de los valores pronosticados de los verdaderos.
Lista de literatura utilizada:
- Apuntes de estadística matemática, autor desconocido;
- “Aprendizaje profundo. Inmersión en el mundo de las redes neuronales ”, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.