Sinopsis del aprendizaje automático. Estadística matemática. Método de máxima verosimilitud



Recordemos algunas definiciones de estadística matemática.


Deje que se dé un espacio de probabilidad ( Omega, Sigma,P) .

Definición 1:

Variable aleatoria  xi= xi(w) tomando valores en el conjunto S c  sigma -álgebra de subconjuntos  Phi llamado cualquiera ( Sigma, Phi) función medible  xi colon Omega aS eso es  forallA subseteqS,A in Phi la condición está satisfecha \ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ in A \} \ in \ Sigma .

Definición 2:

El espacio muestral es el espacio de todos los valores posibles de la observación o muestra junto con  sigma -álgebra de subconjuntos medibles de este espacio.
Designación: (B, mathscrB) .

Definido en espacio de probabilidad ( Omega, Sigma,P) variables aleatorias  xi, eta, ldots colon Omega aB desovar en el espacio (B, mathscrB) medidas probabilísticas P_ \ xi \ {C \} = P \ {\ xi \ en C \}, P_ \ eta \ {C \} = P \ {\ eta \ en C \}, \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ en C \}, P_ \ eta \ {C \} = P \ {\ eta \ en C \}, \ ldots En un espacio muestral, no se determina una medida de probabilidad, sino una familia de medidas de probabilidad finita o infinita.

En problemas de estadística matemática , se conoce una familia de medidas de probabilidad . \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ {P_ \ theta, \ space \ theta \ in \ Theta \} definido en el espacio de muestreo, y se requiere de la muestra para determinar cuál de las medidas probabilísticas de esta familia corresponde a la muestra.

Definición 3:

Un modelo estadístico es un agregado que consiste en un espacio muestral y una familia de medidas de probabilidad definidas en él.

Designación: (B, mathscrB, mathscrP) donde \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \} .

Dejar B= mathbbRn y ( mathbbRn, mathscrB) - espacio selectivo.

Muestreo X=(x1, ldots,xn) puede considerarse como una combinación n Números reales. Asigne a cada elemento de la muestra una probabilidad igual a  frac1n .

Dejar

Ix(B)= begincases1, quadx enB0, quadx not enB endcases


Definición 4:

Una distribución empírica construida a partir de la muestra X es una medida de probabilidad Pn :

Pn(B)= frac1n sumnk=1Ixk(B)


Eso es Pn(B) - la proporción del número de elementos de muestra que pertenecen B , al número total de elementos de muestra: Pn(B)= frac nun(B)n, space nun(B)= sum limitsnk=1I(xk inB), spaceB in mathscrB .

Definición 5:

Orden de momento selectivo k llamado

 hatmk= hatmk(X)= frac1n sumnj=1xkj

 hatm1= overlineX= frac1n sum limitsnj=1xj - muestra media .

Definición 6:

Momento central selectivo de orden k está determinado por la igualdad

 hatm(0)k= hatm(0)k(X)= frac1n sumnj=1(xj overlineX)k

S2=S2(X)= hatm(0)2= frac1n sum limitsnj=1(xj overlineX)2 - varianza muestral .

En el aprendizaje automático, muchas tareas son aprender a seleccionar un parámetro de los datos disponibles.  theta cuál describe mejor estos datos. En estadística matemática, el método de máxima verosimilitud se usa a menudo para resolver un problema similar.

En la vida real, la distribución de errores a menudo tiene una distribución normal. Para alguna justificación, establecemos el teorema del límite central .

Teorema 1 (CLT):

Si variables aleatorias  xi1, ldots, xin - expectativa matemática independiente, igualmente distribuida M( xii)=a varianza D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n entonces

\ lim \ limits_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limits _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.


A continuación, formulamos el método de máxima verosimilitud y consideramos su funcionamiento como un ejemplo de una familia de distribuciones normales.

Método de máxima verosimilitud


Dejar un modelo estadístico (B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ space \ theta \ in \ Theta \}) Se cumplen dos condiciones:

  • si  theta1 not= theta2 entonces P theta1 not=P theta2 ;
  • hay tal medida  mu en (B, mathscrB) respecto de cual para cualquier medida P theta ,  theta in Theta , hay una densidad f theta(x)= fracdP theta(x)d mu(x) eso es  forallC in mathscrB quadP theta(C)= int limitsCf theta(x) mu(dx) .

Definición 7:

Evaluación de máxima verosimilitud (OMP)  hat theta parámetro  theta llamado empíricamente construido Pn correspondiente a la muestra X=(x1, ldots,xn) valor  theta in Theta en que  max limits theta in Theta int lnf theta(x)Pn(dx)= max limits theta in Theta frac1n sum limitsni=1 lnf theta(x).

Definición 8:

Función  Lambda theta(X)= prod limitsni=1f theta(xi) en función de  theta se llama función de verosimilitud y la función L(X, theta)= sum limitsni=1 lnf theta(xi) - función de probabilidad logarítmica .

Estas funciones alcanzan su punto máximo en los mismos valores.  theta desde  lnx - Función monótona creciente.

Un ejemplo:

\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \} - familia de distribuciones normales con densidades \ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . Por muestra X=(x1, ldots,xn)

\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ {i = 1} ^ n (x_j-a) ^ 2 \};

L(X,(a, sigma))= fracn2 ln2 pin ln sigma frac12 sigma2 sum limitsni=1(xia)2;

 frac partialL partiala= frac1 sigma2 sum limitsni=1(xia), quad frac partialL partial sigma= fracn sigma+ frac1 sigma3 sum limitsni=1(xia)2;

 frac partialL partiala=0 quad Rightarrow quad sum limitsni=1xina=0 quad Rightarrow quad frac1n sum limitsni=1xi= overlineX= hata;

 frac partialL partial sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitsni=1(xia)2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitsni=1(xi overlineX)2= sqrtS2.

Se obtuvieron estimaciones para la expectativa matemática y la varianza.

Si miras detenidamente la fórmula

L(X,(a, sigma))= fracn2 ln2 pin ln sigma frac12 sigma2 sum limitsni=1(xia)2

podemos concluir que la función L(X,(a, sigma)) asume su valor máximo cuando  sum limitsni=1(xia)2 es mínimo En los problemas de aprendizaje automático, a menudo se usa el método de mínimos cuadrados , en el que se minimiza la suma de las desviaciones al cuadrado de los valores pronosticados de los verdaderos.

Lista de literatura utilizada:


  • Apuntes de estadística matemática, autor desconocido;
  • “Aprendizaje profundo. Inmersión en el mundo de las redes neuronales ”, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.

Source: https://habr.com/ru/post/474478/


All Articles