Sinopse sobre Machine Learning. Estatística matemática. Método de máxima verossimilhança



Lembre-se de algumas definições de estatística matemática.


Seja dado um espaço de probabilidade ( Omega, Sigma,P) .

Definição 1:

Variável aleatória  xi= xi(w) tomando valores no conjunto S c  sigma -algebra de subconjuntos  Phi chamou qualquer ( Sigma, Phi) função mensurável  xi colon Omega paraS isso é  forallA subseteqS,A in Phi a condição é satisfeita \ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ em A \} \ in \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ em A \} \ in \ Sigma .

Definição 2:

O espaço da amostra é o espaço de todos os valores possíveis da observação ou amostra, juntamente com  sigma -algebra de subconjuntos mensuráveis ​​deste espaço.
Designação: (B, mathscrB) .

Definido no espaço de probabilidade ( Omega, Sigma,P) variáveis ​​aleatórias  xi, eta, ldots colon Omega paraB desovar no espaço (B, mathscrB) medidas probabilísticas P_ \ xi \ {C \} = P \ {\ xi \ em C \}, P_ \ eta \ {C \} = P \ {\ eta \ em C \}, \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ em C \}, P_ \ eta \ {C \} = P \ {\ eta \ em C \}, \ ldots Em um espaço de amostra, não é determinada uma medida de probabilidade, mas uma família finita ou infinita de medidas de probabilidade.

Em problemas de estatística matemática , uma família de medidas de probabilidade é conhecida. \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ {P_ \ theta, \ space \ theta \ in \ Theta \} definido no espaço de amostragem e é necessário que a amostra determine qual das medidas probabilísticas dessa família corresponde à amostra.

Definição 3:

Um modelo estatístico é um agregado que consiste em um espaço de amostra e uma família de medidas de probabilidade definidas nele.

Designação: (B, mathscrB, mathscrP) onde \ mathscr {P} = \ {P_ \ theta, \ espaço \ theta \ em \ Theta \}\ mathscr {P} = \ {P_ \ theta, \ espaço \ theta \ em \ Theta \} .

Vamos B= mathbbRn e ( mathbbRn, mathscrB) - espaço seletivo.

Amostragem X=(x1, ldots,xn) pode ser considerado como uma combinação n números reais. Atribua a cada elemento da amostra uma probabilidade igual a  frac1n .

Vamos

Ix(B)= begincases1, quadx inB0, quadx not inB endcases


Definição 4:

Uma distribuição empírica construída a partir da amostra X é uma medida de probabilidade Pn :

Pn(B)= frac1n sumnk=1Ixk(B)


Isso é Pn(B) - a proporção do número de elementos de amostra que pertencem B , para o número total de itens de amostra: Pn(B)= frac nun(B)n, espaço nun(B)= soma limitesnk=1I(xk emB), spaceB in mathscrBç .

Definição 5:

Ordem do momento seletivo k chamado

 hatmk= hatmk(X)= frac1n sumnj=1xkj

 hatm1= overlineX= frac1n sum limitsnj=1xj - média da amostra .

Definição 6:

Momento de ordem central seletivo k é determinado pela igualdade

 hatm(0)k= hatm(0)k(X)= frac1n sumnj=1(xj overlineX)k

S2=S2(X)= hatm(0)2= frac1n sum limitsnj=1(xj overlineX)2 - variação da amostra .

No aprendizado de máquina, muitas tarefas são aprender a selecionar um parâmetro dos dados disponíveis  theta que melhor descreve esses dados. Nas estatísticas matemáticas, o método de máxima verossimilhança é frequentemente usado para resolver um problema semelhante.

Na vida real, a distribuição de erros geralmente tem uma distribuição normal. Para alguma justificativa, declaramos o teorema do limite central .

Teorema 1 (CLT):

Se variáveis ​​aleatórias  xi1, ldots, xin - expectativa matemática independente, igualmente distribuída M( xii)=a variação D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n então

\ lim \ limits_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limits _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.


Abaixo, formulamos o método da máxima verossimilhança e consideramos seu funcionamento como um exemplo de uma família de distribuições normais.

Método de máxima verossimilhança


Deixe um modelo estatístico (B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ espaço \ theta \ em \ Theta \}) duas condições são atendidas:

  • se  theta1 not= theta2 então P theta1 not=P theta2 ;
  • existe essa medida  mu em (B, mathscrB) relativamente ao qual, para qualquer medida P theta ,  theta in Theta , existe uma densidade f theta(x)= fracdP theta(x)d mu(x) isso é  forallC in mathscrB quadP theta(C)= int limitsCf theta(x) mu(dx) .

Definição 7:

Avaliação da máxima verossimilhança (OMP)  hat theta parâmetro  theta chamado empiricamente construído Pn correspondente à amostra X=(x1, ldots,xn) valor  theta in Theta em que  max limits theta in Theta int lnf theta(x)Pn(dx)= max limits theta in Theta frac1n sum limitsni=1 lnf theta(x).

Definição 8:

Função  Lambda theta(X)= prod limitsni=1f theta(xi) em função de  theta é chamada de função de probabilidade e a função L(X, theta)= soma limitesni=1 lnf theta(xi) - função de probabilidade logarítmica .

Essas funções atingem o pico nos mesmos valores.  theta desde  lnx - função crescente monótona .

Um exemplo:

\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \} - família de distribuições normais com densidades \ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . Por amostra X=(x1, ldots,xn)

\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ {i = 1} ^ n (x_j-a) ^ 2 \};

L(X,(a, sigma))= fracn2 ln2 pin ln sigma frac12 sigma2 sum limitsni=1(xia)2;

 frac Lparcial parciala= frac1 sigma2 soma limitesni=1(xia), quad frac Lparcial parcial sigma= fracn sigma+ frac1 sigma3 sum limitsni=1(xia)2;

 frac parcialL parciala=0 quad Rightarrow quad sum limitsni=1xina=0 quad Rightarrow quad frac1n sum limitsni=1xi= overlineX= hata;

 frac parcialL parcial sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitsni=1(xia)2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitsni=1(xi overlineX)2= sqrtS2.

Estimativas de expectativa e variância matemática foram obtidas.

Se você olhar atentamente para a fórmula

L(X,(a, sigma))= fracn2 ln2 pin ln sigma frac12 sigma2 sum limitsni=1(xia)2

podemos concluir que a função L(X,(a, sigma)) assume seu valor máximo quando  soma limitesni=1(xia)2 é mínimo. Em problemas de aprendizado de máquina, o método dos mínimos quadrados é frequentemente usado, no qual a soma dos desvios quadrados dos valores previstos e dos valores reais é minimizada.

Lista de literatura usada:


  • Notas de aula sobre estatística matemática, autor desconhecido;
  • “Aprendizagem profunda. Imersão no mundo das redes neurais ”, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.

Source: https://habr.com/ru/post/pt474478/


All Articles