
Lembre-se de algumas definições de estatística matemática.
Seja dado um
espaço de probabilidade ( Omega, Sigma,P) .
Definição 1:Variável aleatória xi= xi(w) tomando valores no conjunto
S c
sigma -algebra de subconjuntos
Phi chamou qualquer
( Sigma, Phi) função mensurável
xi colon Omega paraS isso é
forallA subseteqS,A in Phi a condição é satisfeita
\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ em A \} \ in \ Sigma\ xi ^ {- 1} (A) = \ {\ omega \ in \ Omega \ space \ colon \ space \ xi (w) \ em A \} \ in \ Sigma .
Definição 2:O espaço da amostra é o espaço de todos os valores possíveis da observação ou amostra, juntamente com
sigma -algebra de subconjuntos mensuráveis deste espaço.
Designação: (B, mathscrB) .
Definido no espaço de probabilidade
( Omega, Sigma,P) variáveis aleatórias
xi, eta, ldots colon Omega paraB desovar no espaço
(B, mathscrB) medidas probabilísticas
P_ \ xi \ {C \} = P \ {\ xi \ em C \}, P_ \ eta \ {C \} = P \ {\ eta \ em C \}, \ ldotsP_ \ xi \ {C \} = P \ {\ xi \ em C \}, P_ \ eta \ {C \} = P \ {\ eta \ em C \}, \ ldots Em um espaço de amostra, não é determinada uma medida de probabilidade, mas uma família finita ou infinita de medidas de probabilidade.
Em
problemas de estatística matemática , uma família de medidas de probabilidade é
conhecida. \ {P_ \ theta, \ space \ theta \ in \ Theta \}\ {P_ \ theta, \ space \ theta \ in \ Theta \} definido no espaço de amostragem e
é necessário que a amostra determine qual das medidas probabilísticas dessa família corresponde à amostra.
Definição 3:Um modelo estatístico é um agregado que consiste em um espaço de amostra e uma família de medidas de probabilidade definidas nele.
Designação: (B, mathscrB, mathscrP) onde
\ mathscr {P} = \ {P_ \ theta, \ espaço \ theta \ em \ Theta \}\ mathscr {P} = \ {P_ \ theta, \ espaço \ theta \ em \ Theta \} .
Vamos
B= mathbbRn e
( mathbbRn, mathscrB) - espaço seletivo.
Amostragem
X=(x1, ldots,xn) pode ser considerado como uma combinação
n números reais. Atribua a cada elemento da amostra uma probabilidade igual a
frac1n .
Vamos
Ix(B)= begincases1, quadx inB0, quadx not inB endcases
Definição 4:Uma distribuição empírica construída a partir da amostra X é uma medida de probabilidade
P∗n :
P∗n(B)= frac1n sumnk=1Ixk(B)
Isso é
P∗n(B) - a proporção do número de elementos de amostra que pertencem
B , para o número total de itens de amostra:
P∗n(B)= frac nun(B)n, espaço nun(B)= soma limitesnk=1I(xk emB), spaceB in mathscrB .
Definição 5:Ordem do momento seletivo k chamado
hatm∗k= hatm∗k(X)= frac1n sumnj=1xkj
hatm∗1= overlineX= frac1n sum limitsnj=1xj -
média da amostra .
Definição 6:Momento de ordem central seletivo k é determinado pela igualdade
hatm∗(0)k= hatm∗(0)k(X)= frac1n sumnj=1(xj− overlineX)k
S2=S2(X)= hatm∗(0)2= frac1n sum limitsnj=1(xj− overlineX)2 -
variação da amostra .
No aprendizado de máquina, muitas tarefas são aprender a selecionar um parâmetro dos dados disponíveis
theta que melhor descreve esses dados. Nas estatísticas matemáticas,
o método de máxima verossimilhança é frequentemente usado para resolver um problema semelhante.
Na vida real, a distribuição de erros geralmente tem uma distribuição normal. Para alguma justificativa, declaramos o
teorema do limite central .
Teorema 1 (CLT):Se variáveis aleatórias
xi1, ldots, xin -
expectativa matemática independente, igualmente distribuída
M( xii)=a variação D( xii)= sigma2 in(0,+ infty) space foralli in overline1,n então
\ lim \ limits_ {n \ to \ infty} P \ {\ frac {\ xi_1 + \ xi_2 + \ ldots + \ xi_n - na} {\ sigma \ sqrt {n}} \ leq x \} = F (x) = \ frac {1} {\ sqrt {2 \ pi}} \ int \ limits _ {- \ infty} ^ xe ^ {- u ^ 2/2} du.
Abaixo, formulamos o método da máxima verossimilhança e consideramos seu funcionamento como um exemplo de uma família de distribuições normais.
Método de máxima verossimilhança
Deixe um modelo estatístico
(B, \ mathscr {B}, \ mathscr {P} = \ {P_ \ theta, \ espaço \ theta \ em \ Theta \}) duas condições são atendidas:
- se theta1 not= theta2 então P theta1 not=P theta2 ;
- existe essa medida mu em (B, mathscrB) relativamente ao qual, para qualquer medida P theta , theta in Theta , existe uma densidade f theta(x)= fracdP theta(x)d mu(x) isso é forallC in mathscrB quadP theta(C)= int limitsCf theta(x) mu(dx) .
Definição 7:Avaliação da máxima verossimilhança (OMP)
hat theta parâmetro
theta chamado empiricamente construído
P∗n correspondente à amostra
X=(x1, ldots,xn) valor
theta in Theta em que
max limits theta in Theta int lnf theta(x)P∗n(dx)= max limits theta in Theta frac1n sum limitsni=1 lnf theta(x).Definição 8:Função
Lambda theta(X)= prod limitsni=1f theta(xi) em função de
theta é chamada de
função de probabilidade e a função
L(X, theta)= soma limitesni=1 lnf theta(xi) -
função de probabilidade logarítmica .
Essas funções atingem o pico nos mesmos valores.
theta desde
lnx - função crescente
monótona .
Um exemplo:\ mathscr {P} = \ {N (a, \ sigma ^ 2) \ space | \ space a \ in \ mathbb {R}, \ space \ sigma \ in (0, + \ infty) \} - família de
distribuições normais com densidades
\ phi_ {a, \ sigma ^ 2} (x) = \ frac {1} {\ sigma \ sqrt {2 \ pi}} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} (xa ) ^ 2 \} . Por amostra
X=(x1, ldots,xn)\ Lambda_ {a, \ sigma} (X) = \ frac {1} {(2 \ pi) ^ {\ frac {n} {2}} \ sigma ^ n} \ exp \ {- \ frac {1} {2 \ sigma ^ 2} \ sum \ limits_ {i = 1} ^ n (x_j-a) ^ 2 \};
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2;
frac Lparcial parciala= frac1 sigma2 soma limitesni=1(xi−a), quad frac Lparcial parcial sigma=− fracn sigma+ frac1 sigma3 sum limitsni=1(xi−a)2;
frac parcialL parciala=0 quad Rightarrow quad sum limitsni=1xi−na=0 quad Rightarrow quad frac1n sum limitsni=1xi= overlineX= hata;
frac parcialL parcial sigma=0 quad Rightarrow quad fracn sigma= frac1 sigma3 sum limitsni=1(xi−a)2 quad Rightarrow quad hat sigma= sqrt frac1n sum limitsni=1(xi− overlineX)2= sqrtS2.
Estimativas de expectativa e variância matemática foram obtidas.
Se você olhar atentamente para a fórmula
L(X,(a, sigma))=− fracn2 ln2 pi−n ln sigma− frac12 sigma2 sum limitsni=1(xi−a)2
podemos concluir que a função
L(X,(a, sigma)) assume seu valor máximo quando
soma limitesni=1(xi−a)2 é mínimo. Em problemas de aprendizado de máquina,
o método dos mínimos quadrados é frequentemente usado, no qual a soma dos desvios quadrados dos valores previstos e dos valores reais é minimizada.
Lista de literatura usada:
- Notas de aula sobre estatística matemática, autor desconhecido;
- “Aprendizagem profunda. Imersão no mundo das redes neurais ”, S. Nikulenko, A. Kadurin, E. Arkhangelskaya, PETER, 2018.