Em vez de introduzir
O artigo descreve um estudo realizado para verificar a afirmação do teorema do limite central de que a soma de
N variáveis aleatórias independentes e identicamente distribuídas, selecionadas entre quase todas as distribuições, tem uma distribuição próxima do normal. No entanto, antes de prosseguirmos com a descrição do estudo e uma divulgação mais detalhada do significado do teorema do limite central, não será impróprio explicar por que o estudo foi realizado e para quem o artigo pode ser útil.
Antes de tudo, o artigo pode ser útil para todos os iniciantes entenderem o básico do aprendizado de máquina, especialmente se um leitor respeitado também estiver em seu primeiro ano de especialização "Aprendizado de máquina e análise de dados". É esse tipo de pesquisa que precisa ser realizada na última semana do primeiro curso, a especialização acima, para receber o cobiçado certificado.
Abordagem de pesquisa
Então, voltando à questão da pesquisa. O que o teorema do limite central nos diz. Mas ela diz isso. Se houver um valor aleatório
X de praticamente qualquer distribuição, e uma amostra do volume
N for gerada aleatoriamente a partir dessa distribuição, a média da amostra determinada com base na amostra pode ser aproximada por uma distribuição normal com um valor médio que coincide com a expectativa matemática da população original.
Para conduzir um experimento, precisaremos escolher uma distribuição a partir da qual uma amostra será gerada aleatoriamente. No nosso caso, usaremos a distribuição exponencial.
Portanto, sabemos que a densidade de probabilidade da distribuição exponencial de uma variável aleatória
X tem a forma:
onde
,
A expectativa matemática de uma variável aleatória X , de acordo com a lei da distribuição exponencial, é determinada inversamente
:
A variação de uma variável aleatória X é definida como
Nosso estudo utiliza o parâmetro de distribuição exponencial
então
,
Para simplificar a percepção dos valores e o próprio experimento, suponha que estamos falando sobre a operação do dispositivo com uma expectativa média de tempo de atividade de 80 horas. Então, quanto mais tempo o dispositivo funcionar, menor a probabilidade de que não haja falhas e vice-versa - quando o dispositivo tenderá a zero tempo (horas, minutos, segundos), a probabilidade de falha também tenderá a zero.
Agora a partir da distribuição exponencial com o parâmetro fornecido
escolha 1000 valores pseudo-aleatórios. Compare os resultados da amostra com a densidade de probabilidade teórica.
Além disso, e essa é a coisa mais importante em nosso pequeno estudo, formaremos as seguintes amostras. Tomamos 3, 15, 50, 100, 150, 300 e 500 variáveis aleatórias da distribuição exponencial, determinamos para cada volume (de 3 a 500) a média aritmética e repetimos 1000 vezes. Para cada amostra, construímos um histograma e sobrepomos um gráfico da densidade da distribuição normal correspondente. Estimamos os parâmetros resultantes da média da amostra, variância e desvio padrão.
Isso poderia concluir o artigo, mas há uma proposta para expandir um pouco os limites do experimento. Vamos estimar quanto esses parâmetros, com um aumento no tamanho da amostra de 3 para 500, serão diferentes de suas contrapartes - os mesmos parâmetros das correspondentes distribuições normais. Em outras palavras, somos convidados a responder à pergunta, mas observaremos uma diminuição nos desvios com o aumento do tamanho da amostra?
Então, a caminho. Nossas ferramentas hoje serão a linguagem Python e o notebook Jupyter.
Estudamos a afirmação do teorema do limite central
O código fonte do estudo está publicado no
githubAtenção! Este arquivo requer um notebook Jupyter!Uma amostra de um valor pseudo-aleatório gerado por nós de acordo com a lei da distribuição exponencial 1000 vezes bastante caracteriza a população teórica (inicial) (gráfico 1 *, tabela 1).
Quadro 1 “O conjunto inicial de distribuição e amostragem exponencial”
Tabela 1 “Parâmetros da população inicial e amostra”
Agora vamos ver o que acontece se tomarmos não apenas um valor pseudo-aleatório 1000 vezes, mas a média aritmética de 3, 15, 50, 100, 150, 300 ou 500 valores pseudo-aleatórios e comparar os parâmetros de cada amostra com os parâmetros das distribuições normais correspondentes (gráfico 2 ** tabela 2).
Quadro 2.1 “Amostra de 5”
Quadro 2.2 “Amostra de 50”
Quadro 2.3 “Amostra de 100”
Quadro 2.4 “Amostra de 150”
Quadro 2.5 “300 amostras”
Quadro 2.6 “500 amostras”
Tabela 2 "Opções de amostra"
De acordo com a representação gráfica dos resultados, é claramente observada a seguinte regularidade: com o aumento do tamanho da amostra, a distribuição se aproxima do normal e a concentração de variáveis pseudo-aleatórias em torno da média da amostra ocorre, e a média da amostra se aproxima da expectativa matemática da distribuição inicial.
De acordo com os dados apresentados na tabela, o padrão revelado nos gráficos é confirmado - com o aumento do tamanho da amostra, os valores de variância e desvio padrão visivelmente diminuem, indicando uma concentração mais densa de valores pseudo-aleatórios em torno das médias da amostra.
Mas isso não é tudo. Lembramos que, no início do artigo, foi feita uma proposta para verificar se, com o aumento do tamanho da amostra, os desvios dos parâmetros da amostra em relação aos parâmetros da correspondente distribuição normal diminuem.
Como pode ser visto (gráfico 3, tabela 3), não ocorre uma redução arbitrariamente perceptível nos desvios - os parâmetros das amostras saltam para mais ou menos em distâncias diferentes e não desejam se aproximar de forma estável dos valores calculados. Vamos tentar encontrar uma explicação para a falta de dinâmica positiva nos seguintes estudos.
Quadro 3 “Desvios dos parâmetros amostrais dos cálculos teóricos”

Tabela 3 "Desvios dos parâmetros das amostras em relação ao teórico calculado"

Em vez de conclusões
Nosso estudo, por um lado, mais uma vez confirmou as conclusões do teorema do limite central sobre a abordagem de valores independentes distribuídos aleatoriamente à distribuição normal com o aumento do tamanho da amostra; por outro lado, foi possível concluir com êxito o primeiro ano de especialização maior.
* Desenvolvendo a lógica do exemplo com equipamento, cujo tempo de atividade é de 80 horas, ao longo do eixo “X” designamos o relógio - quanto menos tempo ele funciona, menor a probabilidade de falha.
** Aqui é necessária uma interpretação diferente dos valores do eixo X - a probabilidade de o dispositivo funcionar em cerca de 80 horas é a mais alta e, consequentemente, diminui com o aumento do tempo de operação (ou seja, é improvável que o dispositivo funcione por mais de 80 horas) e com uma diminuição no tempo de operação (a probabilidade de o dispositivo falhar em menos de 80 horas também é pequena).
O próximo trabalho do autor - “Resolvemos a equação da regressão linear simples”