As estatísticas podem ser lidas com uma pequena quantidade de dados?

Em geral, a resposta é sim. Especialmente quando você tem cérebro e conhecimento do teorema de Bayes.

Deixe-me lembrá-lo de que a média e a variação só podem ser consideradas se você tiver um determinado número de eventos. Nos manuais antigos da URSS, a RTM (o principal material técnico) dizia que, para calcular a média e a variância, eram necessárias 29 medições. Agora as universidades são um pouco arredondadas e usam o número 30 medições. Qual o motivo disso é uma questão filosófica. Por que não consigo tirar e calcular a média se tenho cinco medições? Em teoria, nada interfere, apenas a média é instável. Após outra medição e recontagem, ele pode mudar bastante e você pode confiar nele, começando em torno de 30 medições. Mas mesmo após a 31ª medição, ele também tremerá, mas não de maneira tão perceptível. Além disso, acrescenta-se o problema de que a média pode ser considerada de maneira diferente e obter valores diferentes. Ou seja, em uma amostra grande, você pode selecionar os 30 primeiros e calcular a média, selecionar os outros 30 e assim por diante ... e obter muitas médias, que também podem ser calculadas. A média real é inatingível na prática, pois sempre temos um número finito de medições. Nesse caso, a média é uma quantidade estatística com sua média e variância. Ou seja, medindo a média na prática, queremos dizer a "média estimada", que pode estar próxima do valor teórico ideal.

Vamos tentar entender o problema. Na entrada, temos vários fatos e queremos criar uma idéia sobre a origem desses fatos na saída. Construiremos um modelo de tapete e usaremos a teoria bayesiana para vincular o modelo e os fatos.


Considere o modelo já desgastado com um balde, no qual muitas bolas em preto e branco foram derramadas e misturadas completamente. Deixe preto corresponder ao valor 0 e branco a 1. Vamos retirá-los aleatoriamente e pegar o notório valor médio. De fato, essa é uma medida simplificada, pois os números são atribuídos e, portanto, neste caso, existe um valor médio de medição, que depende da proporção de esferas diferentes.

Aqui nos deparamos com um momento interessante. A proporção exata das bolas que podemos calcular com um grande número de medições. Mas se o número de medições for pequeno, efeitos especiais serão possíveis na forma de um desvio das estatísticas. Se houver 50 bolas brancas e 50 pretas na cesta, surge a pergunta - é possível retirar três bolas brancas seguidas? E a resposta é, claro! E se em 90 branco e 10 preto, essa probabilidade aumenta. E o que pensar sobre o conteúdo da urna, se tiver tanta sorte que exatamente 3 bolas brancas foram arrancadas por acidente no início? - nós temos opções.

Obviamente, obter 3 bolas brancas seguidas é igual a uma quando temos 100% de bolas brancas. Em outros casos, essa probabilidade é menor. E se todas as bolas são pretas, a probabilidade é zero. Vamos tentar sistematizar esses argumentos e fornecer fórmulas. O método bayesiano trata do resgate, que permite classificar suposições e fornecer valores numéricos que determinam a probabilidade de que essa suposição corresponda à realidade. Ou seja, passar de uma interpretação probabilística de dados para uma interpretação probabilística de causas.

Como exatamente uma ou outra suposição pode ser quantificada? Isso exigirá um modelo no qual agiremos. Graças a Deus ela é simples. Podemos escrever muitas suposições sobre o conteúdo da cesta como um modelo com um parâmetro. Nesse caso, um parâmetro é suficiente. Este parâmetro essencialmente define um conjunto contínuo de suposições. O principal é que ele descreve completamente as opções possíveis. As duas opções extremas são apenas bolas brancas ou apenas pretas. Os casos restantes estão em algum lugar no meio.

Suponha que  theta É a proporção de bolas brancas na cesta. Se classificarmos a cesta inteira e adicionarmos todos os zeros e os correspondentes às bolas e dividirmos pelo número total,  theta - também significará o valor médio de nossas medições.  theta in[0,1] . (agora  theta frequentemente usado na literatura como um conjunto de parâmetros livres que requer otimização).

Está na hora de ir para Bayes. O próprio Thomas Bayes fez sua esposa jogar acidentalmente uma bola, sentando-a de costas para ela e anotando como suas suposições se relacionam com os fatos para os quais ele realmente voou. Com base nos fatos, Thomas Bayes tentou melhorar as previsões dos seguintes arremessos. Pensaremos e pensaremos como Thomas Bayes, e uma namorada espontânea e imprevisível vai dar o fora.

Vamos D É uma matriz de medições (dados). Usamos a notação padrão, onde o sinal | significa a probabilidade do evento à esquerda, se já se sabe que outro evento à direita foi concluído. No nosso caso, essa é a probabilidade de obter dados se o parâmetro for conhecido  theta . E há também o caso oposto - a probabilidade de ter  theta se os dados são conhecidos.

P( theta|D)= fracP(D| theta) cdotP( theta)P(D)


A fórmula de Bayes permite que você considere  theta como uma variável aleatória e encontre o valor mais provável. Ou seja, encontre o coeficiente mais provável  theta se é desconhecido.

 theta=argmaxP( theta|D)



No lado direito, temos 3 membros que precisam ser avaliados. Nós os analisamos.

1) É necessário conhecer ou calcular a probabilidade de obter esses dados para uma hipótese específica P(D| theta) . Você pode obter três bolas brancas seguidas, mesmo se houver muitas pretas. Mas é mais provável que os receba com um grande número de brancos. A probabilidade de obter uma bola branca é igual a Pbranco= theta mas preto Pblack=(1 teta) . Portanto, se caiu N bolas brancas e M bolas pretas então P(D| theta)= thetaN cdot(1 theta)M . N e M consideraremos os parâmetros de entrada de nossos cálculos e  theta - parâmetro de saída.

2) Você precisa conhecer a probabilidade a priori P( theta) . Aqui nos deparamos com um momento delicado de modelagem. Não conhecemos essa função e faremos suposições. Se não houver conhecimento adicional, assumimos que  theta igualmente provável no intervalo de 0 a 1. Se tivéssemos informações privilegiadas, saberíamos mais sobre quais valores são mais prováveis ​​e faríamos uma previsão mais precisa. Mas como essas informações não estão disponíveis, colocamos  theta simuniformemente[0,1] . Desde que a quantidade P( theta) independente de  theta então ao calcular  theta ela não vai importar. P( theta)=1

3) P(D) É a probabilidade de ter esse conjunto de dados se todos os valores forem aleatórios. Podemos obter este kit com diferentes  theta com probabilidades diferentes. Portanto, todas as formas possíveis de obter um conjunto são levadas em consideração D . Como nesta fase o valor ainda é desconhecido  theta , então é necessário integrar sobre P(D)= int10P(D| theta)P( theta)d theta . Para entender melhor isso, é necessário resolver os problemas elementares nos quais o gráfico bayesiano é construído e depois passar da soma para a integral. O resultado é uma expressão wolframalpha , que é procurar o máximo  theta não afetará, pois esse valor não depende de  theta . O resultado é expresso através de um fatorial para valores inteiros ou, em geral, através de uma função gama.

De fato, a probabilidade de uma hipótese específica é proporcional à probabilidade de obter um conjunto de dados. Em outras palavras, em qual cenário é mais provável obter o resultado, esse alinhamento é o mais correto.

Temos essa fórmula

P(D| theta)=const cdotP( theta|D)



Para procurar o máximo, diferenciamos e igualamos a zero:
0= thetaN1 cdot(1 theta)M1 cdot(N( theta1)+M theta) .
Para que um trabalho seja igual a zero, um dos membros deve ser igual a zero.
Nós não estamos interessados  theta=0 e  theta=1 , como não há um máximo local nesses pontos e o terceiro fator indica um máximo local, portanto

 theta= fracNN+M

.

Temos uma fórmula que pode ser usada para previsões. Se caísse N brancos e M negros então probabilidade  fracNN+M O próximo será branco. Por exemplo, havia 2 pretos e 8 brancos, então o próximo branco terá uma probabilidade de 80%.

As partes interessadas podem brincar com a programação inserindo diferentes expoentes: link para wolframalpha .


Como pode ser visto no gráfico, o único caso em que P(D| theta) não tem um ponto máximo - isso é na ausência de dados N=0,M=0 . Se tivermos pelo menos um fato, o máximo será atingido no intervalo [0,1] em um único ponto. Se N=0 , o máximo é atingido no ponto 0, ou seja, se todas as bolas forem pretas, provavelmente todas as outras bolas também serão pretas e vice-versa. Mas, como já mencionado, combinações improváveis ​​também são possíveis, especialmente se a cúpula de nossa distribuição for suave. Para avaliar a ambiguidade de nossa previsão, é necessário estimar a variação. Já é possível observar no gráfico que, com um pequeno número de fatos, a dispersão é grande e a cúpula é suave, e quando novos fatos são adicionados, a dispersão diminui e a cúpula se torna mais nítida.

Secundário (primeiro momento) por definição
 mathbbM1= int10 theta cdotP( theta|D)d theta .

Por definição, variância (segundo momento central). Vamos considerá-lo mais adiante na seção oculta.
 mathbbM2= int10( theta mathbbM1)2P( theta|D)d theta .

--- seção para mentes indagadoras ---
Vamos pegar P ( t h e t a | D )  analiticamente completo, se ainda não estiver cansado. Para isso, citamos novamente todos os termos da fórmula de Bayes, incluindo os constantes:
P ( t h e t a ) = 1 
P(D)= int10P(D| theta)P( theta)d theta= int10 thetaN cdot(1 theta)Md theta= fracN!M!(N+M+1)! link para wolframalpha
P(D| theta)= thetaN cdot(1 theta)M

A fórmula de Bayes para o nosso caso é assim:

P( theta|D)= thetaN cdot(1 theta)M cdot frac(N+M+1)!N!M!



Daí a média após a substituição
 mathbbM1= int10 theta cdotP( theta|D)d theta= int10 theta cdot thetaN cdot(1 teta)M cdot( fracN!M!(N+M+1)!)D theta= frac(N+1)!M!(N+M+2)! Cdot frac(N+M+1)!N!M! .

Usamos conhecimento elementar (N+1)!=(N+1) cdotN! e reduzir frações

 mathbbM1= fracN+1N+M+2



A fórmula do primeiro momento corresponde ao significado do experimento. Com a predominância de bolas brancas, o momento passa para 1, enquanto com a predominância de preto tende a 0. Ele nem age quando não há bolas, e mostra honestamente 1/2.

A dispersão também é expressa pela fórmula com a qual trabalharemos.
 mathbbM2= mathbbM1( theta2) mathbbM1( theta)2 .
Primeiro membro  mathbbM1( theta2) na maior parte repete a fórmula para  mathbbM1( theta) usado -  theta2
 mathbbM1( theta2)= int10 theta2 cdot thetaN cdot(1 theta)M cdot( frac(N+M+1)!N!M!)d theta= frac(N+2)!M!(N+M+3)! cdot( frac(N+M+1)!N!M!)

= frac(N+2)(N+1)(N+M+3)(N+M+2)

, um segundo já foi calculado, portanto,
 mathbbM2= frac(N+2)(N+1)(N+M+3)(N+M+2) fracN+1N+M+2 cdot fracN+1N+M+2

No final, obtemos:
 mathbbM2= frac(M+1) cdot(N+1)(N+M+2)2 cdot(N+M+3)
Como você pode ver, a variação diminui quando os dados são adicionados e é simétrico em relação à mudança N e M em lugares.

Você pode resumir os cálculos. Com uma pequena quantidade de dados, você precisa ter um modelo cujos parâmetros otimizaremos. O modelo descreve um conjunto de suposições sobre o estado real das coisas e selecionamos a suposição mais apropriada. Consideramos probabilidades a posteriori, se a priori já são conhecidas. O modelo deve abranger as opções possíveis que encontraremos na prática. Com uma pequena quantidade de dados, o modelo produzirá grande variação para os parâmetros de saída, mas, à medida que a quantidade de dados aumentar, a variação diminuirá e a previsão será mais inequívoca.

Você precisa entender que um modelo é apenas um modelo que não leva muito em consideração. É criado por uma pessoa e coloca oportunidades limitadas nele. Com uma pequena quantidade de dados, é mais provável que a intuição de uma pessoa funcione, pois ela recebe muito mais sinais do mundo exterior e poderá tirar conclusões mais rapidamente. É mais provável que esse modelo seja adequado como elemento de cálculos mais complexos, já que Bayes é dimensionado e permite fazer cascatas a partir de fórmulas que se refinam.

Sobre isso, gostaria de terminar minha postagem. Ficarei feliz em seus comentários.


Referências

Wikipedia: Teorema de Bayes
Wikipedia: Dispersão

Source: https://habr.com/ru/post/pt436668/


All Articles