¿Se pueden leer las estadísticas con una pequeña cantidad de datos?

En general, la respuesta es sí. Especialmente cuando tienes cerebro y conocimiento del teorema de Bayes.

Permítame recordarle que la media y la varianza solo se pueden considerar si tiene un cierto número de eventos. En los antiguos manuales de la URSS, RTM (el material técnico líder) decía que para calcular el promedio y la varianza, se necesitaban 29 mediciones. Ahora las universidades son un poco redondeadas y usan las medidas del número 30. Cuál es la razón de esto es una pregunta filosófica. ¿Por qué no puedo simplemente tomar y calcular el promedio si tengo 5 mediciones? En teoría, nada interfiere, solo el promedio es inestable. Después de otra medición y recuento, puede cambiar mucho y puede confiar en que comience alrededor de 30 mediciones. Pero incluso después de la 31a medición, también se sacudirá, aunque no tan notablemente. Además, se agrega el problema de que el promedio se puede considerar de manera diferente y obtener valores diferentes. Es decir, de una muestra grande, puede seleccionar los primeros 30 y calcular el promedio, luego seleccionar los otros 30 y así sucesivamente ... y obtener muchos promedios, que también se pueden promediar. El promedio real es inalcanzable en la práctica, ya que siempre tenemos un número finito de mediciones. En este caso, el promedio es una cantidad estadística con su promedio y varianza. Es decir, al medir el promedio en la práctica, nos referimos al "promedio estimado", que puede estar cerca del valor teórico ideal.

Tratemos de entender el problema, en la entrada tenemos una serie de hechos y queremos construir una idea sobre la fuente de estos hechos en la salida. Construiremos un modelo mate y utilizaremos la teoría bayesiana para vincular el modelo y los hechos.


Considere el modelo ya desgastado con un cubo, en el que se vertieron y mezclaron muchas bolas blancas y negras. Deje que el negro corresponda al valor 0 y el blanco a 1. Los sacaremos al azar y tomaremos el notorio valor promedio. De hecho, esta es una medición simplificada, ya que se asignan números y, por lo tanto, en este caso, hay un valor de medición promedio, que depende de la relación de las diferentes bolas.

Aquí nos encontramos con un momento interesante. La proporción exacta de las bolas que podemos calcular con una gran cantidad de mediciones. Pero si el número de mediciones es pequeño, entonces los efectos especiales son posibles en forma de una desviación de las estadísticas. Si hay 50 bolas blancas y 50 negras en la canasta, surge la pregunta: ¿es posible sacar 3 bolas blancas seguidas? Y la respuesta es, por supuesto! Y si en 90 blancos y 10 negros, entonces esta probabilidad aumenta. ¿Y qué pensar sobre el contenido de la urna, si es tan afortunado que exactamente 3 bolas blancas se sacaron por accidente al principio? - Tenemos opciones.

Obviamente, obtener 3 bolas blancas seguidas es igual a una cuando tenemos bolas 100% blancas. En otros casos, esta probabilidad es menor. Y si todas las bolas son negras, entonces la probabilidad es cero. Intentemos sistematizar estos argumentos y dar fórmulas. El método bayesiano viene al rescate, que le permite clasificar los supuestos y darles valores numéricos que determinan la probabilidad de que este supuesto corresponda a la realidad. Es decir, pasar de una interpretación probabilística de datos a una interpretación probabilística de causas.

¿Cómo exactamente se puede cuantificar uno u otro supuesto? Esto requerirá un modelo dentro del cual actuaremos. Gracias a Dios que es simple. Podemos escribir muchas suposiciones sobre el contenido de la canasta como un modelo con un parámetro. En este caso, un parámetro es suficiente. Este parámetro esencialmente establece un conjunto continuo de supuestos. Lo principal es que él describe completamente las posibles opciones. Las dos opciones extremas son solo bolas blancas o negras. Los casos restantes están en algún punto intermedio.

Asume que  t h e t a Es la proporción de bolas blancas en la canasta. Si clasificamos toda la canasta y sumamos todos los ceros y unos correspondientes a las bolas y dividimos por el número total, entonces  t h e t a - también significará el valor promedio de nuestras mediciones.  t h e t a e n [ 0 , 1 ]  . (ahora  t h e t a a menudo utilizado en la literatura como un conjunto de parámetros libres que requiere optimización).

Es hora de ir a Bayes. El propio Thomas Bayes hizo que su esposa accidentalmente arrojara una pelota, sentándose de espaldas a ella y escribió cómo sus suposiciones se relacionan con los hechos en los que realmente voló. Con base en los hechos, Thomas Bayes intentó mejorar las predicciones de los siguientes lanzamientos. Pensaremos y pensaremos como Thomas Bayes, y una novia espontánea e impredecible sacará pelotas.

Dejar D Es una matriz de medidas (datos). Usamos la notación estándar, donde el signo El | significa la probabilidad del evento a la izquierda, si ya se sabe que se ha completado otro evento a la derecha. En nuestro caso, esta es la probabilidad de obtener datos si se conoce el parámetro  t h e t a . Y también está el caso opuesto: la probabilidad de tener  t h e t a si se conocen datos

P ( t h e t a | D ) = f r a c P ( D | t h e t a ) c d o t P ( t h e t a ) P ( D )     


La fórmula de Bayes le permite considerar  t h e t a como una variable aleatoria, y encuentre el valor más probable. Es decir, encuentre el coeficiente más probable  t h e t a si es desconocido

 theta=argmaxP( theta|D)



En el lado derecho tenemos 3 miembros que necesitan ser evaluados. Los analizamos

1) Se requiere conocer o calcular la probabilidad de obtener dichos datos para una hipótesis particular P(D| theta) . Puedes obtener tres bolas blancas seguidas, incluso si hay muchas negras. Pero lo más probable es que los consiga con una gran cantidad de blancos. La probabilidad de obtener una bola blanca es igual a Pwhite= theta pero negro Pblack=(1 theta) . Por lo tanto, si cayó N bolas blancas y M bolas negras entonces P(D| theta)= thetaN cdot(1 theta)M . N y M consideraremos los parámetros de entrada de nuestros cálculos, y  theta - parámetro de salida.

2) Necesita saber la probabilidad a priori P( theta) . Aquí nos encontramos con un delicado momento de modelado. No conocemos esta función y haremos suposiciones. Si no hay conocimiento adicional, entonces asumimos que  theta igualmente probable en el rango de 0 a 1. Si tuviéramos información privilegiada, sabríamos más sobre qué valores son más probables y haríamos un pronóstico más preciso. Pero como dicha información no está disponible, ponemos  theta simdemanerauniforme[0,1] . Desde la cantidad P( theta) independiente de  theta entonces al calcular  theta Ella no importará. P( theta)=1

3) P(D) Es la probabilidad de tener dicho conjunto de datos si todos los valores son aleatorios. Podemos obtener este kit con diferentes  theta con diferentes probabilidades Por lo tanto, se tienen en cuenta todas las formas posibles de obtener un conjunto D . Dado que en esta etapa el valor aún se desconoce  theta , entonces es necesario integrar sobre P(D)= int10P(D| theta)P( theta)d theta . Para comprender mejor esto, es necesario resolver los problemas elementales en los que se construye la gráfica bayesiana, y luego pasar de la suma a la integral. El resultado es una expresión wolframalpha , que es buscar el máximo  theta no afectará, ya que este valor no depende de  theta . El resultado se expresa a través de un factorial para valores enteros o, en general, a través de una función gamma.

De hecho, la probabilidad de una hipótesis particular es proporcional a la probabilidad de obtener un conjunto de datos. En otras palabras, en qué escenario es más probable que obtengamos el resultado, esa alineación es la más correcta.

Obtenemos esta fórmula

P(D| theta)=const cdotP( theta|D)



Para buscar el máximo, diferenciamos y equiparamos a cero:
0= thetaN1 cdot(1 theta)M1 cdot(N( theta1)+M theta) .
Para que un trabajo sea igual a cero, uno de los miembros debe ser igual a cero.
No estamos interesados  theta=0 y  theta=1 , ya que no hay un máximo local en estos puntos, y el tercer factor indica un máximo local, por lo tanto

 theta= fracNN+M

.

Obtenemos una fórmula que puede usarse para pronósticos. Si se cayó N los blancos y M negros entonces probabilidad  fracNN+M El próximo será blanco. Por ejemplo, hubo 2 negros y 8 blancos, luego el siguiente blanco tendrá una probabilidad del 80%.

Las partes interesadas pueden jugar con el horario ingresando diferentes exponentes: enlace a wolframalpha .


Como se puede ver en el gráfico, el único caso donde P(D| theta) no tiene un punto máximo, esto es en ausencia de datos N=0,M=0 . Si tenemos al menos un hecho, entonces se alcanza el máximo en el intervalo [0,1] en un solo punto Si N=0 , entonces el máximo se alcanza en el punto 0, es decir, si todas las bolas son negras, lo más probable es que todas las demás bolas también sean negras y viceversa. Pero como ya se mencionó, también son posibles combinaciones improbables, especialmente si la cúpula de nuestra distribución es suave. Para evaluar la falta de ambigüedad de nuestro pronóstico, es necesario estimar la varianza. Ya se puede ver en el gráfico que, con una pequeña cantidad de hechos, la dispersión es grande y la cúpula es suave, y cuando se agregan nuevos hechos, la dispersión disminuye y la cúpula se vuelve más nítida.

Secundario (primer momento) por definición
 mathbbM1= int10 theta cdotP( theta|D)d theta .

Por definición, varianza (segundo momento central). Lo consideraremos más adelante en la sección oculta.
 mathbbM2= int10( theta mathbbM1)2P( theta|D)d theta .

--- sección para mentes inquisitivas ---
Vamos P ( t h e t a | D )  analíticamente completo, si aún no está cansado. Para hacer esto, citamos una vez más todos los términos de la fórmula de Bayes, incluidos los constantes:
P ( t h e t a ) = 1 
P(D)= int10P(D| theta)P( theta)d theta= int10 thetaN cdot(1 theta)Md theta= fracN!M!(N+M+1)! enlace a wolframalpha
P(D| theta)= thetaN cdot(1 theta)M

La fórmula de Bayes para nuestro caso se ve así:

P( theta|D)= thetaN cdot(1 theta)M cdot frac(N+M+1)!N!M!



De ahí el promedio después de la sustitución
 mathbbM1= int10 theta cdotP( theta|D)d theta= int10 theta cdot theta¡N cdot(1 theta)M cdot( fracN!M!(N+M+1)!)D theta= frac(N+1)!M!(N+M+2)! Cdot frac(N+M+1)!N!M! .

Utilizamos conocimiento elemental (N+1)!=(N+1) cdotN! y reduciendo fracciones

 mathbbM1= fracN+1N+M+2



La fórmula del primer momento corresponde al significado del experimento. Con el predominio de las bolas blancas, el momento pasa a 1, mientras que con el predominio del negro tiende a 0. Ni siquiera actúa cuando no hay bolas, y muestra honestamente 1/2.

La dispersión también se expresa mediante la fórmula con la que trabajaremos.
 mathbbM2= mathbbM1( theta2) mathbbM1( theta)2 .
Primer miembro  mathbbM1( theta2) en su mayor parte repite la fórmula para  mathbbM1( theta) utilizado  theta2
 mathbbM1( theta2)= int10 theta2 cdot thetaN cdot(1 theta)M cdot( frac(N+M+1)!N!M!)d theta= frac(N+2)!M!(N+M+3)! cdot( frac(N+M+1)!N!M!)

= frac(N+2)(N+1)(N+M+3)(N+M+2)

, ya se ha calculado un segundo, por lo tanto
 mathbbM2= frac(N+2)(N+1)(N+M+3)(N+M+2) fracN+1N+M+2 cdot fracN+1N+M+2

Al final, obtenemos:
 mathbbM2= frac(M+1) cdot(N+1)(N+M+2)2 cdot(N+M+3)
Como puede ver, la varianza disminuye cuando se agregan datos y es simétrica con respecto al cambio N y M en lugares

Puedes resumir los cálculos. Con una pequeña cantidad de datos, debe tener un modelo cuyos parámetros optimicemos. El modelo describe un conjunto de supuestos sobre el estado real de las cosas, y seleccionamos el supuesto más apropiado. Consideramos probabilidades a posteriori, si a priori ya se conocen. El modelo debe cubrir las posibles opciones que encontraremos en la práctica. Con una pequeña cantidad de datos, el modelo producirá una gran varianza para los parámetros de salida, pero a medida que aumente la cantidad de datos, la varianza disminuirá y el pronóstico será más inequívoco.

Debe comprender que un modelo es solo un modelo que no tiene mucho en cuenta. Es creado por una persona y le brinda oportunidades limitadas. Con una pequeña cantidad de datos, es más probable que la intuición de una persona funcione, ya que una persona recibe muchas más señales del mundo exterior y podrá sacar conclusiones más rápido. Es más probable que este modelo sea adecuado como elemento de cálculos más complejos, ya que Bayes escala y le permite hacer cascadas a partir de fórmulas que se refinan entre sí.

Sobre esto, me gustaría terminar mi publicación. Estaré encantado de tus comentarios.


Referencias

Wikipedia: Teorema de Bayes
Wikipedia: Dispersión

Source: https://habr.com/ru/post/es436668/


All Articles