En lugar de presentar
El artículo describe un estudio realizado para verificar la declaración del teorema del límite central de que la suma de
N variables aleatorias independientes e idénticamente distribuidas seleccionadas de casi cualquier distribución tiene una distribución cercana a la normal. Sin embargo, antes de proceder a la descripción del estudio y una divulgación más detallada del significado del teorema del límite central, no estará fuera de lugar decir por qué se realizó el estudio y para quién puede ser útil el artículo.
En primer lugar, el artículo puede ser útil para que todos los principiantes comprendan los conceptos básicos del aprendizaje automático, especialmente si un lector respetado también está en su primer año de especialización "Aprendizaje automático y análisis de datos". Es este tipo de investigación que debe llevarse a cabo en la última semana del primer curso, la especialización anterior, para recibir el codiciado certificado.
Enfoque de investigación
Entonces, volviendo a la cuestión de la investigación. Lo que nos dice el teorema del límite central. Pero ella dice esto. Si hay un valor aleatorio
X de prácticamente cualquier distribución, y una muestra del volumen
N se genera aleatoriamente a partir de esta distribución, entonces el promedio de la muestra determinado en base a la muestra puede aproximarse mediante una distribución normal con un valor promedio que coincida con la expectativa matemática de la población original.
Para realizar un experimento, tendremos que elegir una distribución a partir de la cual se generará una muestra al azar. En nuestro caso, utilizaremos la distribución exponencial.
Entonces, sabemos que la densidad de probabilidad de la distribución exponencial de una variable aleatoria
X tiene la forma:
donde
,
La expectativa matemática de una variable aleatoria X , de acuerdo con la ley de distribución exponencial se determina, inversamente
:
La varianza de una variable aleatoria X se define como
Nuestro estudio usa el parámetro de distribución exponencial
entonces
,
Para simplificar la percepción de los valores y el experimento en sí, supongamos que estamos hablando del funcionamiento del dispositivo con una expectativa promedio de tiempo de actividad de 80 horas. Luego, cuanto más tiempo funcione el dispositivo, menos probable será que no haya fallas y viceversa: cuando el dispositivo tiende a tiempo cero (horas, minutos, segundos), la probabilidad de falla también tiende a cero.
Ahora desde la distribución exponencial con el parámetro dado
elija 1000 valores pseudoaleatorios. Compare los resultados de la muestra con la densidad de probabilidad teórica.
Además, y esto es lo más importante en nuestro pequeño estudio, formaremos las siguientes muestras. Tomamos 3, 15, 50, 100, 150, 300 y 500 variables aleatorias de la distribución exponencial, determinamos para cada volumen (de 3 a 500) la media aritmética y repetimos 1000 veces. Para cada muestra, construimos un histograma y superponemos en él un gráfico de la densidad de la distribución normal correspondiente. Estimamos los parámetros resultantes de la media muestral, la varianza y la desviación estándar.
Esto podría completar el artículo, pero hay una propuesta para expandir un poco los límites del experimento. Calculemos en qué medida estos parámetros, con un aumento en el tamaño de la muestra de 3 a 500, diferirán de sus contrapartes, los mismos parámetros de las distribuciones normales correspondientes. En otras palabras, estamos invitados a responder la pregunta, pero ¿observaremos una disminución en las desviaciones al aumentar el tamaño de la muestra?
Entonces, en el camino. Nuestras herramientas hoy serán el lenguaje Python y el cuaderno Jupyter.
Estudiamos el enunciado del teorema del límite central
El código fuente del estudio se publica en el
githubAtencion ¡Este archivo requiere un cuaderno Jupyter!Una muestra de un valor pseudoaleatorio generado por nosotros de acuerdo con la ley de distribución exponencial 1000 veces caracteriza bastante bien a la población teórica (inicial) (gráfico 1 *, tabla 1).
Gráfico 1 "El conjunto inicial de distribución exponencial y muestreo"
Tabla 1 "Parámetros de la población inicial y la muestra"
Ahora veamos qué sucede si tomamos no solo un valor pseudoaleatorio 1000 veces, sino el promedio aritmético de 3, 15, 50, 100, 150, 300 o 500 valores pseudoaleatorios y comparamos los parámetros de cada muestra con los parámetros de las distribuciones normales correspondientes (gráfico 2 ** tabla 2).
Gráfico 2.1 “Muestra de 5”
Gráfico 2.2 "Muestra de 50"
Gráfico 2.3 “Muestra de 100”
Gráfico 2.4 "Muestra de 150"
Gráfico 2.5 “Muestra 300”
Gráfico 2.6 “Muestra 500”
Tabla 2 "Opciones de muestra"
De acuerdo con la representación gráfica de los resultados, se observa claramente la siguiente regularidad: al aumentar el tamaño de la muestra, la distribución se aproxima a la normalidad y se produce la concentración de variables pseudoaleatorias alrededor de la media de la muestra, y la media de la muestra se acerca a la expectativa matemática de la distribución inicial.
De acuerdo con los datos presentados en la tabla, se confirma la regularidad revelada en los gráficos: al aumentar el tamaño de la muestra, la varianza y los valores de desviación estándar disminuyen notablemente, lo que indica una concentración más densa de valores pseudoaleatorios alrededor de los promedios de la muestra.
Pero eso no es todo. Recordamos que al principio del artículo, se hizo una propuesta para verificar si, al aumentar el tamaño de la muestra, las desviaciones de los parámetros de la muestra con respecto a los parámetros de la distribución normal correspondiente disminuyen.
Como se puede ver (gráfico 3, tabla 3), no se produce una reducción arbitrariamente notable en las desviaciones: los parámetros de las muestras saltan a más o menos a diferentes distancias y no quieren acercarse de manera estable a los valores calculados. Intentaremos encontrar una explicación para la falta de dinámica positiva en los siguientes estudios.
Gráfico 3 "Desviaciones de los parámetros de muestra de los cálculos teóricos"

Tabla 3 "Desviaciones de los parámetros de las muestras del cálculo teórico"

En lugar de conclusiones
Nuestro estudio, por un lado, una vez más, confirmó las conclusiones del teorema del límite central sobre el enfoque de valores independientes distribuidos aleatoriamente a la distribución normal con el aumento del tamaño de la muestra, por otro lado, fue posible completar con éxito el primer año de especialización mayor.
* Desarrollando la lógica del ejemplo con equipos, cuyo tiempo de actividad es de 80 horas, a lo largo del eje "X" designamos el reloj: cuanto menos tiempo funcione, menor será la probabilidad de falla.
** Aquí se requiere una interpretación diferente de los valores del eje X: la probabilidad de que el dispositivo funcione aproximadamente a las 80 horas es la más alta y, en consecuencia, disminuye a medida que aumenta el tiempo de funcionamiento (es decir, es poco probable que el dispositivo funcione mucho más de 80 horas) , y con una disminución en el tiempo de funcionamiento (la probabilidad de que el dispositivo falle en menos de 80 horas también es pequeña).
El próximo trabajo del autor - "Resolvemos la ecuación de regresión lineal simple"