Nous étudions l'énoncé du théorème central limite en utilisant la distribution exponentielle

Au lieu d'introduire


L'article décrit une étude menée pour vérifier l'énoncé du théorème de la limite centrale selon lequel la somme de N variables aléatoires indépendantes et identiquement distribuées sélectionnées dans presque toutes les distributions a une distribution proche de la normale. Cependant, avant de passer à la description de l'étude et à une divulgation plus détaillée de la signification du théorème de la limite centrale, il ne sera pas inutile de dire pourquoi l'étude a été menée et à qui l'article peut être utile.

Tout d'abord, l'article peut être utile à tous les débutants pour comprendre les bases du machine learning, surtout si un lecteur respecté en est également à sa première année de spécialisation "Machine Learning and Data Analysis". C'est ce type de recherche qui doit être effectué dans la dernière semaine du premier cours, la spécialisation ci-dessus, afin de recevoir le certificat convoité.

Approche de recherche


Revenons donc à la question de la recherche. Ce que le théorème de la limite centrale nous dit. Mais elle le dit. S'il existe une valeur aléatoire X provenant de pratiquement n'importe quelle distribution, et qu'un échantillon du volume N est généré de manière aléatoire à partir de cette distribution, alors la moyenne de l'échantillon déterminée sur la base de l'échantillon peut être approximée par une distribution normale avec une valeur moyenne qui coïncide avec l'attente mathématique de la population d'origine.

Pour mener une expérience, nous devrons choisir une distribution à partir de laquelle un échantillon sera généré de manière aléatoire. Dans notre cas, nous utiliserons la distribution exponentielle.

Ainsi, nous savons que la densité de probabilité de la distribution exponentielle d'une variable aléatoire X a la forme:

f(x)= lambda varepsilon lambdax


x>0,  lambda>0

L'espérance mathématique d'une variable aléatoire X , conformément à la loi de distribution exponentielle, est déterminée, inversement  lambda:  mu= frac1 lambda

La variance d'une variable aléatoire X est définie comme  sigma2= frac1 lambda2

Notre étude utilise le paramètre de distribution exponentielle  lambda=0,0125alors  mu=80,  sigma2=6400

Pour simplifier la perception des valeurs et l'expérience elle-même, supposons que nous parlons du fonctionnement de l'appareil avec une attente moyenne de temps de fonctionnement de 80 heures. Ensuite, plus l'appareil fonctionnera longtemps, moins il y aura de panne et vice versa - lorsque l'appareil a tendance à zéro (heures, minutes, secondes), la probabilité de sa défaillance tend également à zéro.

Maintenant à partir de la distribution exponentielle avec le paramètre donné  lambda=0,0125choisissez 1000 valeurs pseudo-aléatoires. Comparez les résultats de l'échantillon avec la densité de probabilité théorique.

De plus, et c'est la chose la plus importante dans notre petite étude, nous formerons les échantillons suivants. Nous prenons 3, 15, 50, 100, 150, 300 et 500 variables aléatoires de la distribution exponentielle, déterminons pour chaque volume (de 3 à 500) la moyenne arithmétique et répétons 1000 fois. Pour chaque échantillon, nous construisons un histogramme et y superposons un graphique de la densité de la distribution normale correspondante. Nous estimons les paramètres résultants de la moyenne, de la variance et de l'écart type de l'échantillon.

Cela pourrait compléter l'article, mais il est proposé d'élargir quelque peu les limites de l'expérience. Estimons à quel point ces paramètres, avec une augmentation de la taille de l'échantillon de 3 à 500, différeront de leurs homologues - les mêmes paramètres des distributions normales correspondantes. En d'autres termes, nous sommes invités à répondre à la question, mais observerons-nous une diminution des écarts avec l'augmentation de la taille de l'échantillon?

Alors, en route. Nos outils aujourd'hui seront le langage Python et le cahier Jupyter.

Nous étudions l'énoncé du théorème central limite


Le code source de l'étude est affiché sur le github
Attention! Ce fichier nécessite un notebook Jupyter!

Un échantillon d'une valeur pseudo-aléatoire générée par nous conformément à la loi de distribution exponentielle 1000 fois caractérise assez bien la population théorique (initiale) (graphique 1 *, tableau 1).

Graphique 1 «L'ensemble initial de distribution exponentielle et d'échantillonnage»

Tableau 1 «Paramètres de la population initiale et de l'échantillon»

Voyons maintenant ce qui se passe si nous prenons non pas une seule valeur pseudo-aléatoire 1000 fois, mais la moyenne arithmétique de 3, 15, 50, 100, 150, 300 ou 500 valeurs pseudo-aléatoires et comparons les paramètres de chaque échantillon avec les paramètres des distributions normales correspondantes (graphique 2 ** tableau 2).

Graphique 2.1 «Échantillon de 5»


Graphique 2.2 «Échantillon de 50»


Graphique 2.3 «Échantillon de 100»


Graphique 2.4 «Échantillon de 150»


Graphique 2.5 «300 échantillons»


Graphique 2.6 «500 échantillons»


Tableau 2 "Exemples d'options"


Conformément à la représentation graphique des résultats, la régularité suivante est clairement observée: avec l'augmentation de la taille de l'échantillon, la distribution se rapproche de la normale et la concentration de variables pseudo-aléatoires autour de la moyenne de l'échantillon se produit, et la moyenne de l'échantillon se rapproche de l'attente mathématique de la distribution initiale.

Conformément aux données présentées dans le tableau, le modèle révélé dans les graphiques est confirmé - avec l'augmentation de la taille de l'échantillon, les valeurs de variance et d'écart-type diminuent sensiblement, indiquant une concentration plus dense de valeurs pseudo-aléatoires autour des moyennes des échantillons.

Mais ce n'est pas tout. On se souvient qu'au début de l'article, une proposition a été faite pour vérifier si, avec l'augmentation de la taille de l'échantillon, les écarts des paramètres de l'échantillon par rapport aux paramètres de la distribution normale correspondante diminuent.

Comme vous pouvez le voir (graphique 3, tableau 3), aucune réduction arbitraire notable des écarts ne se produit - les paramètres des échantillons sautent à plus ou moins à différentes distances et ne veulent pas s'approcher de manière stable des valeurs calculées. Nous allons essayer de trouver une explication au manque de dynamique positive dans les études suivantes.

Graphique 3 «Écarts des paramètres de l'échantillon par rapport aux calculs théoriques»



Tableau 3 "Écarts des paramètres des échantillons par rapport à la théorie calculée"



Au lieu de conclusions


Notre étude, d'une part, a une fois de plus confirmé les conclusions du théorème de la limite centrale sur l'approche des valeurs indépendantes distribuées aléatoirement à la distribution normale avec une taille d'échantillon croissante, d'autre part, il a été possible de terminer avec succès la première année de spécialisation majeure.

* En développant la logique de l'exemple avec des équipements dont le temps de fonctionnement est de 80 heures, le long de l'axe «X», nous désignons l'horloge - moins elle fonctionne, moins la probabilité de panne.

** Une interprétation différente des valeurs de l'axe X est nécessaire ici - la probabilité que l'appareil fonctionnera à environ 80 heures est la plus élevée et, en conséquence, elle diminue comme avec une augmentation de la durée de fonctionnement (c'est-à-dire, il est peu probable que l'appareil fonctionne beaucoup plus longtemps que 80 heures) , et avec une diminution de la durée de fonctionnement (la probabilité que l'appareil tombe en panne en moins de 80 heures est également faible).


 rightarrowLe prochain travail de l'auteur - «Nous résolvons l'équation de la régression linéaire simple»

Source: https://habr.com/ru/post/fr471198/


All Articles