Les statistiques peuvent-elles être lues avec une petite quantité de données?

En général, la réponse est oui. Surtout quand vous avez le cerveau et la connaissance du théorème de Bayes.

Permettez-moi de vous rappeler que la moyenne et la variance ne peuvent être prises en compte que si vous avez un certain nombre d'événements. Dans les anciens manuels de l'URSS, RTM (le principal matériel technique) indiquait que pour calculer la moyenne et la variance, 29 mesures étaient nécessaires. Maintenant, les universités sont un peu arrondies et utilisent le nombre 30 de mesures. Quelle est la raison de cela est une question philosophique. Pourquoi ne puis-je pas simplement prendre et calculer la moyenne si j'ai 5 mesures? En théorie, rien n'interfère, seule la moyenne est instable. Après une autre mesure et un nouveau comptage, cela peut changer beaucoup et vous pouvez vous y fier à partir d'environ 30 mesures. Mais même après la 31e mesure, il tremblera également, mais pas de manière notable. De plus, le problème est ajouté que la moyenne peut être considérée différemment et obtenir des valeurs différentes. Autrement dit, à partir d'un grand échantillon, vous pouvez sélectionner les 30 premiers et calculer la moyenne, puis sélectionner les 30 autres et ainsi de suite ... et obtenir beaucoup de moyennes, qui peuvent également être moyennées. La vraie moyenne est inaccessible en pratique, car nous avons toujours un nombre fini de mesures. Dans ce cas, la moyenne est une grandeur statistique avec sa moyenne et sa variance. C'est-à-dire qu'en mesurant la moyenne dans la pratique, nous entendons la "moyenne estimée", qui peut être proche de la valeur théorique idéale.

Essayons de comprendre le problème, à l'entrée nous avons un certain nombre de faits et voulons construire une idée sur la source de ces faits à la sortie. Nous allons construire un modèle de tapis et utiliser la théorie bayésienne pour relier le modèle et les faits.


Considérez le modèle déjà usé avec un seau, dans lequel de nombreuses boules noires et blanches ont été versées et mélangées à fond. Laissez le noir correspondre à la valeur 0 et le blanc à 1. Nous les retirerons au hasard et prendrons la valeur moyenne notoire. En fait, il s'agit d'une mesure simplifiée, car des numéros sont attribués et, par conséquent, dans ce cas, il existe une valeur de mesure moyenne, qui dépend du rapport des différentes boules.

Nous rencontrons ici un moment intéressant. Le rapport exact des billes que nous pouvons calculer avec un grand nombre de mesures. Mais si le nombre de mesures est faible, des effets spéciaux sont possibles sous la forme d'un écart par rapport aux statistiques. S'il y a 50 boules blanches et 50 boules noires dans le panier, la question se pose - est-il possible de retirer 3 boules blanches d'affilée? Et la réponse est, bien sûr! Et si dans 90 blancs et 10 noirs, alors cette probabilité augmente. Et que penser du contenu de l'urne, si elle est si chanceuse qu'exactement 3 boules blanches ont été arrachées par accident au tout début? - nous avons des options.

Évidemment, obtenir 3 boules blanches d'affilée est égal à un lorsque nous avons 100% de boules blanches. Dans d'autres cas, cette probabilité est moindre. Et si toutes les boules sont noires, alors la probabilité est nulle. Essayons de systématiser ces arguments et de donner des formules. La méthode bayésienne vient à la rescousse, ce qui vous permet de classer les hypothèses et de leur donner des valeurs numériques qui déterminent la probabilité que cette hypothèse corresponde à la réalité. C'est-à-dire passer d'une interprétation probabiliste des données à une interprétation probabiliste des causes.

Comment exactement l'une ou l'autre hypothèse peut-elle être quantifiée? Cela nécessitera un modèle au sein duquel nous agirons. Dieu merci, elle est simple. Nous pouvons noter de nombreuses hypothèses sur le contenu du panier en tant que modèle avec un paramètre. Dans ce cas, un paramètre suffit. Ce paramètre définit essentiellement un ensemble continu d'hypothèses. L'essentiel est qu'il décrit pleinement les options possibles. Les deux options extrêmes ne sont que des boules blanches ou uniquement noires. Les autres cas se situent quelque part entre les deux.

Supposons que  t h e t a Est la proportion de boules blanches dans le panier. Si nous trions l'ensemble du panier et ajoutons tous les zéros et ceux correspondant aux boules et divisons par le nombre total, alors  t h e t a - signifiera également la valeur moyenne de nos mesures.  t h e t a i n [ 0 , 1 ]  . (maintenant  t h e t a souvent utilisé dans la littérature comme un ensemble de paramètres libres qui nécessite une optimisation).

Il est temps d'aller à Bayes. Thomas Bayes lui-même a fait accidentellement une balle à sa femme, assis dos à elle et a écrit comment ses hypothèses se rapportent aux faits où il a réellement volé. Sur la base des faits, Thomas Bayes a tenté d'améliorer les prédictions des lancers suivants. Nous penserons et penserons comme Thomas Bayes, et une petite amie spontanée et imprévisible sortira des balles.

Soit D Est un tableau de mesures (données). Nous utilisons la notation standard, où le signe | signifie la probabilité de l'événement à gauche, s'il est déjà connu qu'un autre événement à droite s'est terminé. Dans notre cas, il s'agit de la probabilité d'obtenir des données si le paramètre est connu  t h e t a . Et il y a aussi le cas contraire - la probabilité d'avoir  t h e t a si les données sont connues.

P ( t h e t a | D ) = f r a c P ( D | t h e t a ) c d o t P ( t h e t a ) P ( D )     


La formule Bayes vous permet d'envisager  t h e t a comme variable aléatoire, et trouver la valeur la plus probable. Autrement dit, trouver le coefficient le plus probable  t h e t a si elle est inconnue.

 theta=argmaxP( theta|D)



Sur le côté droit, nous avons 3 membres qui doivent être évalués. Nous les analysons.

1) Il est nécessaire de connaître ou de calculer la probabilité d'obtenir de telles données pour une hypothèse particulière P(D| thêta) . Vous pouvez obtenir trois boules blanches d'affilée, même s'il y en a beaucoup de noires. Mais le plus susceptible de les obtenir avec un grand nombre de blancs. La probabilité d'obtenir une balle blanche est égale à Pwhite= theta mais noir Pblack=(1 thêta) . Par conséquent, s'il tombait N boules blanches, et M boules noires puis P(D| theta)= thetaN cdot(1 theta)M . N et M nous considérerons les paramètres d'entrée de nos calculs, et  theta - paramètre de sortie.

2) Vous devez connaître la probabilité a priori P( thêta) . Nous rencontrons ici un moment délicat de modélisation. Nous ne connaissons pas cette fonction et ferons des hypothèses. S'il n'y a pas de connaissances supplémentaires, nous supposons que  theta tout aussi probable dans l'intervalle de 0 à 1. Si nous avions des informations privilégiées, nous en saurions plus sur les valeurs les plus probables et ferions une prévision plus précise. Mais comme ces informations ne sont pas disponibles, nous mettons  theta simuniformément[0,1] . Depuis la quantité P( thêta) indépendant de  theta puis lors du calcul  theta elle n'aura pas d'importance. P( thêta)=1

3) P(D) Est la probabilité d'avoir un tel ensemble de données si toutes les valeurs sont aléatoires. Nous pouvons obtenir ce kit avec différents  theta avec différentes probabilités. Par conséquent, toutes les façons possibles d'obtenir un ensemble sont prises en compte D . Étant donné qu'à ce stade, la valeur est encore inconnue  theta , il faut alors intégrer P(D)= int10P(D| theta)P( theta)d theta . Pour mieux comprendre cela, il faut résoudre les problèmes élémentaires dans lesquels le graphe bayésien est construit, puis passer de la somme à l'intégrale. Le résultat est une expression wolframalpha , qui est de rechercher le maximum  theta n'affectera pas, car cette valeur ne dépend pas de  theta . Le résultat est exprimé par une factorielle pour les valeurs entières ou, en général, par une fonction gamma.

En fait, la probabilité d'une hypothèse particulière est proportionnelle à la probabilité d'obtenir un ensemble de données. En d'autres termes, dans quel scénario nous sommes les plus susceptibles d'obtenir le résultat, cet alignement est le plus correct.

Nous obtenons cette formule

P(D| theta)=const cdotP( theta|D)



Pour rechercher le maximum, nous différencions et égalons à zéro:
0= thetaN1 cdot(1 theta)M1 cdot(N( theta1)+M theta) .
Pour qu'une œuvre soit égale à zéro, l'un des membres doit être égal à zéro.
Nous ne sommes pas intéressés  theta=0 et  theta=1 , car il n'y a pas de maximum local à ces points, et le troisième facteur indique un maximum local, donc

 theta= fracNN+M

.

Nous obtenons une formule qui peut être utilisée pour les prévisions. S'il est tombé N blancs et M noirs puis probabilité  fracNN+M Le prochain sera blanc. Par exemple, il y avait 2 noirs et 8 blancs, alors le blanc suivant sera avec une probabilité de 80%.

Les parties intéressées peuvent jouer avec le calendrier en entrant différents exposants: lien vers wolframalpha .


Comme le montre le graphique, le seul cas où P(D| thêta) n'a pas un maximum de points - c'est en l'absence de données N=0,M=0 . Si nous avons au moins un fait, alors le maximum est atteint sur l'intervalle [0,1] en un seul point. Si N=0 , alors le maximum est atteint au point 0, c'est-à-dire que si toutes les boules sont noires, alors très probablement toutes les autres boules seront également noires et vice versa. Mais comme déjà mentionné, des combinaisons improbables sont également possibles, surtout si le dôme de notre distribution est doux. Afin d'évaluer l'ambiguïté de notre prévision, il est nécessaire d'estimer la variance. On peut déjà voir sur le graphique que, avec un petit nombre de faits, la dispersion est grande et le dôme est doux, et lorsque de nouveaux faits sont ajoutés, la dispersion diminue et le dôme devient plus net.

Secondaire (premier moment) par définition
 mathbbM1= int10 theta cdotP( theta|D)d theta .

Par définition, variance (deuxième moment central). Nous l'examinerons plus tard dans la section cachée.
 mathbbM2= int10( theta mathbbM1)2P( theta|D)d theta .

--- section pour les esprits curieux ---
Obtenons P( thêta|D) analytiquement complet, sinon encore fatigué. Pour ce faire, nous citons encore une fois tous les termes de la formule de Bayes, y compris les constants:
P( thêta)=1
P(D)= int10P(D| theta)P( theta)d theta= int10 thetaN cdot(1 theta)Md theta= fracN!M!(N+M+1)! lien vers wolframalpha
P(D| theta)= thetaN cdot(1 theta)M

La formule de Bayes pour notre cas ressemble à ceci:

P( theta|D)= thetaN cdot(1 theta)M cdot frac(N+M+1)!N!M!



D'où la moyenne après substitution
 mathbbM1= int10 theta cdotP( theta|D)d theta= int10 theta cdot thetaN cdot(1 theta)M cdot( fracN!M!(N+M+1)!)D theta= frac(N+1)!M!(N+M+2)! Cdot frac(N+M+1)!N!M! .

Nous utilisons des connaissances élémentaires (N+1)!=(N+1) cdotN! et réduire les fractions

 mathbbM1= fracN+1N+M+2



La formule du premier moment correspond au sens de l'expérience. Avec la prédominance des boules blanches, le moment passe à 1, tandis qu'avec la prédominance des noirs il tend à 0. Il n'agit même pas lorsqu'il n'y a pas de boules, et montre honnêtement 1/2.

La dispersion s'exprime également par la formule avec laquelle nous travaillerons.
 mathbbM2= mathbbM1( theta2) mathbbM1( theta)2 .
Premier membre  mathbbM1( theta2) répète pour la plupart la formule  mathbbM1( theta) utilisé -  theta2
 mathbbM1( theta2)= int10 theta2 cdot thetaN cdot(1 theta)M cdot( frac(N+M+1)!N!M!)d theta= frac(N+2)!M!(N+M+3)! cdot( frac(N+M+1)!N!M!)

= frac(N+2)(N+1)(N+M+3)(N+M+2)

, une seconde a déjà été calculée, donc
 mathbbM2= frac(N+2)(N+1)(N+M+3)(N+M+2) fracN+1N+M+2 cdot fracN+1N+M+2

Au final, on obtient:
 mathbbM2= frac(M+1) cdot(N+1)(N+M+2)2 cdot(N+M+3)
Comme vous pouvez le voir, la variance diminue lorsque des données sont ajoutées et elle est symétrique par rapport au décalage N et M par endroits.

Vous pouvez résumer les calculs. Avec une petite quantité de données, vous devez disposer d'un modèle dont nous optimiserons les paramètres. Le modèle décrit un ensemble d'hypothèses sur la situation réelle et nous sélectionnons l'hypothèse la plus appropriée. Nous considérons les probabilités a posteriori, si a priori sont déjà connues. Le modèle devrait couvrir les options possibles que nous rencontrerons dans la pratique. Avec une petite quantité de données, le modèle produira une grande variance pour les paramètres de sortie, mais à mesure que la quantité de données augmentera, la variance diminuera et les prévisions seront plus claires.

Vous devez comprendre qu'un modèle est juste un modèle qui ne prend pas beaucoup en compte. Il est créé par une personne et y met des opportunités limitées. Avec une petite quantité de données, l'intuition d'une personne est plus susceptible de fonctionner, car une personne reçoit beaucoup plus de signaux du monde extérieur et peut tirer des conclusions plus rapidement. Un tel modèle est plus susceptible de convenir comme élément de calculs plus complexes, car Bayes évolue et vous permet de faire des cascades à partir de formules qui s'affinent.

Sur ce point, je voudrais terminer mon message. Je serai heureux de vos commentaires.


Les références

Wikipédia: Théorème de Bayes
Wikipédia: Dispersion

Source: https://habr.com/ru/post/fr436668/


All Articles