Können Statistiken mit einer kleinen Datenmenge gelesen werden?

Im Allgemeinen lautet die Antwort ja. Besonders wenn Sie Verstand und Kenntnisse des Bayes-Theorems haben.

Ich möchte Sie daran erinnern, dass der Mittelwert und die Varianz nur berücksichtigt werden können, wenn Sie eine bestimmte Anzahl von Ereignissen haben. In den alten Handbüchern der UdSSR sagte RTM (das führende technische Material), dass zur Berechnung des Durchschnitts und der Varianz 29 Messungen erforderlich waren. Jetzt sind die Universitäten etwas gerundet und verwenden die Messungen der Nummer 30. Was der Grund dafür ist, ist eine philosophische Frage. Warum kann ich nicht einfach den Durchschnitt berechnen, wenn ich 5 Messungen habe? Theoretisch stört nichts, nur der Durchschnitt ist instabil. Nach einer weiteren Messung und Nachzählung kann sich viel ändern, und Sie können sich darauf verlassen, dass etwa 30 Messungen beginnen. Aber auch nach der 31. Messung wird es zittern, nur nicht so merklich. Außerdem wird das Problem hinzugefügt, dass der Durchschnitt unterschiedlich betrachtet werden kann und unterschiedliche Werte erhält. Das heißt, aus einer großen Stichprobe können Sie die ersten 30 auswählen und den Durchschnitt berechnen, dann die anderen 30 auswählen usw. ... und viele Durchschnittswerte erhalten, die auch gemittelt werden können. Der wahre Durchschnitt ist in der Praxis nicht erreichbar, da wir immer eine begrenzte Anzahl von Messungen haben. In diesem Fall ist der Durchschnitt eine statistische Größe mit ihrem Durchschnitt und ihrer Varianz. Das heißt, mit der Messung des Durchschnitts in der Praxis meinen wir den "geschätzten Durchschnitt", der nahe am idealen theoretischen Wert liegen kann.

Versuchen wir, das Problem zu verstehen. Am Eingang haben wir eine Reihe von Fakten und möchten am Ausgang eine Vorstellung von der Quelle dieser Fakten gewinnen. Wir werden ein Mattenmodell erstellen und die Bayes'sche Theorie verwenden, um das Modell und die Fakten zu verknüpfen.


Betrachten Sie das bereits abgenutzte Modell mit einem Eimer, in den viele schwarz-weiße Kugeln gegossen und gründlich gemischt wurden. Lassen Sie Schwarz dem Wert 0 und Weiß 1 entsprechen. Wir ziehen sie zufällig heraus und nehmen den berüchtigten Durchschnittswert. Tatsächlich handelt es sich um eine vereinfachte Messung, da Zahlen zugewiesen werden und daher in diesem Fall ein durchschnittlicher Messwert vorliegt, der vom Verhältnis der verschiedenen Kugeln abhängt.

Hier stoßen wir auf einen interessanten Moment. Das genaue Verhältnis der Kugeln können wir mit einer Vielzahl von Messungen berechnen. Ist die Anzahl der Messungen jedoch gering, sind Spezialeffekte in Form einer Abweichung von der Statistik möglich. Wenn sich 50 weiße und 50 schwarze Kugeln im Korb befinden, stellt sich die Frage: Ist es möglich, 3 weiße Kugeln hintereinander herauszuziehen? Und die Antwort ist natürlich! Und wenn in 90 Weiß und 10 Schwarz, dann erhöht sich diese Wahrscheinlichkeit. Und was ist mit dem Inhalt der Urne zu denken, wenn es so glücklich ist, dass am Anfang genau 3 weiße Kugeln versehentlich herausgezogen wurden? - Wir haben Optionen.

Wenn wir 100% weiße Kugeln haben, entspricht es natürlich einer, 3 weiße Kugeln hintereinander zu bekommen. In anderen Fällen ist diese Wahrscheinlichkeit geringer. Und wenn alle Kugeln schwarz sind, ist die Wahrscheinlichkeit Null. Versuchen wir, diese Argumente zu systematisieren und Formeln anzugeben. Die Bayes'sche Methode hilft dabei, Annahmen zu ordnen und ihnen numerische Werte zu geben, die die Wahrscheinlichkeit bestimmen, dass diese Annahme der Realität entspricht. Das heißt, von einer probabilistischen Interpretation von Daten zu einer probabilistischen Interpretation von Ursachen überzugehen.

Wie genau kann die eine oder andere Annahme quantifiziert werden? Dies erfordert ein Modell, innerhalb dessen wir handeln werden. Gott sei Dank ist sie einfach. Wir können viele Annahmen über den Inhalt des Warenkorbs als Modell mit einem Parameter aufschreiben. In diesem Fall reicht ein Parameter aus. Dieser Parameter legt im Wesentlichen einen kontinuierlichen Satz von Annahmen fest. Die Hauptsache ist, dass er die möglichen Optionen vollständig beschreibt. Die beiden extremen Optionen sind nur weiße oder nur schwarze Kugeln. Die restlichen Fälle liegen irgendwo dazwischen.

Nehmen Sie das an  t h e t a Ist der Anteil der weißen Kugeln im Korb. Wenn wir den gesamten Korb sortieren und alle den Kugeln entsprechenden Nullen und Einsen addieren und durch die Gesamtzahl dividieren, dann  t h e t a - bedeutet auch den Durchschnittswert unserer Messungen.  t h e t a i n [ 0 , 1 ]  . (jetzt  t h e t a in der Literatur häufig als Satz freier Parameter verwendet, die optimiert werden müssen).

Es ist Zeit, nach Bayes zu fahren. Thomas Bayes selbst ließ seine Frau versehentlich einen Ball werfen, setzte sich mit dem Rücken zu ihr und schrieb auf, wie sich seine Annahmen auf die Tatsachen beziehen, wo er tatsächlich flog. Basierend auf den Fakten versuchte Thomas Bayes, die Vorhersagen der folgenden Würfe zu verbessern. Wir werden wie Thomas Bayes denken und denken, und eine spontane und unberechenbare Freundin wird Bälle herausnehmen.

Lass D. Ist eine Reihe von Messungen (Daten). Wir verwenden die Standardnotation, wo das Zeichen | bedeutet die Wahrscheinlichkeit des Ereignisses auf der linken Seite, wenn bereits bekannt ist, dass ein anderes Ereignis auf der rechten Seite abgeschlossen wurde. In unserem Fall ist dies die Wahrscheinlichkeit, Daten zu erhalten, wenn der Parameter bekannt ist  t h e t a . Und es gibt auch den umgekehrten Fall - die Wahrscheinlichkeit zu haben  t h e t a wenn Daten bekannt sind.

P ( t h e t a | D ) = f r a c P ( D | t h e t a ) c d o t P ( t h e t a ) P ( D )     


Mit der Bayes-Formel können Sie berücksichtigen  t h e t a als Zufallsvariable und finden Sie den wahrscheinlichsten Wert. Finden Sie also den wahrscheinlichsten Koeffizienten  t h e t a wenn es unbekannt ist.

 theta=argmaxP( theta|D)



Auf der rechten Seite haben wir 3 Mitglieder, die bewertet werden müssen. Wir analysieren sie.

1) Es ist erforderlich, die Wahrscheinlichkeit zu kennen oder zu berechnen, solche Daten für eine bestimmte Hypothese zu erhalten P(D| theta) . Sie können drei weiße Kugeln hintereinander bekommen, auch wenn es viele schwarze gibt. Aber am wahrscheinlichsten bekommen sie mit einer großen Anzahl von Weißen. Die Wahrscheinlichkeit, einen weißen Ball zu bekommen, ist gleich Pwhite= theta aber schwarz Pblack=(1 theta) . Deshalb, wenn es fiel N weiße Kugeln und M dann schwarze Kugeln P(D| theta)= thetaN cdot(1 theta)M . N und M Wir werden die Eingabeparameter unserer Berechnungen berücksichtigen und  theta - Ausgabeparameter.

2) Sie müssen die a priori Wahrscheinlichkeit kennen P( theta) . Hier stoßen wir auf einen heiklen Moment der Modellierung. Wir kennen diese Funktion nicht und werden Annahmen treffen. Wenn es kein zusätzliches Wissen gibt, nehmen wir das an  theta Ebenso wahrscheinlich im Bereich von 0 bis 1. Wenn wir Insiderinformationen hätten, würden wir mehr darüber wissen, welche Werte wahrscheinlicher sind, und würden eine genauere Prognose abgeben. Da solche Informationen jedoch nicht verfügbar sind, setzen wir  theta simgleichmäßig[0,1] . Da die Menge P( theta) unabhängig von  theta dann bei der Berechnung  theta sie wird keine Rolle spielen. P( theta)=1

3) P(D) Ist die Wahrscheinlichkeit eines solchen Datensatzes, wenn alle Werte zufällig sind. Wir können dieses Kit mit verschiedenen bekommen  theta mit unterschiedlichen Wahrscheinlichkeiten. Daher werden alle möglichen Wege zum Erhalt eines Satzes berücksichtigt D . Da zu diesem Zeitpunkt der Wert noch unbekannt ist  theta , dann ist es notwendig, über zu integrieren P(D)= int10P(D| Theta)P( Theta)d Theta . Um dies besser zu verstehen, müssen die elementaren Probleme, in denen der Bayes'sche Graph konstruiert ist, gelöst und dann von der Summe zum Integral übergegangen werden. Das Ergebnis ist ein Ausdruck wolframalpha , der nach dem Maximum suchen soll  theta wird nicht beeinflusst, da dieser Wert nicht davon abhängt  theta . Das Ergebnis wird durch eine Fakultät für ganzzahlige Werte oder im Allgemeinen durch eine Gammafunktion ausgedrückt.

Tatsächlich ist die Wahrscheinlichkeit einer bestimmten Hypothese proportional zur Wahrscheinlichkeit, einen Datensatz zu erhalten. Mit anderen Worten, in welchem ​​Szenario wir am wahrscheinlichsten das Ergebnis erhalten, ist diese Ausrichtung am korrektesten.

Wir bekommen diese Formel

P(D| theta)=const cdotP( theta|D)



Um nach dem Maximum zu suchen, differenzieren wir und setzen es gleich Null:
0= thetaN1 cdot(1 theta)M1 cdot(N( theta1)+M theta) .
Damit eine Arbeit gleich Null ist, muss eines der Mitglieder gleich Null sein.
Wir sind nicht interessiert  theta=0 und  theta=1 , da es an diesen Punkten kein lokales Maximum gibt und der dritte Faktor daher ein lokales Maximum angibt

 theta= fracNN+M

.

Wir erhalten eine Formel, die für Prognosen verwendet werden kann. Wenn es herausfiel N Weiße und M Schwarze dann Wahrscheinlichkeit  fracNN+M Der nächste wird weiß sein. Zum Beispiel gab es 2 Schwarz und 8 Weiß, dann wird das nächste Weiß mit einer Wahrscheinlichkeit von 80% sein.

Interessenten können mit dem Zeitplan herumspielen, indem sie verschiedene Exponenten eingeben : Link zu Wolframalpha .


Wie aus der Grafik ersichtlich ist, ist der einzige Fall wo P(D| theta) hat kein Punktmaximum - dies ist in Ermangelung von Daten N=0,M=0 . Wenn wir mindestens eine Tatsache haben, wird das Maximum im Intervall erreicht [0,1] an einem einzigen Punkt. Wenn N=0 , dann ist das Maximum am Punkt 0 erreicht, dh wenn alle Kugeln schwarz sind, sind höchstwahrscheinlich auch alle anderen Kugeln schwarz und umgekehrt. Wie bereits erwähnt, sind aber auch unwahrscheinliche Kombinationen möglich, insbesondere wenn die Kuppel unserer Verteilung sanft ist. Um die Eindeutigkeit unserer Prognose beurteilen zu können, muss die Varianz geschätzt werden. Aus dem Diagramm ist bereits ersichtlich, dass bei einer kleinen Anzahl von Fakten die Dispersion groß und die Kuppel sanft ist. Wenn neue Fakten hinzugefügt werden, nimmt die Dispersion ab und die Kuppel wird schärfer.

Sekundär (erster Moment) per Definition
 mathbbM1= int10 theta cdotP( theta|D)d theta .

Per Definition Varianz (zweites zentrales Moment). Wir werden es später im versteckten Abschnitt betrachten.
 mathbbM2= int10( theta mathbbM1)2P( theta|D)d theta .

--- Abschnitt für fragende Köpfe ---
Lass uns gehen P ( t h e t a | D )  analytisch vollständig, wenn noch nicht müde. Dazu zitieren wir noch einmal alle Begriffe aus der Bayes-Formel, einschließlich der konstanten:
P ( t h e t a ) = 1 
P(D)= int10P(D| theta)P( theta)d theta= int10 thetaN cdot(1 theta)Md theta= fracN!M!(N+M+1)! Link zu Wolframalpha
P(D| theta)= thetaN cdot(1 theta)M

Die Bayes-Formel für unseren Fall sieht folgendermaßen aus:

P( theta|D)= thetaN cdot(1 theta)M cdot frac(N+M+1)!N!M!



Daher der Durchschnitt nach Substitution
 mathbbM1= int10 theta cdotP( theta|D)d theta= int10 theta cdot thetaN cdot(1 theta)M cdot( fracN!M!(N+M+1)!)D theta= frac(N+1)!M!(N+M+2)! Cdot frac(N+M+1)!N!M! .

Wir nutzen elementares Wissen (N+1)!=(N+1) cdotN! und Reduzieren von Fraktionen

 mathbbM1= fracN+1N+M+2



Die Formel des ersten Augenblicks entspricht der Bedeutung des Experiments. Bei der Vorherrschaft der weißen Bälle geht der Moment auf 1, während er bei der Vorherrschaft der schwarzen Kugeln auf 0 tendiert. Er wirkt nicht einmal, wenn keine Bälle vorhanden sind, und zeigt ziemlich ehrlich 1/2.

Die Dispersion wird auch durch die Formel ausgedrückt, mit der wir arbeiten werden.
 mathbbM2= mathbbM1( theta2) mathbbM1( theta)2 .
Erstes Mitglied  mathbbM1( theta2) Zum größten Teil wiederholt sich die Formel für  mathbbM1( theta) gebraucht -  theta2
 mathbbM1( theta2)= int10 theta2 cdot thetaN cdot(1 theta)M cdot( frac(N+M+1)!N!M!)d theta= frac(N+2)!M!(N+M+3)! cdot( frac(N+M+1)!N!M!)

= frac(N+2)(N+1)(N+M+3)(N+M+2)

Daher wurde bereits eine Sekunde berechnet
 mathbbM2= frac(N+2)(N+1)(N+M+3)(N+M+2) fracN+1N.+M+2 cdot fracN+1N+M+2

Am Ende bekommen wir:
 mathbbM2= frac(M+1) cdot(N+1)(N+M+2)2 cdot(N+M+3)
Wie Sie sehen können, nimmt die Varianz beim Hinzufügen von Daten ab und ist in Bezug auf die Verschiebung symmetrisch N und M an Orten.

Sie können die Berechnungen zusammenfassen. Mit einer kleinen Datenmenge benötigen Sie ein Modell, dessen Parameter wir optimieren. Das Modell beschreibt eine Reihe von Annahmen über den tatsächlichen Stand der Dinge, und wir wählen die am besten geeignete Annahme aus. Wir betrachten a posteriori Wahrscheinlichkeiten, wenn a priori bereits bekannt sind. Das Modell sollte die möglichen Optionen abdecken, die wir in der Praxis treffen werden. Mit einer kleinen Datenmenge erzeugt das Modell eine große Varianz für die Ausgabeparameter. Mit zunehmender Datenmenge nimmt die Varianz jedoch ab und die Prognose wird eindeutiger.

Sie müssen verstehen, dass ein Modell nur ein Modell ist, das nicht viel berücksichtigt. Es wird von einer Person erstellt und bietet nur begrenzte Möglichkeiten. Mit einer kleinen Datenmenge funktioniert die Intuition einer Person eher, da eine Person viel mehr Signale von der Außenwelt empfängt und schneller Schlussfolgerungen ziehen kann. Ein solches Modell eignet sich eher als Element komplexerer Berechnungen, da Bayes skaliert und es Ihnen ermöglicht, Kaskaden aus Formeln zu erstellen, die sich gegenseitig verfeinern.

Hierzu möchte ich meinen Beitrag beenden. Ich freue mich über Ihre Kommentare.


Referenzen

Wikipedia: Bayes-Theorem
Wikipedia: Dispersion

Source: https://habr.com/ru/post/de436668/


All Articles