👕 🐨 🕗 Wir untersuchen die Aussage des zentralen Grenzwertsatzes anhand der Exponentialverteilung 📦 🚟 🚁

Anstatt vorzustellen

Der Artikel beschreibt eine Studie, die durchgeführt wurde, um die Aussage des zentralen Grenzwertsatzes zu verifizieren, dass die Summe von N unabhängigen und identisch verteilten Zufallsvariablen, die aus fast jeder Verteilung ausgewählt wurden, eine nahezu normale Verteilung aufweist. Bevor wir jedoch mit der Beschreibung der Studie und einer detaillierteren Offenlegung der Bedeutung des zentralen Grenzwertsatzes fortfahren, ist es nicht unangebracht zu sagen, warum die Studie überhaupt durchgeführt wurde und für wen der Artikel nützlich sein könnte.

Erstens kann der Artikel für alle Anfänger nützlich sein, um die Grundlagen des maschinellen Lernens zu verstehen, insbesondere wenn sich ein angesehener Leser auch in seinem ersten Jahr der Spezialisierung „Maschinelles Lernen und Datenanalyse“ befindet. Es ist diese Art von Forschung, die in der letzten Woche des ersten Kurses, der oben genannten Spezialisierung, durchgeführt werden muss, um das begehrte Zertifikat zu erhalten.

Forschungsansatz

Also zurück zur Frage der Forschung. Was uns der zentrale Grenzwertsatz sagt. Aber sie sagt das. Wenn es aus praktisch jeder Verteilung einen Zufallswert X gibt und aus dieser Verteilung zufällig eine Stichprobe des Volumens N erzeugt wird, kann der anhand der Stichprobe ermittelte Stichprobenmittelwert durch eine Normalverteilung mit einem Durchschnittswert angenähert werden, der mit der mathematischen Erwartung der ursprünglichen Population übereinstimmt.

Um ein Experiment durchzuführen, müssen wir eine Verteilung auswählen, aus der eine Stichprobe zufällig generiert wird. In unserem Fall verwenden wir die Exponentialverteilung.

Wir wissen also, dass die Wahrscheinlichkeitsdichte der Exponentialverteilung einer Zufallsvariablen X die Form hat:

f (x) = l a m b d a v a r e p s i l o n^{- l a m b d a x}

$f (x) = \ lambda \ varepsilon ^ {- \ lambda x}$

x > 0

$x> 0$ ,

l a m b d a > 0

$\ lambda> 0$

Die mathematische Erwartung einer Zufallsvariablen X nach dem Gesetz der Exponentialverteilung wird umgekehrt bestimmt

l a m b d a

$\ lambda$ ::

m u = f r a c 1 l a m b d a

$\ mu = \ frac {1} {\ lambda}$

Die Varianz einer Zufallsvariablen X ist definiert als

s i g m a^{2} = f r a c 1 l a m b d a^{2}

$\ sigma ^ 2 = \ frac {1} {\ lambda ^ 2}$

Unsere Studie verwendet den Exponentialverteilungsparameter

l a m b d a = 0, 0125

$\ lambda = 0,0125$ dann

m u = 80

$\ mu = 80$ ,

s i g m a^{2} = 6400

$\ sigma ^ 2 = 6400$

Um die Wahrnehmung der Werte und des Experiments selbst zu vereinfachen, nehmen wir an, dass es sich um den Betrieb des Geräts mit einer durchschnittlichen Erwartung einer Betriebszeit von 80 Stunden handelt. Je länger das Gerät arbeitet, desto geringer ist die Wahrscheinlichkeit, dass kein Fehler auftritt, und umgekehrt. Wenn das Gerät gegen Null (Stunden, Minuten, Sekunden) tendiert, geht auch die Wahrscheinlichkeit seines Ausfalls gegen Null.

Nun aus der Exponentialverteilung mit dem angegebenen Parameter

l a m b d a = 0, 0125

$\ lambda = 0,0125$ Wählen Sie 1000 Pseudozufallswerte. Vergleichen Sie die Ergebnisse der Stichprobe mit der theoretischen Wahrscheinlichkeitsdichte.

Außerdem, und dies ist das Wichtigste in unserer kleinen Studie, werden wir die folgenden Beispiele bilden. Wir nehmen 3, 15, 50, 100, 150, 300 und 500 Zufallsvariablen aus der Exponentialverteilung, bestimmen für jedes Volumen (von 3 bis 500) das arithmetische Mittel und wiederholen es 1000 Mal. Für jede Probe erstellen wir ein Histogramm und überlagern es mit einem Diagramm der Dichte der entsprechenden Normalverteilung. Wir schätzen die resultierenden Parameter des Stichprobenmittelwerts, der Varianz und der Standardabweichung.

Dies könnte den Artikel vervollständigen, aber es gibt einen Vorschlag, die Grenzen des Experiments etwas zu erweitern. Lassen Sie uns abschätzen, um wie viel sich diese Parameter mit einer Erhöhung der Stichprobengröße von 3 auf 500 von ihren Gegenstücken unterscheiden - den gleichen Parametern der entsprechenden Normalverteilungen. Mit anderen Worten, wir werden gebeten, die Frage zu beantworten. Werden wir jedoch mit zunehmender Stichprobengröße eine Abnahme der Abweichungen feststellen?

Also unterwegs. Unsere heutigen Werkzeuge werden die Python-Sprache und das Jupyter-Notizbuch sein.

Wir untersuchen die Aussage des zentralen Grenzwertsatzes

Der Quellcode der Studie wird auf dem Github veröffentlicht
Achtung! Diese Datei benötigt ein Jupyter-Notizbuch!

Eine Stichprobe eines von uns nach dem Gesetz der Exponentialverteilung 1000-mal erzeugten Pseudozufallswerts charakterisiert die theoretische (Anfangs-) Population recht gut (Grafik 1 *, Tabelle 1).

Grafik 1 „Der anfängliche Satz der Exponentialverteilung und Abtastung“

Tabelle 1 „Parameter der Grundgesamtheit und Stichprobe“

Nun wollen wir sehen, was passiert, wenn wir nicht nur 1000 Mal einen Pseudozufallswert nehmen, sondern den arithmetischen Durchschnitt von 3, 15, 50, 100, 150, 300 oder 500 Pseudozufallswerten und die Parameter jeder Stichprobe mit den Parametern der entsprechenden Normalverteilungen vergleichen (Grafik 2 **) Tabelle 2).

Grafik 2.1 „Stichprobe von 5“

Grafik 2.2 „Stichprobe von 50“

Grafik 2.3 „Stichprobe von 100“

Grafik 2.4 „Stichprobe von 150“

Grafik 2.5 „300 Probe“

Grafik 2.6 „500 Probe“

Tabelle 2 "Beispieloptionen"

In Übereinstimmung mit der grafischen Darstellung der Ergebnisse ist die folgende Regelmäßigkeit deutlich zu erkennen: Mit zunehmender Stichprobengröße nähert sich die Verteilung der Normalität und die Konzentration von Pseudozufallsvariablen um den Stichprobenmittelwert tritt an, und der Stichprobenmittelwert nähert sich der mathematischen Erwartung der Anfangsverteilung.

In Übereinstimmung mit den in der Tabelle dargestellten Daten wird das in den Diagrammen gezeigte Muster bestätigt - mit zunehmender Stichprobengröße nehmen die Varianz- und Standardabweichungswerte merklich ab, was auf eine dichtere Konzentration von Pseudozufallswerten um die Stichprobenmittelwerte hinweist.

Das ist aber noch nicht alles. Wir erinnern uns, dass zu Beginn des Artikels ein Vorschlag gemacht wurde, zu prüfen, ob mit zunehmender Stichprobengröße die Abweichungen der Stichprobenparameter gegenüber den Parametern der entsprechenden Normalverteilung abnehmen.

Wie Sie sehen können (Grafik 3, Tabelle 3), tritt keine willkürlich erkennbare Verringerung der Abweichungen auf - die Parameter der Stichproben springen in unterschiedlichen Abständen auf Plus oder Minus und wollen sich den berechneten Werten nicht stabil nähern. Wir werden versuchen, in den folgenden Studien eine Erklärung für den Mangel an positiver Dynamik zu finden.

Grafik 3 „Abweichungen der Probenparameter von theoretischen Berechnungen“

Tabelle 3 "Abweichungen der Parameter der Proben von der berechneten Theorie"

Anstelle von Schlussfolgerungen

Unsere Studie bestätigte einerseits erneut die Schlussfolgerungen des zentralen Grenzwertsatzes zur Annäherung unabhängiger zufällig verteilter Werte an die Normalverteilung mit zunehmender Stichprobengröße, andererseits konnte das erste Jahr der Spezialisierung erfolgreich abgeschlossen werden.

* Entwicklung der Logik des Beispiels mit Geräten, deren Betriebszeit 80 Stunden beträgt, entlang der X-Achse bezeichnen wir die Uhr - je weniger Zeit sie arbeitet, desto geringer ist die Ausfallwahrscheinlichkeit.

** Hier ist eine andere Interpretation der X-Achsenwerte erforderlich - die Wahrscheinlichkeit, dass das Gerät nach etwa 80 Stunden arbeitet, ist am höchsten und nimmt dementsprechend mit zunehmender Betriebszeit ab (dh es ist unwahrscheinlich, dass das Gerät viel länger als 80 Stunden arbeitet). und mit einer Verkürzung der Betriebszeit (die Wahrscheinlichkeit, dass das Gerät in weniger als 80 Stunden ausfällt, ist ebenfalls gering).

$\ rightarrow$ Die nächste Arbeit des Autors - "Wir lösen die Gleichung der einfachen linearen Regression"

Wir untersuchen die Aussage des zentralen Grenzwertsatzes anhand der Exponentialverteilung

Anstatt vorzustellen

Forschungsansatz

Wir untersuchen die Aussage des zentralen Grenzwertsatzes

Anstelle von Schlussfolgerungen

More articles: