Anstatt vorzustellen
Der Artikel beschreibt eine Studie, die durchgefĂŒhrt wurde, um die Aussage des zentralen Grenzwertsatzes zu verifizieren, dass die Summe von
N unabhĂ€ngigen und identisch verteilten Zufallsvariablen, die aus fast jeder Verteilung ausgewĂ€hlt wurden, eine nahezu normale Verteilung aufweist. Bevor wir jedoch mit der Beschreibung der Studie und einer detaillierteren Offenlegung der Bedeutung des zentralen Grenzwertsatzes fortfahren, ist es nicht unangebracht zu sagen, warum die Studie ĂŒberhaupt durchgefĂŒhrt wurde und fĂŒr wen der Artikel nĂŒtzlich sein könnte.
Erstens kann der Artikel fĂŒr alle AnfĂ€nger nĂŒtzlich sein, um die Grundlagen des maschinellen Lernens zu verstehen, insbesondere wenn sich ein angesehener Leser auch in seinem ersten Jahr der Spezialisierung âMaschinelles Lernen und Datenanalyseâ befindet. Es ist diese Art von Forschung, die in der letzten Woche des ersten Kurses, der oben genannten Spezialisierung, durchgefĂŒhrt werden muss, um das begehrte Zertifikat zu erhalten.
Forschungsansatz
Also zurĂŒck zur Frage der Forschung. Was uns der zentrale Grenzwertsatz sagt. Aber sie sagt das. Wenn es aus praktisch jeder Verteilung einen Zufallswert
X gibt und aus dieser Verteilung zufÀllig eine Stichprobe des Volumens
N erzeugt wird, kann der anhand der Stichprobe ermittelte Stichprobenmittelwert durch eine Normalverteilung mit einem Durchschnittswert angenĂ€hert werden, der mit der mathematischen Erwartung der ursprĂŒnglichen Population ĂŒbereinstimmt.
Um ein Experiment durchzufĂŒhren, mĂŒssen wir eine Verteilung auswĂ€hlen, aus der eine Stichprobe zufĂ€llig generiert wird. In unserem Fall verwenden wir die Exponentialverteilung.
Wir wissen also, dass die Wahrscheinlichkeitsdichte der Exponentialverteilung einer Zufallsvariablen
X die Form hat:
wo
,
Die mathematische Erwartung einer Zufallsvariablen X nach dem Gesetz der Exponentialverteilung wird umgekehrt bestimmt
::
Die Varianz einer Zufallsvariablen X ist definiert als
Unsere Studie verwendet den Exponentialverteilungsparameter
dann
,
Um die Wahrnehmung der Werte und des Experiments selbst zu vereinfachen, nehmen wir an, dass es sich um den Betrieb des GerÀts mit einer durchschnittlichen Erwartung einer Betriebszeit von 80 Stunden handelt. Je lÀnger das GerÀt arbeitet, desto geringer ist die Wahrscheinlichkeit, dass kein Fehler auftritt, und umgekehrt. Wenn das GerÀt gegen Null (Stunden, Minuten, Sekunden) tendiert, geht auch die Wahrscheinlichkeit seines Ausfalls gegen Null.
Nun aus der Exponentialverteilung mit dem angegebenen Parameter
WĂ€hlen Sie 1000 Pseudozufallswerte. Vergleichen Sie die Ergebnisse der Stichprobe mit der theoretischen Wahrscheinlichkeitsdichte.
AuĂerdem, und dies ist das Wichtigste in unserer kleinen Studie, werden wir die folgenden Beispiele bilden. Wir nehmen 3, 15, 50, 100, 150, 300 und 500 Zufallsvariablen aus der Exponentialverteilung, bestimmen fĂŒr jedes Volumen (von 3 bis 500) das arithmetische Mittel und wiederholen es 1000 Mal. FĂŒr jede Probe erstellen wir ein Histogramm und ĂŒberlagern es mit einem Diagramm der Dichte der entsprechenden Normalverteilung. Wir schĂ€tzen die resultierenden Parameter des Stichprobenmittelwerts, der Varianz und der Standardabweichung.
Dies könnte den Artikel vervollstĂ€ndigen, aber es gibt einen Vorschlag, die Grenzen des Experiments etwas zu erweitern. Lassen Sie uns abschĂ€tzen, um wie viel sich diese Parameter mit einer Erhöhung der StichprobengröĂe von 3 auf 500 von ihren GegenstĂŒcken unterscheiden - den gleichen Parametern der entsprechenden Normalverteilungen. Mit anderen Worten, wir werden gebeten, die Frage zu beantworten. Werden wir jedoch mit zunehmender StichprobengröĂe eine Abnahme der Abweichungen feststellen?
Also unterwegs. Unsere heutigen Werkzeuge werden die Python-Sprache und das Jupyter-Notizbuch sein.
Wir untersuchen die Aussage des zentralen Grenzwertsatzes
Der Quellcode der Studie wird auf dem
Github veröffentlichtAchtung! Diese Datei benötigt ein Jupyter-Notizbuch!Eine Stichprobe eines von uns nach dem Gesetz der Exponentialverteilung 1000-mal erzeugten Pseudozufallswerts charakterisiert die theoretische (Anfangs-) Population recht gut (Grafik 1 *, Tabelle 1).
Grafik 1 âDer anfĂ€ngliche Satz der Exponentialverteilung und Abtastungâ
Tabelle 1 âParameter der Grundgesamtheit und Stichprobeâ
Nun wollen wir sehen, was passiert, wenn wir nicht nur 1000 Mal einen Pseudozufallswert nehmen, sondern den arithmetischen Durchschnitt von 3, 15, 50, 100, 150, 300 oder 500 Pseudozufallswerten und die Parameter jeder Stichprobe mit den Parametern der entsprechenden Normalverteilungen vergleichen (Grafik 2 **) Tabelle 2).
Grafik 2.1 âStichprobe von 5â
Grafik 2.2 âStichprobe von 50â
Grafik 2.3 âStichprobe von 100â
Grafik 2.4 âStichprobe von 150â
Grafik 2.5 â300 Probeâ
Grafik 2.6 â500 Probeâ
Tabelle 2 "Beispieloptionen"
In Ăbereinstimmung mit der grafischen Darstellung der Ergebnisse ist die folgende RegelmĂ€Ăigkeit deutlich zu erkennen: Mit zunehmender StichprobengröĂe nĂ€hert sich die Verteilung der NormalitĂ€t und die Konzentration von Pseudozufallsvariablen um den Stichprobenmittelwert tritt an, und der Stichprobenmittelwert nĂ€hert sich der mathematischen Erwartung der Anfangsverteilung.
In Ăbereinstimmung mit den in der Tabelle dargestellten Daten wird das in den Diagrammen gezeigte Muster bestĂ€tigt - mit zunehmender StichprobengröĂe nehmen die Varianz- und Standardabweichungswerte merklich ab, was auf eine dichtere Konzentration von Pseudozufallswerten um die Stichprobenmittelwerte hinweist.
Das ist aber noch nicht alles. Wir erinnern uns, dass zu Beginn des Artikels ein Vorschlag gemacht wurde, zu prĂŒfen, ob mit zunehmender StichprobengröĂe die Abweichungen der Stichprobenparameter gegenĂŒber den Parametern der entsprechenden Normalverteilung abnehmen.
Wie Sie sehen können (Grafik 3, Tabelle 3), tritt keine willkĂŒrlich erkennbare Verringerung der Abweichungen auf - die Parameter der Stichproben springen in unterschiedlichen AbstĂ€nden auf Plus oder Minus und wollen sich den berechneten Werten nicht stabil nĂ€hern. Wir werden versuchen, in den folgenden Studien eine ErklĂ€rung fĂŒr den Mangel an positiver Dynamik zu finden.
Grafik 3 âAbweichungen der Probenparameter von theoretischen Berechnungenâ

Tabelle 3 "Abweichungen der Parameter der Proben von der berechneten Theorie"

Anstelle von Schlussfolgerungen
Unsere Studie bestĂ€tigte einerseits erneut die Schlussfolgerungen des zentralen Grenzwertsatzes zur AnnĂ€herung unabhĂ€ngiger zufĂ€llig verteilter Werte an die Normalverteilung mit zunehmender StichprobengröĂe, andererseits konnte das erste Jahr der Spezialisierung erfolgreich abgeschlossen werden.
* Entwicklung der Logik des Beispiels mit GerÀten, deren Betriebszeit 80 Stunden betrÀgt, entlang der X-Achse bezeichnen wir die Uhr - je weniger Zeit sie arbeitet, desto geringer ist die Ausfallwahrscheinlichkeit.
** Hier ist eine andere Interpretation der X-Achsenwerte erforderlich - die Wahrscheinlichkeit, dass das GerĂ€t nach etwa 80 Stunden arbeitet, ist am höchsten und nimmt dementsprechend mit zunehmender Betriebszeit ab (dh es ist unwahrscheinlich, dass das GerĂ€t viel lĂ€nger als 80 Stunden arbeitet). und mit einer VerkĂŒrzung der Betriebszeit (die Wahrscheinlichkeit, dass das GerĂ€t in weniger als 80 Stunden ausfĂ€llt, ist ebenfalls gering).
Die nÀchste Arbeit des Autors - "Wir lösen die Gleichung der einfachen linearen Regression"