Jeder Analytiker durchläuft zu Beginn seiner Arbeit die verhasste Phase der Bestimmung der Identifizierung von Verteilungsparametern. Mit der Anhäufung von Erfahrung bedeutet für ihn die Koordination der erhaltenen Reststreuung, dass eine Phase der Analyse von Big Data durchlaufen wird und Sie weitermachen können. Es besteht keine Notwendigkeit mehr, Hunderte von Modellen auf Übereinstimmung mit verschiedenen Regressionsgleichungen zu überprüfen, nach Segmenten mit Transienten zu suchen und eine Zusammensetzung von Modellen zu erstellen. Um sich mit Zweifeln zu quälen: "Vielleicht gibt es ein anderes Modell, das besser geeignet ist?"
Ich dachte: „Aber was ist, wenn Sie vom Gegenteil ausgehen? Sehen Sie, was weißes Rauschen bewirken kann. Kann weißes Rauschen etwas erzeugen, das unsere Aufmerksamkeit mit einem bedeutenden Objekt aus unserer Erfahrung vergleicht? “
Abb. Weißes Rauschen (Datei aus dem Netzwerk, Größe 448x235).Zu diesem Thema argumentierte er wie folgt:
- Wie groß ist die Wahrscheinlichkeit, dass horizontale und vertikale Linien mit merklicher Länge auftreten?
- Wenn sie erscheinen können, wie hoch ist dann die Wahrscheinlichkeit, dass sie mit ihrem Ursprung in einer der Koordinaten übereinstimmen und eine rechteckige Figur bilden?
Im weiteren Verlauf werde ich erläutern, wie sich diese Aufgaben auf die Big-Data-Analyse auswirken.
In dem Buch von G.Sekey
„Paradoxe in der Wahrscheinlichkeitstheorie und der mathematischen Statistik“ (S. 43) fand ich einen Verweis auf den Satz von
Erds -
Renyi , der wie folgt lautet:
Beim n-maligen Werfen einer Münze eine Reihe von Emblemen von Länge
beobachtet mit einer Wahrscheinlichkeit, die gegen 1 tendiert, wobei n gegen unendlich tendiert.
Für unsere Abbildung bedeutet dies, dass in jeder der 235 Zeilen mit einer Wahrscheinlichkeit von 1 Folgendes vorhanden ist:

Das heißt, wir fallen auf das Ganze - 8 schwarze Punkte in einer Reihe horizontal.
Und für alle 448 Spalten mit einer Wahrscheinlichkeit von 1 gibt es:

insgesamt verwerfen - 7 schwarze Punkte in einer Reihe, vertikal.
Von hier erhalten wir die Wahrscheinlichkeit, dass im "weißen Rauschen" ein schwarzes Rechteck mit einer Größe von 8 x 7 Pixel für dieses Bild gezeichnet wird:

Wobei 1 die erste Folge von schwarzen Punkten in einer Linie ist, irgendwo im zweidimensionalen Raum.
Ich behaupte nicht, dass die Wahrscheinlichkeit sehr gering ist, aber nicht Null.
Im weiteren Verlauf können wir alle Zeilen zu einer kombinieren und eine Zeile mit einer Länge von 102.225 Zeichen erhalten. Und dann existiert nach dem Erds-Renyi-Theorem mit einer Wahrscheinlichkeit von 1 eine Längenkette:

Und für eine Kette von 1 Million Datensätzen:

Wie Sie sehen können, ist die Verbindung des Erdos-Renyi-Theorems mit Big Data eindeutig identifiziert.
Hinweis Als nächstes werde ich meine eigene Analyse der identifizierten angeben. Da in dieser Form dieser Satz und sein Beweis, der im Buch von G.Sekey vorgestellt wird, ich nicht finden konnte.Wir erhalten, dass der Erdos-Renyi-Satz durch die Definition der Datenhomogenität durch den Test verwendet werden kann.
Sie gilt für Verteilungen mit einem zentralen Moment erster Ordnung (MX).
Es kann nur auf einkanalige sequentielle Zufallsprozesse angewendet werden.
Wie man es anwendet
Jede Verteilung kann wir uns erwartungsgemäß als Abweichung von der Mitte vorstellen: links-rechts, oben-unten. Das heißt, der Verlust: Schwanzadler.
Dementsprechend sollte durch diesen Satz ein Intervall erfasst werden, in dem aufeinanderfolgende Werte in der Menge von
sind über oder unter MX (Y (xi)).
Hinweis In diesem Aspekt wollte ich den Beweis dieses Theorems sehen, um zu verstehen, dass es nur eine solche Zeile (nur oben oder unten) oder zwei (oben und unten) gibt. Meiner Meinung nach sollte die Symmetrie dieser Phänomene zu zwei Verträgen führen. Andererseits haben diese Mathematiker bei der Analyse des Beweises eines ähnlichen Prozesses, der sich auf Graphen bezog, vorgeschlagen, den Beweis auf der Bestimmung des Maximums aufzubauen. Dies ermöglicht das Vorhandensein von Beweisen zur Minimierung der Zielfunktion. Es stellten sich Fragen, wie das Erds-Renyi-Theorem nach asymmetrischen Wahrscheinlichkeiten für Optionen über 2 sucht.Die praktische Konsequenz der Entdeckung nur eines solchen sequentiellen Vertrags in der untersuchten Basis gibt uns die Möglichkeit anzunehmen, dass alle präsentierten Daten homogen sind.
Der zweite. Wenn wir bei der Verarbeitung der Daten nach dem Erd-s-Renyi-Theorem festgestellt haben, dass es eine Reihe von mehr Werten gibt, als sie sein sollten, ist die in der Abbildung gezeigte Situation wahrscheinlich.
Die in der Figur gezeigte Reihe besteht für die Zwecke des Beispiels aus zwei Funktionen.Die dritte Schlussfolgerung. Wenn bei der Verarbeitung der Daten (1 Million Datensätze) nach dem Erds-Renyi-Theorem keine einzige Zeile mit einer Länge von 19 Zahlen gefunden wurde, sondern beispielsweise drei Sequenzen mit 17 Zahlen. Es kann angenommen werden, dass die allgemeinen Daten aus einer Zusammensetzung von drei Funktionen bestehen und an der Stelle dieser Reihen die Intervalle bestimmen, in denen Transienten auftreten können.
Als er an diesem Material arbeitete, wurde Folgendes beobachtet. Alle entwickelten Methoden der Datenanalyse werden für Technologien entwickelt, bei denen es nach kleinen natürlichen Beobachtungen erforderlich ist, die Parameter einer viel größeren Population aus 100 Beobachtungen zu bestimmen, um die Eigenschaften der Allgemeinbevölkerung von 1 Million oder mehr zu bestimmen. Und für moderne Aufgaben, wenn es notwendig ist, eine riesige Datenbank zu zerlegen, sind die von Statistiken entwickelten Werkzeuge sehr mühsam.
Fortsetzung:
Teil 2 ,
Teil 3 .