Das Buch „Theoretisches Minimum für Big Data. Alles, was Sie über Big Data wissen müssen “

Bild Big Data ist heute ein großes Geschäft. Informationen kontrollieren unser Leben und ihre Nutzung ist für die Arbeit moderner Organisationen von zentraler Bedeutung. Egal wer Sie sind - ein Unternehmer, der mit Analytics arbeitet, ein Programmierer oder Entwickler für Anfänger - mit dem „Big Data Theoretical Minimum“ können Sie nicht im stürmischen Ozean moderner Technologie ertrinken und die Grundlagen einer neuen und sich schnell entwickelnden Big Data-Verarbeitungsbranche verstehen.

Möchten Sie mehr über Big Data und den Umgang damit erfahren? Jedem Algorithmus ist ein eigenes Kapitel gewidmet, in dem nicht nur die Grundprinzipien der Arbeit erläutert werden, sondern auch Beispiele für die Verwendung bei realen Problemen gegeben werden. Eine große Anzahl von Abbildungen und einfachen Kommentaren erleichtert das Verständnis der komplexesten Aspekte von Big Data.

Wir bieten Ihnen an, sich mit der Passage "Hauptkomponenten" vertraut zu machen.

Mit der CIM-Methode (Principal Component Analysis) können Sie die grundlegenden Variablen (so genannte Principal Components) ermitteln, die Ihre Datenelemente optimal unterscheiden. Diese Hauptkomponenten ergeben die größte Datenstreuung (Abb. 2).

Die Hauptkomponente kann eine oder mehrere Variablen ausdrücken. Zum Beispiel können wir die einzelne Variable "Vitamin C" verwenden. Da Vitamin C in Gemüse, aber nicht in Fleisch enthalten ist, verteilt das letzte Diagramm (linke Spalte in Abb. 3) das Gemüse, aber das gesamte Fleisch befindet sich auf einem Haufen.

Für die Verteilung von Fleischprodukten können wir Fett als zweite Variable verwenden, da es in Fleisch vorhanden ist, in Gemüse jedoch fast nicht vorhanden ist. Da jedoch Fett und Vitamin C in verschiedenen Einheiten gemessen werden, müssen wir sie standardisieren, bevor wir sie kombinieren.

Bild

Standardisierung ist der Ausdruck jeder Variablen in Perzentilen, die diese Variablen in eine einzige Skala umwandeln, sodass wir sie kombinieren können, um eine neue Variable zu berechnen:

Vitamin C - Fett

Da Vitamin C das Gemüse bereits verteilt hat, subtrahieren wir das Fett, um das Fleisch zu verteilen. Die Kombination dieser beiden Variablen hilft uns, sowohl Gemüse- als auch Fleischprodukte zu verteilen (die Spalte in der Mitte in Abb. 3).

Bild

Wir können die Verbreitung verbessern, indem wir Ballaststoffe berücksichtigen, deren Gehalt in Gemüse variiert:

(Vitamin C + Ballaststoffe) - Fett.

Diese neue Variable gibt uns die optimale Datenstreuung (rechte Spalte in Abbildung 3).
Während wir die Hauptkomponenten in diesem Beispiel durch Ausprobieren erhalten haben, kann das CIM dies systematisch tun. Wie das geht, sehen wir im folgenden Beispiel.

Beispiel: Lebensmittelgruppenanalyse


Unter Verwendung von Daten des US-Landwirtschaftsministeriums analysierten wir die Ernährungseigenschaften eines zufälligen Satzes von Lebensmitteln anhand von vier Lebensmittelvariablen: Fette, Proteine, Ballaststoffe und Vitamin C. Wie in Abb. 2 zu sehen ist. 4, bestimmte Nährstoffe werden oft in Lebensmitteln zusammen gefunden.

Insbesondere steigt der Gehalt an Fetten und Proteinen in eine Richtung entgegen der Richtung, in der der Gehalt an Ballaststoffen und Vitamin C ansteigt. Wir können unsere Annahmen bestätigen, indem wir überprüfen, welche Variablen korrelieren (siehe Abschnitt 6.5). In der Tat finden wir eine signifikante positive Korrelation sowohl zwischen den Gehalten an Proteinen und Fetten (r = 0,56) als auch zwischen den Gehalten an Ballaststoffen und Vitamin C (r = 0,57).

Anstatt die vier Lebensmittelvariablen einzeln zu analysieren, können wir die stark korrelierten kombinieren und nur zwei zur Berücksichtigung erhalten. Daher wird das Hauptkomponentenverfahren als Dimensionsreduktionstechniken bezeichnet .

Bild

Wenn wir es auf unseren Lebensmitteldatensatz anwenden, erhalten wir die in Abb. 5.

Jede Hauptkomponente ist eine Kombination von Lebensmittelvariablen, deren Wert positiv, negativ oder nahe Null sein kann. Um beispielsweise Komponente 1 für ein einzelnes Produkt zu erhalten, können wir Folgendes berechnen:

.55 (Ballaststoffe) + .44 (Vitamin C) - .45 (Fett) -
.55 (Protein)

Bild

Das heißt, anstatt wie zuvor Variablen durch Versuch und Irrtum zu kombinieren, berechnet die Hauptkomponentenmethode selbst die genauen Formeln, mit denen wir unsere Positionen unterscheiden können.

Bitte beachten Sie, dass unsere Hauptkomponente 1 (PC1) sofort Fette mit Proteinen und Ballaststoffe mit Vitamin C kombiniert und diese Paare umgekehrt proportional sind.

Während PC1 Fleisch von Gemüse unterscheidet, identifiziert Komponente 2 (PC2) die internen Unterkategorien von Fleisch (basierend auf dem Fettgehalt) und Gemüse (basierend auf dem Vitamin C-Gehalt) detaillierter. Mit beiden Komponenten des Diagramms erhalten wir die beste Datenstreuung (Abb. 6).

Bild

Fleischprodukte haben niedrige Werte für Komponente 1, daher konzentrieren sie sich auf der linken Seite der Tabelle, auf der gegenüberliegenden Seite der pflanzlichen. Es ist auch ersichtlich, dass bei nicht-pflanzlichen Produkten der niedrige Fettgehalt von Meeresfrüchten daher der Wert von Komponente 2 für sie geringer ist und sie selbst zum unteren Rand des Diagramms tendieren. In ähnlicher Weise haben Gemüse, das kein Grün ist, niedrige Werte für Komponente 2, die unten in der Grafik rechts zu sehen sind.

Die Wahl der Anzahl der Komponenten . In diesem Beispiel werden vier Hauptkomponenten anhand der Anzahl der Anfangsvariablen im Datensatz erstellt. Da die Hauptkomponenten auf der Basis gewöhnlicher Variablen erstellt werden, sind Informationen für die Verteilung von Datenelementen auf ihren ursprünglichen Satz beschränkt.

Um die Einfachheit und Skalierbarkeit der Ergebnisse zu gewährleisten, sollten wir gleichzeitig nur die ersten Hauptkomponenten für die Analyse und Visualisierung auswählen. Die Hauptkomponenten unterscheiden sich in der Effizienz der Verteilung von Datenelementen, und die erste von ihnen tut dies maximal. Die Anzahl der zu berücksichtigenden Hauptkomponenten wird anhand des Geröllgraphen bestimmt, den wir im vorherigen Kapitel untersucht haben.

Die Grafik zeigt die abnehmende Effizienz nachfolgender Hauptkomponenten bei der Differenzierung von Datenelementen. In der Regel wird eine Menge von Hauptkomponenten verwendet, die der Position einer akuten Fraktur im Geröllplot entspricht.

In Abb. 7 Bruch befindet sich an rund zwei Komponenten. Dies bedeutet, dass drei oder mehr Hauptkomponenten Datenelemente besser unterscheiden könnten, diese zusätzlichen Informationen jedoch möglicherweise die Komplexität der endgültigen Lösung nicht rechtfertigen. Wie aus dem Geröllgraphen ersichtlich, ergeben die ersten beiden Hauptkomponenten bereits eine Streuung von 70%. Durch die Verwendung einer kleinen Anzahl von Hauptkomponenten für die Datenanalyse wird sichergestellt, dass das Schema für zukünftige Informationen geeignet ist.

Bild

Einschränkungen


Die Hauptkomponentenmethode ist eine nützliche Methode zur Analyse von Datensätzen mit mehreren Variablen. Es hat jedoch auch Nachteile.

Maximieren Sie die Verteilung . Das CIM geht von der wichtigen Annahme aus, dass diejenigen Messungen, die die größte Streuung ergeben, am nützlichsten sind. Dies ist jedoch nicht immer der Fall. Ein bekanntes Gegenbeispiel ist das Problem des Zählens von Pfannkuchen in einem Stapel.

Bild

Um Pfannkuchen zu zählen, trennen wir sie entlang der vertikalen Achse (dh der Höhe des Stapels) voneinander. Wenn der Stapel jedoch klein ist, entscheidet der MHC fälschlicherweise, dass die horizontale Achse (Pfannkuchendurchmesser) die beste Hauptkomponente ist, da Sie bei dieser Messung einen weiten Wertebereich finden können.

Interpretation von Komponenten. Die Hauptschwierigkeit beim CIM besteht darin, dass die Interpretation der generierten Komponenten erforderlich ist, und manchmal müssen Sie sich sehr bemühen, zu erklären, warum die Variablen auf die gewählte Weise kombiniert werden sollten.

Vorläufige allgemeine Informationen können uns jedoch weiterhelfen. In unserem Beispiel kombinieren Lebensmittelvariablen für die Hauptkomponenten die Produkte mit Hilfe von Vorwissen über ihre Kategorien.

»Weitere Informationen zum Buch finden Sie auf der Website des Herausgebers
» Inhalt
» Auszug

20% Rabatt- Gutschein für Straßenhändler - BigData

Source: https://habr.com/ru/post/de428395/


All Articles