Vermeiden, mit Statistiken zu lügen: die Grundlagen der Datenvisualisierung



Ich habe oft die Meinung gehört, dass es die Aufgabe von Analysten ist, offen „traurige“ Zahlen so darzustellen, als ob alles nach Plan läuft. Vielleicht passiert das irgendwo, aber in Gamedev ist das Gegenteil der Fall. Wir müssen die objektivsten Daten bereitstellen, damit im Projekt die richtigen Entscheidungen getroffen werden. Und machen Sie diese Daten verständlich.

Dies ist oft schwieriger als mit schönen Grafiken zu locken.

Daher habe ich einige Grundprinzipien der Visualisierung zusammengestellt, die ich in meiner Arbeit anwende (eine Liste der Quellen am Ende). Dies ist nützlich, wenn Sie Berichte schreiben, sich auf eine Präsentation vorbereiten oder nur die Bedeutung einiger Zahlen vermitteln möchten. Die Hauptsache: Um einen guten Zeitplan zu erstellen, müssen Sie kein talentierter Künstler sein oder meisterhaft matplotlib / ggplot2 besitzen. Lass uns gehen.

Warum reicht einfaches Excel (und manchmal Bleistift und Papier) für ein gutes Diagramm aus?

Dies ergibt sich aus dem alleinigen Zweck der Visualisierung - Ihre Idee zu vermitteln. Deshalb sofort: Es gibt keine „schönen“ oder „richtigen“ Zeitpläne - entweder helfen sie dabei, eine Idee zu vermitteln oder nicht. Und wenn nicht, egal wie schön der Zeitplan ist, wird er nicht benötigt.

Der Prozess der Erstellung eines Zeitplans, der sein Ziel erreicht, kann in vier Schritte unterteilt werden [1]:



Alles beginnt mit einer Idee. Was sollen Leser oder Zuschauer verstehen? Auf dieser Grundlage wird die Art der Diagramme ausgewählt, dann wird auf wichtige Stellen hingewiesen und alles, was die Vermittlung des Gedankens stört, wird entfernt.

Nun mehr zu jedem Artikel.

Idee


Beginnen wir mit der Formulierung der Idee und ihren Auswirkungen auf die Grafiken. Schauen Sie sich ein kanonisches Beispiel an: ein "Sales by Region" -Schild mit einem sehr einfachen Datensatz (8 Ziffern, 2 Unternehmen) [2].

In dieser Form ist es schwer wahrzunehmen und es folgt keine Idee direkt daraus:



Um wichtige Zusammenhänge einfacher und klarer darzustellen, benötigen wir ein Diagramm. Und je nach Art des gewählten Diagramms wird ein völlig anderer Gedanke in den Vordergrund treten.



Das einzige, was wir auf den ersten Blick in der obigen Grafik betrachten können, ist beispielsweise, dass die Vertriebsstruktur der beiden Unternehmen unterschiedlich ist. Um andere Informationen zu lesen, muss man sie besser verstehen, und dies hilft nicht, die Idee zu vermitteln.

Ein weiteres Diagramm, die gleichen Daten:



Hier zeigen wir neben dem Unterschied in der Struktur bereits, wie Unternehmen Verkaufsanteile in verschiedenen Regionen teilen. Wenn Sie es von links nach rechts lesen (wie es die meisten Leute tun werden), lautet der Gedanke wie folgt: Unternehmen B (links) hat den geringsten Umsatzanteil im Süden und Unternehmen A (rechts) hat den größten Anteil. Und umgekehrt im Norden.

Ein weiteres Diagramm:



Wenn wir ein Histogramm dieses Typs verwenden, wird in erster Linie darauf hingewiesen, die Unternehmen miteinander zu vergleichen: In Bezug auf den Umsatz im Norden liegt Unternehmen B vor Unternehmen A, im Osten und Westen konkurrieren sie, und im Süden steht Unternehmen B hinter Unternehmen A.

Dieselben Daten, nur 8 Ziffern, aber je nach Präsentation drücken sie unterschiedliche Ideen aus.

Deshalb - formulieren wir zuerst einen Gedanken und wählen dann den geeigneten Diagrammtyp.

Diagrammtypen


Lassen Sie uns die gängigsten Diagrammtypen (die Sie in Excel, jedem BI oder anderen Analysetools finden) durchgehen und herausfinden, welche Art von Vergleichen (und welche Ideen) für sie am besten geeignet sind [2].

Kreisdiagramm

Beginnen wir mit dem „bevorzugten“ Kreisdiagramm und den Variationen (Donut-Diagramme). In der klassischen Interpretation besteht das Hauptziel darin, Anteile zu vergleichen, wenn eine statische Struktur gezeigt wird.


Bestandteile eines guten Spiels

Es gibt aber auch die Meinung, dass der Hauptzweck dieses Diagramms Werbung und schöne Bilder sind.

In vielerlei Hinsicht sind es Tortendiagramme, mit denen Unternehmensberater vor mehreren Millionen Jahren 30-seitige Präsentationen verkaufen konnten. Nein? Hier sind die ersten Bilder auf Anfrage von "Beratung", "Analytik", "BI":


Kreisdiagramme sind sie überall

Fast kein Werbebild kann ohne Tortendiagramme (oder deren Sorten) auskommen. Dies ist weniger ein Werkzeug als ein Symbol.

Und für die Visualisierung realer Daten ist es nicht geeignet.

Erstens ist der Umfang dieses Diagramms sehr eng. Eine statische Struktur muss nicht so oft gezeigt werden - eine kleine Anzahl von Fällen. Und zweitens lesen viele Leute die Anteile in Kreisdiagrammen nicht gut, besonders wenn jemand sie voluminös macht (Verrücktheit). Und drittens kann dieselbe Art von Vergleich in anderen Diagrammen ausgedrückt werden und wird nur besser.

Deshalb ist es besser, Tortendiagramme zu vergessen. Wenn Sie Werbung machen oder Ihrer Präsentation Solidität verleihen möchten, ist die Option nicht so schlecht.

Balkendiagramm (horizontal)

Sie ist ein Balkendiagramm und dient zum Positionsvergleich. Es zeigt deutlich, welche der Alternativen besser ist, wer welchen Platz einnimmt und wie sie sich im Rang verhalten.


Positionsvergleich

Ein Balkendiagramm ist ideal für Bewertungen. Und das ist sehr praktisch - lange Namen passen leicht in die Legende. Bei anderen Diagrammtypen kann dies zu Störungen führen.

Liniendiagramm

Der nächste Typ ist ein Klassiker. Liniendiagramm auf Russisch wird oft einfach als "Diagramm" bezeichnet.

Es wird für einen temporären Vergleich verwendet, wenn Sie anzeigen müssen, wie sich der Indikator im Laufe der Zeit geändert hat, ob die Dynamik für verschiedene Indikatoren unterschiedlich war und so weiter.


Vergleich der Leistungsindikatoren

Worauf Sie beim Erstellen eines Liniendiagramms achten sollten:

  1. Die Angemessenheit des Zeitraums. Andernfalls wird das Diagramm zu einem unlesbaren Durcheinander.
  2. Die Anzahl der Zeilen. Mehr als fünf oder sieben Zeilen - ein Tabu, niemand wird sie verstehen.

    Links ist ein zu langer Zeitraum, rechts eine „Nudel“ von Linien
  3. Skalieren. Seien Sie vorsichtig, Liniendiagramm wird von denen geliebt, die mit Hilfe von Daten betrügen werden [3].

    Klassische Lügen - Skalenspiele

    Wenn Sie beispielsweise den Zeitplan links bei der Präsentation des Verwaltungsrates anzeigen und ihn als Aufbewahrung bezeichnen, wird das Projekt wahrscheinlich geschlossen. Tatsächlich ist nicht alles so schlecht: Auf der rechten Seite befindet sich das gleiche Diagramm, aber mit einer vernünftigen Skala wird deutlich, dass der „Abfall“ des Indikators einfach eine Schwankung ist. In der entgegengesetzten Richtung funktioniert dies auch. Durch Erhöhen der Skala können Sie die offensichtliche Verschlechterung des Indikators verbergen.

Zusammenfassend ist Liniendiagramm ein sehr nützlicher Diagrammtyp. Insbesondere in der Spieleentwicklung, wo es notwendig ist, Indikatoren ständig zu überwachen, Änderungen in der Dynamik aufzuzeigen und die Entwicklung von Projekten zu überwachen.

Flächendiagramm

Der nächste Typ, Flächendiagramm, dient dazu, die Struktur in der Dynamik darzustellen. Worauf muss man achten? Wieder - wenn wir eine Fülle von Ebenen erstellen, wird das Diagramm unlesbar. Entfernen Sie zusätzliche Schichten und lassen Sie nur die wichtigsten übrig (wie das geht, werden wir etwas weiter besprechen):



Histogramm

Histogramme sind ein "Universalhammer". Diese Art von Diagramm weist viele Variationen auf, die in einer Vielzahl von Situationen verwendet werden können:

  1. vorübergehender Vergleich;
  2. Häufigkeitsverteilung;
  3. Vergleich der Aktien (Hallo zu Kreisdiagrammen);
  4. Beitrag zur Gesamtdynamik;
  5. Vergleich von Alternativen und mehr.




Für diese Vielseitigkeit ist das Histogramm eine Einschränkung - es kann nur eine kleine Anzahl von Perioden oder Vergleichen darauf angezeigt werden. Andernfalls wird der Zeitplan unlesbar und erfüllt seine Aufgabe nicht mehr.

Fazit: Balkendiagramme, Flächendiagramme und Liniendiagramme können 90% des Datenvisualisierungsbedarfs decken. Es reicht aus, diese drei Werkzeuge zu studieren und die gleichen 4 Schritte zu befolgen, um hervorragende Diagramme zu erstellen, mit denen Sie dem Publikum Ihre Gedanken vermitteln können.

Streudiagramm

Betrachten Sie zum Nachtisch Streudiagramme oder eine „Karte“. Der Vorteil dieses Typs ist, dass er viele Indikatoren enthält. Es hat zwei Achsen, Punktgröße, Farbe und Symbol - alle können möglicherweise eine zusätzliche Dimension anzeigen. Aber je mehr Messungen eingepfercht sind, desto schwieriger wird es, sie zu lesen. In gedruckten Dokumenten ist dies zulässig, wenn Personen sitzen und es herausfinden können. Beim Sprechen ist es jedoch besser, nicht mehr als 2-3 Messungen zu verwenden.


Verfügbare Optionen: Punktposition, Farbe, Größe und Symbol

Schwerpunkt und Aufmerksamkeitsmanagement


Die formulierte Idee und der richtige Diagrammtyp sind der halbe Erfolg. Abgesehen davon möchten wir, dass der Leser oder Betrachter sofort an die richtige Stelle schaut. Wie zu betonen?

Pfeil

Der einfachste Weg, der oft vernachlässigt wird, ist der Pfeil. Billig und fröhlich, erfüllt aber seine Aufgabe voll und ganz. Fast jedes Screenshot-Tool kann einen Pfeil setzen. Damit können Sie den Betrachter immer auf das gewünschte Diagrammelement aufmerksam machen.



Rahmen

Eine weitere Option aus dem "billigen" - Hervorheben des Rahmens. Es wird verwendet, wenn sie über einen bestimmten Zeitraum sprechen und die Dynamik des Indikators hervorheben möchten.



Ein gutes Beispiel ist die Grafik vom Anfang des Artikels, als ich über Spiele mit Skalierung sprach - Sie können sowohl über kleine Änderungen als auch über das Gesamtbild sprechen.



Trennzeichen

Trennlinien sind im Wesentlichen eine Variation an der Grenze. Sie sind nützlich, wenn wir "Vorher / Nachher" -Perioden hervorheben möchten, wenn Dynamik angezeigt wird. Oder zum Beispiel ein „Korridor“ mit interessanten Werten in einem Streudiagramm.



Farbe

Ein wenig mehr Aufwand erfordert die Hervorhebung von Farben. Aber es sieht "aufgeräumter" aus.


Dynamik von Indikatoren in einem bestimmten Zeitraum

Eine weitere Variation der Farbhervorhebung besteht darin, dass wir die Teile des Diagramms, die uns interessieren, mit einem helleren Farbton hervorheben:



Überschüssiges entfernen


Der letzte Schritt besteht darin, die überschüssigen Elemente zu entfernen. Alles, was die Vermittlung der Hauptidee ablenkt und stört.

Zurück zum Beispiel des Flächendiagramms. Bei diesem Typ entfernen wir unnötige Schichten. Wenn Sie hervorheben möchten, dass das Einkommen nur in einer Kategorie zunimmt, können alle anderen Ebenen ausgeblendet werden.


Ebenen reduzieren

Viele Standardanalysetools erstellen Diagramme mit Linien und einer Skala. Anstatt den Betrachter zu zwingen, die Höhe der Spalten und die Skalierung zu korrelieren, können wir die Zahlen für jede Spalte separat angeben und die nicht mehr benötigten Zeilen entfernen. Wird ordentlicher aussehen.



Reduzieren Sie Einheiten immer und runden Sie sie auf signifikante Stellen. Wenn wir über Millionen sprechen, werden Hunderte und Dutzende definitiv nicht benötigt. Erstens wird es den Betrachter weniger ablenken, und zweitens wird es einfacher sein, die Zahlen in das Diagramm einzupassen.

Und schließlich, wenn der resultierende Zeitplan Ihnen plötzlich immer noch nicht hilft, die Nachricht zu vermitteln, entfernen Sie sie vollständig. Warum eine Präsentation oder einen Bericht mit nutzlosem Ballast überladen?

Quellen


Bisher war es möglich, kurz auf die grundlegendsten Prinzipien einzugehen, aber das Thema Datenvisualisierung ist viel umfassender. Wenn sie interessiert ist, empfehle ich Ihnen, sich mit den Quellen vertraut zu machen, ohne die dieser Artikel nicht wäre:

[1] Alexander Bogachev, "Charts, die alle überzeugen . " Das Buch ist noch in Bearbeitung, die Kapitel werden vom Autor nach und nach auf der Website angelegt, aber was da ist, ist bereits sehr nützlich.

[2] Gene Zhelyazny: "Sprechen Sie in der Sprache der Diagramme . " Der Klassiker der Datenvisualisierung, der dieses Buch schrieb, als die Diagramme noch von Hand gezeichnet wurden und man sofort überlegen musste, wie man es richtig macht.

[3] Darrell Huff, "Wie man mit Statistiken lügt . " Nicht weniger klassische Arbeit über Datenmanipulation.

Source: https://habr.com/ru/post/de453828/


All Articles