Falsche Diagramme: unsere Erfahrung

Wir bei The Economist nehmen die Datenvisualisierung sehr ernst. Jede Woche veröffentlichen wir etwa 40 Diagramme in gedruckter und Online-Version sowie in Anwendungen. Überall bemühen wir uns, die Zahlen genau darzustellen, damit sie das Thema am besten veranschaulichen. Aber manchmal machen wir Fehler. Es ist wichtig, diese Lektionen zu lernen, damit Sie in Zukunft keine Fehler machen. Sicherlich wird unsere Erfahrung für Sie nützlich sein.

Ich stürzte mich in die Archive und fand einige lehrreiche Beispiele. Verbrechen gegen die Datenvisualisierung werden in drei Kategorien eingeteilt. Dies sind Diagramme, die:

  1. irreführen;
  2. verwirrt;
  3. kann keinen Sinn ergeben.

Für jede wird eine überarbeitete Version angezeigt, die den gleichen Platz beansprucht - ein wichtiger Faktor für die Druckveröffentlichung.

(Hinweis: Die meisten „Original“ -Diagramme werden vor der Neugestaltung veröffentlicht. Verbesserte Diagramme werden gemäß den neuen Spezifikationen erstellt. Die Daten sind dieselben.)

Irreführende Diagramme


Beginnen wir mit den schlimmsten Verbrechen: Daten so darzustellen, dass sie irreführend sind. Wir machen das nie absichtlich! Aber manchmal passiert das. Betrachten wir drei Beispiele aus unserem Archiv.

Fehler: Abschneiden



( Daten in CSV )

Diese Grafik zeigt die durchschnittliche Anzahl von Facebook-Likes auf den linken Seiten. Der Zweck der Tabelle war es, den Unterschied zwischen den Stellen von Herrn Corbin und anderen aufzuzeigen.

Der ursprüngliche Zeitplan unterschätzt nicht nur die Anzahl der Corbin-Likes, sondern übertreibt auch die Leistung für andere Teilnehmer (hier ist ein weiteres Beispiel für einen solchen Fehler). In der überarbeiteten Version ist die Spalte von Herrn Corbin vollständig spezifiziert. Alle anderen Spalten sind weiterhin sichtbar.

Eine weitere Kuriosität ist die Wahl der Farbe. Bei dem Versuch, das Labour-Farbschema nachzuahmen, haben wir drei Orange / Rot-Schattierungen verwendet, die 1) Corbin, 2) anderen Abgeordneten und 3) Parteien / Gruppen zugeordnet sind. Dies wird nirgendwo erklärt. Obwohl Logik für viele offensichtlich sein mag, macht sie für diejenigen, die mit der britischen Politik nicht sehr vertraut sind, wenig Sinn.

Fehler: Der Effekt der Beziehung aufgrund der Anpassung der Skalen



Ein seltenes Beispiel für perfekte Korrelation? Eigentlich nicht ( Daten in CSV )

Die obige Tabelle stammt aus einem Artikel zur Gewichtsreduktion bei Hunden. Auf den ersten Blick scheinen Gewicht und Umfang des Halses des Hundes perfekt zu korrelieren. Aber ist das wahr? Nur bis zu einem gewissen Grad.

In der Grafik werden beide Skalen um drei Einheiten reduziert (von 21 auf 18 links; von 45 auf 42 rechts). In Prozent ausgedrückt reduziert sich die linke Skala um 14% und die rechte um 7%. In der überarbeiteten Tabelle habe ich die doppelte Skala beibehalten, aber die Bereiche angepasst, um eine vergleichbare proportionale Änderung widerzuspiegeln.

Angesichts des unterhaltsamen Themas dieses Diagramms scheint der Fehler relativ gering zu sein. Am Ende ist die Bedeutung in beiden Versionen gleich. Die Schlussfolgerung ist jedoch wichtig: Wenn die beiden Diagramme zu nahe beieinander liegen, müssen Sie sich die Skalen wahrscheinlich genauer ansehen.

Fehler: falsche Visualisierungsmethode



Die Meinungen über den Brexit sind fast so instabil wie die Verhandlungen darüber ( Daten in CSV ).

Wir haben diese Umfragetabelle in unserer Espresso-News-App veröffentlicht. Es zeigt die Beziehung zu den Ergebnissen des EU-Referendums in Form eines Liniendiagramms. Den Daten nach zu urteilen, schwanken die Befragten stark in ihren Ansichten: Die Ergebnisse springen um einige Prozentpunkte.

Anstelle einer glatten Kurve für die Trendanzeige haben wir die tatsächlichen Werte jeder Umfrage angegeben. Dies geschah hauptsächlich, weil unser Diagrammwerkzeug nicht wusste, wie man glatte Linien erstellt. Erst kürzlich haben wir fortgeschrittenere Programme zur Verarbeitung statistischer Daten (z. B. R) mit ausgefeilteren Visualisierungsmethoden beherrscht. Heute kann jeder eine glatte Kurve für Umfragen erstellen, als verbesserte Option an der Spitze.

Es liegt immer noch eine Verletzung der Skala vor. Das Quelldiagramm streut die Daten breiter als es sollte. In der überarbeiteten Version habe ich zwischen dem Beginn der Skala und dem minimalen Datenpunkt etwas Platz hinzugefügt. Francis Gagnon bietet eine gute Formel für solche Situationen: Lassen Sie mindestens 33% der Fläche unter dem Liniendiagramm frei, die nicht bei Null beginnt.

Diagramme, die verwirrend sind


Kein so schwerwiegendes Verbrechen wie irreführend, aber wenn der Zeitplan schwer zu verstehen ist, ist dies ein Zeichen für schlecht durchgeführte Visualisierungsarbeiten.

Fehler: zu abstruse Diagramme



... was? ( Daten in CSV )

Die Journalisten von The Economist versuchen, den Leser auf gute Weise zu verwirren. Aber manchmal gehen wir zu weit. Die obige Grafik zeigt das US-Handelsdefizit bei Waren und die Anzahl der im verarbeitenden Gewerbe Beschäftigten.

Dieses Diagramm ist unglaublich schwer zu verstehen. Sie hat zwei Hauptprobleme. Erstens sind die Werte einer Serie (Handelsdefizit) vollständig negativ, während andere (Beschäftigung im verarbeitenden Gewerbe) positiv sind. Es ist schwierig, so unterschiedliche Daten in einem Diagramm zu kombinieren. Die offensichtliche „Lösung“ führt zu einem zweiten Problem: Zwei Datenzeilen haben keine gemeinsame Basislinie. Die Basislinie des Handelsdefizits befindet sich am oberen Rand des Diagramms (rot hervorgehoben, verläuft durch die Hälfte des Diagramms). Die Grundlinie der rechten Skala befindet sich unten.

Das überarbeitete Diagramm zeigt, dass die beiden Datenreihen nicht kombiniert werden mussten. Der Zusammenhang zwischen Handelsdefiziten und Beschäftigung im verarbeitenden Gewerbe bleibt klar und nimmt nur wenig mehr Platz ein.

Fehler: Wirren Farben



50 Blautöne ( Daten in CSV )

In dieser Grafik werden die staatlichen Ausgaben für Altersversorgungsleistungen mit dem Anteil der über 65-Jährigen in einer Reihe von Ländern verglichen, wobei Brasilien besonders hervorgehoben wird. Um das Diagramm nicht aufzublasen, hat der Visualizer nur einige Länder signiert und blau hervorgehoben. Der OECD-Durchschnitt ist hellblau hervorgehoben.

Der Visualizer (ich war es!) Ignorierte die Tatsache, dass Farbwechsel oft einen Kategoriewechsel implizieren. Auch hier könnte der Leser eine solche Vorstellung haben, dass alle blauen Länder zu einer anderen Gruppe zu gehören scheinen als die blauen. Es ist nicht so. Der einzige Unterschied ist, dass sie einfach nicht signiert sind.

In der überarbeiteten Version ist die Farbe für alle gleich. Ich habe nur die Intensität für die unterzeichneten Länder geändert. Typografie erledigt den Rest: Brasilien, das Schwerpunktland, ist fett gedruckt, und der OECD-Durchschnitt ist kursiv gedruckt.

Diagramme, die keinen Sinn ergeben


Fehler in dieser letzten Kategorie sind weniger offensichtlich. Solche Diagramme sind nicht irreführend und nicht sehr verwirrend. Sie können ihre Existenz einfach nicht rechtfertigen. Entweder wurden sie falsch erstellt, oder wir haben versucht, zu viele Informationen auf zu kleinem Raum zusammenzufassen.

Fehler: Zu viele Details.



"Je mehr Blumen, desto besser!" ( Daten in CSV )

Ein echter Regenbogen! Wir haben diese Grafik in der Spalte Deutscher Haushaltsüberschuss veröffentlicht. Es zeigt den Haushaltssaldo und den aktuellen Saldo von zehn Ländern im Euroraum. Bei so vielen Farben, von denen einige ziemlich schwer zu unterscheiden oder sogar zu sehen sind, weil die Werte zu klein sind, ist die Bedeutung des Diagramms schwer zu verstehen. Dies blockiert fast das Gehirn und veranlasst den Leser, das Diagramm zu überspringen und weiterzumachen. Und was noch wichtiger ist: Da wir nicht für alle Länder der Eurozone Zahlen angeben, macht es keinen Sinn, Daten hinzuzufügen.

Ich habe den Artikel erneut gelesen, um einen Weg zu finden, das Diagramm zu vereinfachen. Der Text bezieht sich auf Deutschland, Griechenland, die Niederlande, Spanien und die Eurozone. In der überarbeiteten Version des Diagramms habe ich beschlossen, nur diese auszuwählen, und den Rest in die Kategorie „Sonstige“ eingeordnet (der gesamte Leistungsbilanzsaldo im verarbeiteten Diagramm ist aufgrund der Überarbeitung der Eurostat-Daten geringer als im ursprünglichen Diagramm).

Fehler: viele Daten, nicht genügend Speicherplatz



Ich gebe auf ( Daten in CSV )

Aufgrund des begrenzten Platzes auf der Seite sind wir oft versucht, alle Daten in einen zu kleinen Steckplatz zu verschieben. Dies spart zwar wertvollen Platz auf der Seite, hat jedoch Konsequenzen, wie aus dieser Grafik vom März 2017 hervorgeht . Dies ist eine Grafik für einen Artikel, der besagt, dass Männer die Wissenschaft dominieren. Alle Positionen sind gleichermaßen interessant und relevant für den Artikel. Eine solche Datenmenge ist jedoch schwer zu verarbeiten: Hier sind vier Kategorien von Forschungsbereichen sowie der Anteil der Patentautoren in jedem Land aufgeführt.

Nach dem Nachdenken habe ich beschlossen, dieses Diagramm nicht zu ändern. Wenn Sie alle Daten speichern, ist das Diagramm für einen kleinen Artikel zu groß. In solchen Fällen ist es besser, etwas zu schneiden. Alternativ können Sie einen bestimmten Durchschnittsindikator anzeigen: Zum Beispiel den durchschnittlichen Anteil von Artikeln von Frauen in allen Bereichen. (Bitte lassen Sie mich wissen, wenn Sie Ideen haben, wie Sie dies auf engstem Raum visualisieren können!)



Best Practices entwickeln sich rasant: Was heute akzeptabel ist, wird morgen verurteilt. Es erscheinen ständig neue und fortgeschrittenere Methoden. Haben Sie jemals ein „Infografik-Verbrechen“ begangen, das leicht behoben werden kann?

Source: https://habr.com/ru/post/de446880/


All Articles