„Unsere Wissenschaftler haben eine Reihe von Grafiken erstellt, und wir wissen absolut nicht, wo wir sie platzieren sollen. Versuchen wir, sie irgendwie zu befestigen. “ (c) belauscht
„Schlechte Grafik überall. Bei meiner Arbeit stoße ich ständig auf äußerst zweifelhafte Datenvisualisierungen. Niemand macht absichtlich schlechte Grafiken. Aber das passiert gerade. Immer wieder. In jedem Unternehmen in allen Wirtschaftsbereichen Mitarbeiter aller Ebenen. Dies geschieht in den Medien. Dies geschieht dort, wo Sie erwarten, dass Benutzer Daten visualisieren können. “ (c) Autor des Buches
Dies geschieht hier auf
Habré : Wenn ich mir Artikel im Stream „Datenvisualisierung“ ansehe, denke ich oft, dass ich die Essenz dessen, was angezeigt wird, nicht verstehe und nicht erfassen kann. Der Artikel wird einige Beispiele betrachten. Und was für mich am unangenehmsten ist, das passiert auch in meiner Arbeit. Nicht ständig, aber öfter als wir möchten.

Der Titel des Buches, Storytelling with Data, klang überzeugend. Ich wählte es zum abendlichen Lesen und bereute es nicht. Das Buch enthält keine Formeln, gerissenen und ungewöhnlichen Grafiken, komplexe Fälle. Klares Englisch. Qualitätsdruck. Es wird als Fiktion gelesen. Das Buch ist für alle nützlich, die Präsentationen basierend auf Daten erstellen müssen. Ich denke, dass dies denjenigen, die an der Datenanalyse beteiligt sind, besondere Vorteile bringen wird.
Diese Rezension ist sehr informell: Der Autor des Buches, meine Gedanken, Situationen aus meiner Arbeit sowie Matplotlib-Spickzettel für Links sind durcheinander. Es wird viele Bilder geben. Fast alle Illustrationen stammen aus einem Buch in Python.
An der Universität wurde mir Statistik beigebracht, jetzt wird den Studenten maschinelles Lernen beigebracht, Datenschulen von großen Unternehmen sind erschienen. Bisher habe ich jedoch noch nicht gehört, dass Datenanalysten ernsthaft gelehrt werden, anhand von Daten „Geschichten zu erzählen“. Dies ist jedoch ein notwendiger Schritt, um Daten in Informationen und Wissen umzuwandeln. Es ist wichtig, den Kunden qualitativ über die Ergebnisse zu informieren. Und so zu sagen, dass es für ihn klar und unterhaltsam war, dass er sofort etwas im Geschäft verbessern wollte (vielleicht mit unserer Hilfe) und nicht nur sagte: „Na gut, das klingt interessant“ und seine alltäglichen geschäftlichen Angelegenheiten erledigte .
Ein paar Zitate von Habr:
In einem Gespräch mit Jonathan Nolis, einem der führenden Datenanalysten in Seattle, der mit Fortune 500-Unternehmen zusammenarbeitet, haben wir die folgende Frage erörtert: „Welche der beiden Fähigkeiten für einen Datenprofi wichtiger ist, ist die Fähigkeit, komplexe Deep-Modelle zu verwenden Training oder die Fähigkeit, gute Folien in PowerPoint zu zeichnen? “ Nolis sprach sich für Letzteres aus und war der Ansicht, dass eine leicht zugängliche Erklärung der Ergebnisse der Analyse ein Schlüsselelement für die Arbeit mit Informationen bleibt.
Was machen Datenanalysten eigentlich? Ergebnisse aus 35 Interviews
Und hier ist das zweite Zitat über Soft Skills:
- Beginnen wir mit Soft Skills - weil sie nicht ausreichen. Trotz der Tatsache, dass ein Datenwissenschaftler ein technischer Beruf ist, ist es äußerst wichtig, das Ergebnis Ihrer Arbeit korrekt / schön präsentieren zu können. Grob gesagt, wie ein iPhone - er hat nicht nur die Füllung, sondern auch das Aussehen, die Verpackung und die Geschichte gut. Die Leute müssen lernen, wie sie ihre Ergebnisse präsentieren können: Blog-Beiträge schreiben, sprechen, Code teilen. Die besten Datenwissenschaftler verstehen dies sehr gut und tun dies auch. Andernfalls können Sie in Ihrem Loch stecken bleiben und selbst bei einem coolen Ergebnis unbemerkt bleiben.
„Es fällt mir schwer, die Motivation eines Datenwissenschaftlers zu verstehen, der Schönheit in der Mathematik nicht sieht“ - Kirill Danilyuk, Datenwissenschaftler
Einführung
Das Buch beginnt mit Beispielen für die Umwandlung fehlgeschlagener Visualisierungen in verständliche. Hier ist einer von ihnen.
Es war:

Es wurde:
Jupyter Notebook auf GitHubWenn im ersten Fall meine Reaktion auf das Diagramm lautete: „Was ist das?“, Dann dauerte es im zweiten Fall einige Sekunden, um die Essenz der Informationen zu erfassen und dann auf die Details einzugehen.
Fast jede Visualisierung für eine Präsentation ist ein Stück Arbeit. Ich erstelle Diagramme mit matplotlib und der Autor des Buches verwendet Excel. Um die Arbeit in Zukunft zu erleichtern, habe ich selbst die Erstellung einiger Grafiken aus einem Buch in Python realisiert. Der Code enthält eine Reihe von "Datei-Tuning" (Feinabstimmung). Es stellte sich heraus, dass es sich um eine Art Spickzettel mit Kommentaren handelte. Hier erhältlich.
Werfen wir einen kurzen Blick auf den Inhalt der Teile des Buches.
Teil 1: Die Bedeutung des Kontexts
Erkundung gegen Erklärung. Datenanalyse ist wie die Suche nach Perlen: Manchmal müssen Sie 100 Austern öffnen (100 Hypothesen testen), um ein Perlenpaar zu finden. Dabei visualisieren wir die Daten für uns. Wenn es darum geht, über die Ergebnisse zu sprechen, besteht sehr oft der Wunsch, dieselben Grafiken zu verwenden und über alle geleisteten Arbeiten zu sprechen: „Öffnen Sie die erste Auster. Es ist leer. Aber es ist okay, wir haben noch 99 Austern übrig. Wir öffnen die zweite. " Keine Notwendigkeit, dies zu tun. Es ist notwendig, die
explorative Analyse von der
erklärenden zu trennen. In der Phase der erklärenden Analyse ist es notwendig, die Zeit festzulegen, denn es ist notwendig, je nach Kontext andere Visualisierungen vorzunehmen: an wen, was und wie.
Eines der interessanten Beispiele, bei denen ich eine erklärende Analyse anstelle einer Forschungsanalyse sehen möchte, ist der Artikel „
Analyse der Artikel von Habrahabr und Geektimes “. Der Autor gab eine Reihe von Grafiken und Tabellen heraus, aber ich sah keine Schlussfolgerungen daraus. Es wäre sehr interessant zu wissen, wann Artikel veröffentlicht werden müssen, um maximale Ansichten zu erhalten. Nach einem Zeitplan ist dies Sonntag, nach einem anderen Zeitplan - 6 Uhr morgens. Aber wird Sonntag 6 Uhr ein guter Zeitpunkt für die Veröffentlichung sein? Nicht sicher. Einer der Kommentare:
Zu. Es ist offensichtlich, dass Inhalt und Detail vom Publikum abhängen. Aber hier kann man vermissen. Einmal sagte mir einer der verärgerten Zuhörer: „10 Ingenieure sitzen vor Ihnen, die den größten Teil ihres Lebens an der Ölförderung gearbeitet haben, und Sie haben uns 20 Minuten lang erklärt, wie man die Produktionsrückgangskurven analysiert? !!” Und es ist gut, dass er das gesagt hat, da ich noch 20 Minuten lang ähnliche Inhalte hatte.
Was. Ein Gedanke, der mir nicht klar ist. Es ist wichtig, klar anzugeben, welche Aktionen Sie von Ihrem Publikum erwarten. Um beispielsweise weitere 10 Mio. Rubel zuzuweisen, 5 Entwickler einzustellen, die Abteilung zu reduzieren, die Temperatur im Kessel auf 700 ° C zu erhöhen und das Projekt zur Prognose der Betriebsverschuldung zu starten. Das ist unangenehm. Es besteht immer das Gefühl, dass das "Geschäft" es viel besser weiß, und es ist beängstigend, ein verrücktes Angebot zu machen. Aber wenn das Publikum nicht verstanden hat, was es tatsächlich von ihr will, kann und wird sich alles auf den angehörten Bericht beschränken. Sie hören zu, sagen Danke und machen ihre Geschäfte weiter.
"Business" weiß es wahrscheinlich besser, aber das "Business" kann sich derzeit mit ganz anderen Dingen beschäftigen: Die Anlage brennt oder Hacker haben einen Teil der historischen Daten unwiderruflich von den Sensoren gelöscht. (All dies sind reale Situationen). Verhalten Sie sich als Experte auf dem Gebiet: Sie haben die Daten analysiert und den Prozess von innen betrachtet. In jedem Fall kann selbst ein fehlerhafter Vorschlag zu einer konstruktiven Diskussion führen.
Vor kurzem habe ich für einen der Kunden großartige Arbeit geleistet: Ich habe 3 Jahre lang Daten aus verschiedenen Quellen analysiert. Er stellte die Funde in mehreren umfangreichen Excel-Tabellen und Word-Dokumenten zusammen, schickte sie per E-Mail und hoffte, dass mehrere Projekte gestartet würden. Als Antwort erhielt er: "Ja, es ist sehr interessant!". Und alle. Jetzt verstehe ich, dass es keine andere Antwort geben konnte.
Wie. Präsentationsdiagramme unterscheiden sich von Buchstabendiagrammen. Im ersten Fall sehen wir die Reaktion des Publikums, jederzeit können wir Fragen beantworten, Erklärungen abgeben. Daher sollte der Detaillierungsgrad in den Diagrammen für Buchstaben höher sein.
Teil 2: Auswählen einer effektiven Visualisierung
Der Autor bietet eine Liste guter Möglichkeiten zur Visualisierung von Daten. Von für mich ungewöhnlich: Visualisierung mit einfachem Text und Slopegraphs.
Einfacher Text. Wenn etwas in einer Ziffer ausgedrückt werden kann, wird der Zeitplan möglicherweise nicht benötigt.
Jupyter Notebook auf GitHubVor kurzem habe ich diese Idee genutzt, um ein Projekt zur Überwachung und Prognose von Siedlungen mit Agenten vorzustellen: "
7.000.000 Rubel akkumulierter
Schulden zum Zeitpunkt der Insolvenz eines Agenten." Der Effekt war wunderbar, das Publikum stimmte sofort richtig ein.
Steigungsdiagramm. Es war einmal, ich habe parallele Diagramme von SAS JMP verwendet. Ähnliches. Leider gibt es in vielen Umgebungen keine solche Visualisierungsmethode, aber sie ist ideal für den Vergleich mehrerer Faktoren:
Jupyter Notebook auf GitHubKürzlich gab es auf Habré einen Artikel "
Die besten Arbeitgeber in der IT: Die ersten Ergebnisse des Service von Schätzungen zu" My Circle " ". Es gab eine Zeitleiste, die zu einer Diskussion in den Kommentaren führte:

Kleine Unternehmen werden im Durchschnitt in fast jeder Hinsicht höher bewertet als große Unternehmen. Ich habe mich gefragt, aber macht es Sinn, von einem durchschnittlichen kleinen Unternehmen zu einem guten großen zu wechseln? Das Ergebnis des Vergleichs anhand des Steigungsdiagramms:
Schlechte Visualisierungsmethoden. Der Autor des Buches warnt vor der Verwendung von Torten und Donut-Diagrammen und rät außerdem, niemals 3D zu verwenden.
Kreisdiagramme. Ich weiß selbst: Wenn ich ein Kreisdiagramm sehe, suche ich sofort nach Zahlen (Prozent). Und wenn es keine Zahlen gibt, überspringen Sie es einfach. Es ist schwierig für Menschen, Winkel ohne Winkelmesser zu vergleichen. Das einzige, was beim Verschieben aus einem Kreisdiagramm verloren geht, ist die Visualisierung der Tatsache, dass alle Teile zusammen ein einziges Ganzes bilden (100%). Wenn das Kreisdiagramm insgesamt jedoch nicht funktioniert, ist dies nicht mehr wichtig.
Donut-Charts. Noch schlimmer als kreisförmig, denn anstatt Winkel zu vergleichen, müssen Sie die Längen der Bögen vergleichen.
3D Einige Beispiele aus Excel.
Was denkst du ist gleich D?

Darüber hinaus müssen Sie mit Ihrem Finger einen Wert von 35 verfolgen (es ist schwierig, mit den Augen eine Kurve zu machen), sodass 35 nicht korrekt ist. Der richtige Wert ist 40!
3D kombiniert mit Kreisdiagrammen wirkt im Allgemeinen Wunder. Wie ist C größer als B? Zumindest ungefähr?

Tatsächlich ist C 5% kleiner als B und sie sind 30% bzw. 35%! Verwenden Sie nur kein 3D, um Daten zu visualisieren.
Teil 3: Müll ist dein Feind!
Jedes Element in der Grafik trägt eine kognitive Belastung. Je höher das Signal-Rausch-Verhältnis der Visualisierung ist, desto besser. Natürlich nicht zum Nachteil der Verständlichkeit. Zusätzliche Elemente machen das Diagramm auf den ersten Blick optisch viel komplizierter als es tatsächlich ist. Infolgedessen beschließt ein Teil des Publikums, sich nicht anzustrengen und Zeit zu investieren, um die Visualisierung zu verstehen. Bei Habré passiert mir oft: "Oh! Diese Grafik scheint interessant zu sein, ist aber irgendwie zu kompliziert. Vielleicht hinterlasse ich ein Lesezeichen und werde es beim nächsten Mal verstehen. " Autoren von Artikeln über Habré verlieren nichts von einer solchen Entscheidung. Aber ein potenzieller Kunde, Investor, Angestellter oder Arbeitgeber hätte an meiner Stelle erscheinen können.
Der Autor des Buches erklärt, was in den Grafiken Müll ist und wie man damit umgeht. Geben Sie nur ein Beispiel.
Es war:

Trotz der Tatsache, dass die Grafik einen sehr einfachen „Fund“ darstellt, ist mein erster Gedanke: „Äh?“. Das Gehirn weigert sich, Kraft zu verschwenden, um in die Informationen einzutauchen.
Es wurde:
Jupyter Notebook auf GitHubDas Gehirn gerät nicht mehr in Panik. Es bestand der Wunsch zu verstehen.
Teil 4: Konzentrieren Sie Ihr Publikum
Eine kleine Übung. Zählen Sie die Anzahl der Ziffern „3“ im folgenden Bild.

Ich würde diese Aufgabe definitiv nicht erledigen, höchstwahrscheinlich haben Sie es auch nicht getan. Die einzige Möglichkeit, für einen normalen Menschen (kein Genie) aufzutreten, besteht darin, alle Zahlen in einer Reihe von oben nach unten von links nach rechts zu betrachten. Die richtige Antwort ist 6.
Schauen Sie sich nun das folgende Bild an. Wie viel einfacher ist es jetzt, die Aufgabe zu erledigen:

Studien zufolge entscheidet eine Person innerhalb von 8 bis 10 Sekunden nach dem Anzeigen des Diagramms, ob sie mehr Zeit verbringen soll oder ob es besser ist, ihre Aufmerksamkeit auf etwas anderes zu richten. Diagramme ohne aufmerksamkeitsstarke Attribute ähneln dem ersten Bild. Höchstwahrscheinlich ist das Publikum zu faul, um es zu verstehen, und nach 8 Sekunden verliert es das Interesse, ohne Informationen erhalten zu haben. Wenn das Diagramm wie ein zweites Bild aussieht, erfasst das Publikum die ausgewählten Informationen auf einen Blick. Schneller als es merkt. Und selbst wenn die Leser nach 8 Sekunden ihre Aufmerksamkeit auf etwas anderes lenken, wird der wichtigste Teil der Informationen empfangen.
Die einzige Möglichkeit, Informationen aus dieser Tabelle zu erhalten, besteht darin, sie vollständig zu lesen:

Der überarbeitete Zeitplan macht das Publikum sofort auf einen bestimmten „Fund“ aufmerksam: Mit Schalldämmung muss etwas getan werden.
Jupyter Notebook auf GitHubTeil 5: Denken Sie wie ein Designer
Designer sind für mich Menschen, die schöne Bilder malen. Ich bin kein Designer, ich habe nie schöne Bilder bekommen. Glücklicherweise ist die Datenvisualisierung einfacher. Es ist notwendig, Grafiken unter Berücksichtigung der folgenden Punkte zu entwickeln: Erschwinglichkeit,
Zugänglichkeit und Ästhetik.
Möglichkeiten. Wenn wir die Schneiderschere nehmen, wird sofort klar, wo der Daumen platziert werden soll und wo - ein paar andere Finger. Auch bei Zeitplänen: Das Publikum sollte sofort verstehen, wo es suchen und was mit diesem Zeitplan zu tun ist. Dafür:
- Markieren Sie wichtige Punkte. Es wird empfohlen, nicht mehr als 10% der Visualisierungselemente auszuwählen, da sonst der Effekt verloren geht. "Es ist leicht, Falken unter Tauben zu finden, aber es wird immer schwieriger, wenn es mehr Vogelarten gibt."
- Beseitigen Sie Ablenkungen. „Perfektion wird nicht erreicht, wenn nichts hinzugefügt werden muss, sondern wenn nichts entfernt werden muss“, - Antoine de Saint-Exupery.
a. Nicht alle Daten sind gleich wichtig. Befreien Sie sich von unkritischen Komponenten.
b. Wenn Teile nicht benötigt werden, aggregieren Sie.
c. Fragen Sie sich regelmäßig: Wenn dies weggeworfen wird, wird sich etwas ändern? Ändert sich nicht - wirf es weg.
d. Senden Sie Hintergrundelemente in den Hintergrund. Verwenden Sie dazu eine graue Farbe. - Erstellen Sie eine klare Hierarchie von Informationen. Zeigen Sie Ihrem Publikum mithilfe verschiedener Attribute, die Aufmerksamkeit erregen, die Reihenfolge, in der es Informationen erhalten muss. Zum Beispiel wie in der folgenden Grafik:
Jupyter Notebook auf GitHubVerfügbarkeit Das Konzept der Barrierefreiheit legt nahe, dass Design für Menschen mit unterschiedlichen Fähigkeiten geeignet sein sollte. Dies schließt Personen mit unterschiedlichen Erfahrungen, Kenntnissen, technischen Fähigkeiten und dem Grad der Beteiligung am Fachgebiet ein. Sie können Ingenieur sein, benötigen jedoch kein Publikum mit höherer technischer Ausbildung, um Ihre Zeitpläne zu verstehen:
- Nicht zu kompliziert. Verwenden Sie nach Möglichkeit visuell saubere Schriftarten (Arial), klare Wörter und kurze Sätze.
- Text ist dein Freund. Das Diagramm sollte mindestens einen Titel und Achsnamen haben. Mal sehen, wie einfacher Text die Wahrnehmung einer Grafik verändern kann:
Kein Text
Worum geht es in dieser Tabelle?

Erforderlicher Mindesttext
Es zeichnet sich etwas ab: Es gibt einige Anträge, die seit Mai weniger bearbeitet als eingegangen sind.

Viel Text
Jetzt ist alles klar: Die Leute sind weg, das Team kommt nicht zurecht, es müssen zwei weitere Spezialisten eingestellt werden.
Jupyter Notebook auf GitHubÄsthetik. Kürzlich gab es auf Habré einen Artikel "
Visualisierung von Kommentaren von YouTube-Kanälen der internationalen und lokalen Touhou-Communitys ". Ehrlich gesagt verstehe ich immer noch nicht, warum ich es brauche und welche Informationen ich überhaupt aus den Grafiken erhalten kann ... Aber wie schön sie sind! Ich sah es mit Vergnügen an (ohne etwas zu verstehen). Wenn Sie zusätzliche Zeit und Mühe in die Ästhetik Ihrer Zeitpläne investieren, erhöhen Sie die Wahrscheinlichkeit, dass das Publikum geduldiger und aufmerksamer ist. Dementsprechend besteht die Möglichkeit, dass das Publikum versteht, was Sie vermitteln möchten.
Dafür:
- Verwenden Sie Farbe mit Bedacht.
- Achten Sie auf die Ausrichtung.
- Machen Sie mehr Leerzeichen (Leerzeichen).
Ein Beispiel dafür, wie Sie ein Diagramm in ein ästhetisches Erscheinungsbild bringen:
War

Ist geworden
Jupyter Notebook auf GitHubTeil 6: Kritische Analyse von Visualisierungen
Der Autor gibt 5 Beispiele für gute Visualisierungen und untersucht im Detail, warum sie so erstellt wurden.
Mir hat dieses Beispiel gefallen:
Jupyter Notebook auf GitHub- Eine ausgeprägte visuelle Hierarchie: Wir lesen die Überschrift, gehen zu den fetten Zahlen, von ihnen gehen wir von rechts nach links zum Text "Unbefriedigter Bedarf (Lücke)". In wenigen Sekunden begreifen wir: Wenn nichts getan wird, steigt der unerfüllte Bedarf.
- Aus "Unbefriedigter Bedarf (Lücke)" lesen wir alle Etiketten. Wir verstehen, wo die Direktoren und die Hauptquellen der neuen Direktoren verloren gehen, weil die Spalten direkt signiert sind.
- Sehr interessante Idee von negativen Spalten.
Teil 7: Erzählstunden
Eine gute Geschichte ist aufregend. Basierend auf den Erfahrungen aus Literatur und Kino zeigt der Autor, wie man anhand von Daten interessante Geschichten erzählt. Einer der Tipps: Schreiben Sie vor der Vorbereitung der Präsentation eine „große Idee“ (drücken Sie die Hauptgedanken in einem Satz aus) und eine „dreiminütige Geschichte“ (beschreiben Sie die wichtigsten Ergebnisse auf einer halben Seite des Textes).
Jede Geschichte besteht aus 3 Hauptteilen: Anfang, Mitte und Ende.
- Starten Sie. Zeigt ein Problem an. Wenn es kein klares Problem gibt, wird möglicherweise auch keine Präsentation benötigt. "Warum sollte mich das interessieren?"
- Die Mitte . Zeigt, wie das Problem gelöst werden kann. "Warum kann ich die vorgeschlagene Entscheidung treffen?"
- Das Ende. Ein Aufruf zum Handeln. "Was muss ich jetzt tun, um das Problem zu lösen?"
Es gibt zwei Hauptstrategien zum Erzählen von Geschichten:
1. In chronologischer Reihenfolge:
a. Identifizierte das Problem
b. Gesammelte Daten, um die Situation besser zu verstehen.
c. Wir haben die Daten analysiert (die Situation aus verschiedenen Blickwinkeln untersucht, andere Faktoren berücksichtigt)
d. Eine Lösung gefunden
e. Aus diesem Grund empfehlen wir Ihnen, die folgenden Maßnahmen zu ergreifen
2. Beginnen Sie am Ende:
a. Empfohlen, so und so zu tun
b. Wir unterstützen diese Empfehlung mit Daten.
Teil 8: Alles zusammenfügen
Der Autor führt den Leser durch ein Beispiel durch alle Schritte und Lektionen des Buches:
- Zeigt einen schlechten Zeitplan,
- Beschreibt den Präsentationskontext.
- Wählt eine gute Visualisierungsmethode,
- Entfernt den gesamten Müll
- Legt fest, wo die Aufmerksamkeit des Publikums konzentriert werden soll, und verwendet dafür anziehende Attribute.
- Führt den Zeitplan zu einem ästhetischen Look,
- Bereitet eine vollständige Präsentation vor.
Und Sie können das Beispiel im Buch sehen. Ich empfehle es zu lesen.