«Storytelling with Data», par Cole Nussbaumer Knaflic: un recueil informel de livres

«Nos scientifiques ont généré un tas de graphiques, et nous ne savons absolument pas où les mettre. Essayons de les attacher en quelque sorte. " (c) entendu

«Mauvais graphismes partout. Dans mon travail, je rencontre constamment des visualisations de données extrêmement douteuses. Personne ne fait intentionnellement de mauvais graphiques. Mais cela se produit. Encore et encore. Dans chaque entreprise de tous les secteurs de l'économie, des employés de tous niveaux. Cela se passe dans les médias. Cela se produit là où vous vous attendez à ce que les gens puissent visualiser les données. » (c) auteur du livre

Cela se passe ici, sur Habré : en regardant les articles du flux «Visualisation des données», je me retrouve souvent à penser que je ne comprends pas et ne saisis pas l'essence de ce qui est affiché. L'article examinera quelques exemples. Et ce qui est le plus désagréable pour moi, cela arrive aussi dans mon travail. Pas constamment, mais plus souvent que nous le souhaiterions.



Le titre du livre, Storytelling with Data, semblait convaincant. Je l'ai choisi pour la lecture du soir et je ne l'ai pas regretté. Le livre n'a pas de formules, de graphiques rusés et inhabituels, de cas complexes. Anglais clair. Impression de qualité. Il est lu comme une fiction. Le livre sera utile à tous ceux qui doivent faire des présentations basées sur des données. Je pense que cela apportera un avantage particulier à ceux qui sont impliqués dans l'analyse de données.

Cette critique est très informelle: l'auteur du livre, mes pensées, les situations de mon travail, ainsi que les feuilles de triche matplotlib pour les liens sont mélangés. Il y aura beaucoup de photos. Presque toutes les illustrations sont redessinées à partir d'un livre en Python.

On m'a enseigné les statistiques à l'université, maintenant les étudiants apprennent l'apprentissage automatique, des écoles de données de grandes entreprises sont apparues. Mais jusqu'à présent, je n'ai pas entendu dire que les analystes de données apprennent sérieusement à «raconter des histoires» à partir de données. Mais c'est une étape nécessaire pour transformer les données en informations et en connaissances. Il est important d'informer le client des résultats de manière qualitative. Et dire de telle manière que c'était clair et divertissant pour lui, qu'il voulait immédiatement améliorer quelque chose dans les affaires (peut-être avec notre aide), et ne s'est pas contenté de dire: "Eh bien, ok, ça semble intéressant" et est allé faire ses affaires quotidiennes .

Quelques citations de Habr:
Dans une conversation avec Jonathan Nolis, l'un des principaux analystes de données de Seattle qui travaille avec des sociétés du Fortune 500, nous avons discuté de la question suivante: «Laquelle des deux compétences est la plus importante pour un professionnel des données est la capacité d'utiliser des modèles complexes de formation ou la capacité de dessiner de bonnes diapositives dans PowerPoint? " Nolis a plaidé en faveur de ce dernier, estimant qu'une explication accessible des résultats de l'analyse reste un élément clé du travail avec l'information.
Que font réellement les analystes de données? Résultats de 35 entretiens
Et voici la deuxième citation sur les compétences générales:
- Commençons par les compétences générales - car elles ne suffisent pas. Malgré le fait qu'un data scientist soit un métier technique, il est extrêmement important de pouvoir présenter correctement / magnifiquement le résultat de votre travail. En gros, comme un iPhone, il a non seulement une bonne garniture, mais aussi l'apparence, l'emballage, l'histoire. Les gens doivent apprendre à présenter leurs résultats: écrire des articles de blog, parler, partager du code. Les meilleurs scientifiques des données le comprennent très bien, et ils le font. Sinon, vous pouvez rester coincé dans votre trou, et même avec un résultat cool, passer inaperçu.
«Il est difficile pour moi de comprendre la motivation d'un data scientist qui ne voit pas la beauté dans les mathématiques» - Kirill Danilyuk, Data Scientist

Présentation


Le livre commence par des exemples de transformation de visualisations défaillantes en visualisations compréhensibles. En voici un.

C'était:




C'est devenu:




Cahier Jupyter sur GitHub

Si dans le premier cas ma réaction au tableau était: «Qu'est-ce que c'est?», Dans le second cas, il a fallu quelques secondes pour saisir l'essence de l'information, puis entrer dans les détails.

Presque chaque visualisation pour une présentation est un travail. Je construis des graphiques en utilisant matplotlib, et l'auteur du livre utilise Excel. Pour faciliter le travail à l'avenir, j'ai réalisé par moi-même la génération de quelques graphiques à partir d'un livre en Python. Le code contient un tas de "réglage de fichier" (réglage fin). Il s'est avéré une sorte de triche avec des commentaires. Disponible ici .

Jetons un rapide coup d'œil au contenu des parties du livre.

Partie 1: L'importance du contexte


Exploratoire vs explicatif. L'analyse des données, c'est comme chercher des perles: il faut parfois ouvrir 100 huîtres (tester 100 hypothèses) pour trouver une paire de perles. Dans le cadre d'un tel travail, nous visualisons les données pour nous-mêmes. Quand vient le temps de parler des résultats, très souvent, on souhaite utiliser les mêmes graphiques et parler de tout le travail effectué: «Ouvrez la première huître. C'est vide. Mais ça va, il nous reste 99 huîtres. Nous ouvrons le second. " Pas besoin de faire ça. Il est nécessaire de séparer l' analyse exploratoire de l' explicatif . Au stade de l'analyse explicative, il faut prévoir le temps, car il faut faire d'autres visualisations selon le contexte: à qui, quoi et comment.

Un des exemples intéressants où j'aimerais voir une analyse explicative au lieu d'une recherche est l'article « Analyse des articles de Habrahabr et Geektimes ». L'auteur a donné un tas de graphiques et de tableaux, mais je n'en ai vu aucune conclusion. Il serait très intéressant de savoir quand publier des articles afin d'obtenir un maximum de vues. Selon un horaire, c'est dimanche, selon un autre horaire - 6 heures du matin. Mais le dimanche 6 h sera-t-il un bon moment pour publier? Pas sûr. Un des commentaires:



À. Il est évident que le contenu et les détails dépendent du public. Mais ici, vous pouvez manquer. Une fois, l'un des auditeurs agacés m'a dit: "10 ingénieurs sont assis devant vous, qui ont travaillé sur la production de pétrole pendant la majeure partie de leur vie, et vous nous avez dit comment analyser les courbes de déclin de la production pendant 20 minutes? !!" Et c'est bien qu'il ait dit cela, car j'ai eu un contenu similaire pendant encore 20 minutes.

Quoi. Une pensée qui ne m'est pas évidente. Il est important d'indiquer clairement les actions que vous attendez de votre audience. Par exemple, pour allouer 10 millions de roubles supplémentaires, embaucher 5 développeurs, réduire le département, augmenter la température de la chaudière à 700 ° C, démarrer le projet de prévision de la dette opérationnelle. C'est inconfortable. On a toujours le sentiment que le «business» sait beaucoup mieux, et c'est effrayant de faire une offre folle. Mais si le public n'a pas compris ce qu'il attend en fait d'elle, alors tout peut et sera limité au rapport écouté. Ils écoutent, remercient et poursuivent leurs activités.

"Business" sait probablement mieux, mais le "business" en ce moment peut être occupé avec des choses complètement différentes: l'usine est en feu ou les pirates ont effacé irrévocablement une partie des données historiques des capteurs. (Ce sont toutes des situations réelles). Comportez-vous comme un expert dans le domaine: vous avez analysé les données, regardé le processus de l'intérieur. En tout état de cause, même une proposition erronée peut donner lieu à une discussion constructive.

Récemment, j'ai fait un excellent travail pour l'un des clients: j'ai analysé les données pendant 3 ans à partir de plusieurs sources. Il a compilé les découvertes dans plusieurs tableaux Excel volumineux et documents Word, les a envoyés par e-mail, espérant que plusieurs projets seraient lancés. En réponse, il a reçu: "Oui, c'est très intéressant!". Et c'est tout. Maintenant, je comprends qu'il ne pourrait pas y avoir d'autre réponse.

Comment. Les graphiques de présentation sont différents des graphiques à lettres. Dans le premier cas, nous voyons la réaction du public, à tout moment nous pouvons répondre à des questions, donner des explications. Par conséquent, le niveau de détail dans les graphiques pour les lettres devrait être plus élevé.

Partie 2: Choisir une visualisation efficace


L'auteur fournit une liste de bonnes façons de visualiser les données. D'inhabituel pour moi: visualisation à l'aide de texte simple et de slopegraphs.

Texte simple. Si quelque chose peut être exprimé en un chiffre, le programme peut ne pas être nécessaire.


Cahier Jupyter sur GitHub

Récemment, j'ai utilisé cette idée pour présenter un projet de suivi et de prévision des règlements avec les agents: " 7 000 000 de roubles de dette accumulée au moment de la faillite d'un agent". L'effet était merveilleux, le public a immédiatement réglé dans le bon sens.

Tableau des pentes. Il était une fois, j'ai utilisé des tracés parallèles de SAS JMP. Quelque chose de similaire. Malheureusement, dans de nombreux environnements, il n'existe pas une telle méthode de visualisation, mais elle est idéale pour la comparaison multifactorielle:


Cahier Jupyter sur GitHub

Récemment sur Habré il y avait un article " Les meilleurs employeurs en informatique: les premiers résultats du service de notes sur" Mon Cercle ". Il y avait un calendrier qui a conduit à une discussion dans les commentaires:



Les petites entreprises en moyenne à presque tous les égards sont mieux notées que les grandes entreprises. Je me demandais, mais est-il judicieux de passer d'une petite entreprise moyenne à une bonne grande? Le résultat de la comparaison à l'aide du graphique de pente:



Mauvaises méthodes de visualisation. L'auteur du livre met en garde contre l'utilisation de la tarte, des diagrammes en anneau et conseille également de ne jamais utiliser la 3D.

Graphiques à secteurs. Je le sais par moi-même: quand je vois un graphique à secteurs, je commence immédiatement à chercher des chiffres (en pourcentage) dessus. Et s'il n'y a pas de chiffres, sautez-le. Il est difficile pour les gens de comparer des angles sans rapporteur. La seule chose qui se perd lors du passage d'un graphique à secteurs est une visualisation du fait que toutes les parties ensemble forment un seul ensemble (100%). Mais si le graphique à secteurs dans son ensemble ne fonctionne pas, ce n'est plus important.

Graphiques en beignet. Encore pire que circulaire, car au lieu de comparer les angles, vous devez comparer les longueurs des arcs.

3D Quelques exemples réalisés à l'aide d'Excel.

Que pensez-vous est égal à D?



Non seulement cela, vous devez tracer avec votre doigt une valeur de 35 (il est difficile de faire un tour avec vos yeux), donc 35 n'est pas correct. La valeur correcte est 40!

La 3D combinée avec des camemberts fait des merveilles en général. Comment C est supérieur à B? Au moins environ?



En fait, C est 5% de moins que B et ils sont respectivement 30% et 35%! N'utilisez simplement pas la 3D pour visualiser les données.

Partie 3: Trash est votre ennemi!


Chaque élément du graphique porte une charge cognitive. Plus le rapport signal / bruit de la visualisation est élevé, mieux c'est. Pas au détriment de la compréhensibilité, bien sûr. Des éléments supplémentaires rendent le graphique à première vue visuellement beaucoup plus compliqué qu'il ne l'est réellement. En conséquence, une partie du public décide de ne pas faire d'effort et de passer du temps à comprendre la visualisation. Cela m’arrive souvent sur Habré: "Oh! Ce graphique semble intéressant, mais il est en quelque sorte trop compliqué. Je laisserai peut-être un signet et je comprendrai la prochaine fois. " Les auteurs d'articles sur Habré ne perdent rien de cette décision. Mais un client, un investisseur, un employé ou un employeur potentiel aurait pu apparaître à ma place.

L'auteur du livre explique ce que sont les ordures sur les graphiques et comment y faire face. Donnez juste un exemple.

C'était:




Malgré le fait que le graphique visualise une «recherche» très simple, ma première pensée est: «Euh?». Le cerveau refuse de gaspiller ses forces pour fouiller dans l'information.

C'est devenu:



Cahier Jupyter sur GitHub

Le cerveau ne panique plus. Il y avait un désir de comprendre.

Partie 4: Concentrez votre public


Un peu d'exercice. Comptez le nombre de chiffres «3» dans l'image suivante.



Je ne ferais certainement pas cette tâche, vous ne l'avez probablement pas fait non plus. La seule façon de jouer pour une personne ordinaire (pas un génie) est de regarder tous les chiffres d'affilée de haut en bas de gauche à droite. La bonne réponse est 6.

Regardez maintenant l'image suivante. Combien plus facile maintenant de terminer la tâche:



Selon les études, une personne en 8 à 10 secondes de visualisation du graphique décide s'il doit passer plus de temps ou s'il est préférable de tourner son attention vers autre chose. Les graphiques sans attributs qui attirent l'attention sont similaires à la première image. Très probablement, le public sera trop paresseux pour comprendre, et après 8 secondes, il perdra tout intérêt, sans avoir reçu aucune information. Si le graphique ressemble à une deuxième image, le public saisit les informations sélectionnées en un coup d'œil. Plus vite qu'il ne le pense. Et même si après 8 secondes les lecteurs tournent leur attention vers autre chose, la partie la plus importante de l'information sera reçue.

La seule façon d'obtenir des informations de ce tableau est de le lire en entier:



L'horaire révisé attire immédiatement l'attention du public sur une «trouvaille» spécifique: quelque chose doit être fait avec une isolation acoustique.


Cahier Jupyter sur GitHub

Partie 5: Penser comme un designer


Pour moi, les designers sont des gens qui peignent de belles images. Je ne suis pas designer, je n'ai jamais eu de belles photos. Heureusement, la visualisation des données est plus facile. Il est nécessaire de développer des graphismes en tenant compte des points suivants: abordabilité, accessibilité et esthétique.

Opportunités. Lorsque nous prenons les ciseaux du tailleur, il devient immédiatement clair où mettre le pouce et où - quelques autres doigts. Avec les horaires également: le public doit immédiatement comprendre où chercher et quoi faire avec cet horaire. Pour ce faire:

  1. Soulignez les points importants. Il est recommandé de ne pas sélectionner plus de 10% des éléments de visualisation, sinon l'effet est perdu. "Il est facile de trouver des faucons parmi les pigeons, mais cela devient de plus en plus difficile quand il y a plus d'espèces d'oiseaux."
  2. Éliminez les distractions. «La perfection n'est pas atteinte quand il n'y a rien à ajouter, mais quand il n'y a rien à supprimer», - Antoine de Saint-Exupéry.
    a. Toutes les données ne sont pas également importantes. Débarrassez-vous des composants non critiques.
    b. Lorsque les pièces ne sont pas nécessaires, agréger.
    c. Demandez-vous périodiquement: si cela est jeté, est-ce que quelque chose changera? Ne change pas - jetez-le.
    d. Envoyez des éléments d'arrière-plan à l'arrière-plan. Utilisez une couleur grise pour cela.
  3. Créez une hiérarchie claire des informations. En utilisant différents attributs qui attirent l'attention, montrez à votre public la séquence dans laquelle il doit recevoir des informations. Par exemple, comme dans le graphique suivant:


Cahier Jupyter sur GitHub

La disponibilité Le concept d'accessibilité suggère que la conception devrait convenir aux personnes ayant des capacités différentes. Cela inclut des personnes ayant une expérience, des connaissances, des compétences techniques et un degré d'implication différents dans le domaine. Vous pouvez être ingénieur, mais n'avez pas besoin d'un public de l'enseignement technique supérieur pour comprendre vos horaires:

  1. Ne compliquez pas trop. Si possible, utilisez des polices visuellement propres (Arial), des mots clairs, des phrases courtes.
  2. Le texte est votre ami. Au minimum, le graphique doit avoir un titre et un nom d'axe. Voyons comment un texte simple peut changer la perception d'un graphique:

Pas de texte


De quoi parle ce tableau?



Texte minimum requis


Quelque chose commence à être tiré: certaines demandes ont été traitées moins que reçues depuis mai.



Beaucoup de texte


Maintenant tout est clair: les gens sont partis, l'équipe ne s'en sort pas, il faut engager deux autres spécialistes.



Cahier Jupyter sur GitHub

Esthétique. Récemment, sur Habré, il y avait un article " Visualisation des commentaires des chaînes YouTube des communautés touhou internationales et locales ". Honnêtement, je ne comprends toujours pas pourquoi j'en ai besoin et quelles informations je peux obtenir des graphiques ... Mais comme ils sont beaux! Je l'ai regardé avec plaisir (sans rien comprendre). En consacrant plus de temps et d'efforts à l'esthétique de vos horaires, vous augmentez les chances que le public soit plus patient et attentif à leur égard. Par conséquent, il est probable que le public comprendra ce que vous souhaitez transmettre.

Pour ce faire:

  1. Utilisez la couleur à bon escient.
  2. Faites attention à l'alignement.
  3. Faites plus d'espaces (espaces vides).

Un exemple de la façon de mettre un graphique dans un look esthétique:

Était




Est devenu



Cahier Jupyter sur GitHub

Partie 6: Analyse critique des visualisations


L'auteur donne 5 exemples de bonnes visualisations et examine en détail pourquoi elles sont faites de cette façon.

J'ai aimé cet exemple:


Cahier Jupyter sur GitHub

  1. Une hiérarchie visuelle distincte: on lit l'en-tête, on passe aux chiffres en gras, on passe de droite à gauche au texte "Besoin non satisfait (écart)". En quelques secondes, nous comprenons: si rien n'est fait, le besoin non satisfait augmentera.
  2. Dans "Besoin non satisfait (écart)", nous lisons toutes les étiquettes. Nous comprenons où les administrateurs et les principales sources des nouveaux administrateurs se perdent du fait que les colonnes sont signées directement.
  3. Idée très intéressante de colonnes négatives.

Partie 7: Leçons narratives


Une bonne histoire est passionnante. Basé sur l'expérience de la littérature et du cinéma, l'auteur montre comment raconter des histoires intéressantes en utilisant des données. Un des conseils: avant de préparer la présentation, écrivez une «grande idée» (exprimez les pensées principales en une phrase) et une «histoire de trois minutes» (décrivez les principales conclusions dans une demi-page du texte).

Chaque histoire comprend 3 parties principales: début, milieu et fin.

  1. Commencez. Indique un problème. S'il n'y a pas de problème clair, une présentation n'est peut-être pas nécessaire non plus. "Pourquoi devrais-je m'intéresser à ça?"
  2. Le milieu . Montre comment le problème peut être résolu. "Pourquoi puis-je prendre la décision proposée?"
  3. La fin. Un appel à l'action. "Que dois-je commencer à faire dès maintenant pour résoudre le problème?"

Il existe deux stratégies principales de narration:

1. Par ordre chronologique:

a. Identifié le problème
b. Données collectées pour mieux comprendre la situation.
c. Nous avons analysé les données (examiné la situation sous différents angles, pris en compte d'autres facteurs)
d. Trouvé une solution
e. Sur la base de tout cela, nous vous recommandons de prendre les mesures suivantes

2. Commencez par la fin:

a. Recommandé de faire telle ou telle chose
b. Nous appuyons cette recommandation avec des données.

Partie 8: Mettre tout cela ensemble


L'auteur guide le lecteur à travers un exemple à travers toutes les étapes et leçons du livre:

  • Montre un mauvais horaire,
  • Décrit le contexte de présentation,
  • Choisit une bonne méthode de visualisation,
  • Supprime toutes les ordures
  • Détermine où concentrer l'attention du public et utilise des attributs attractifs pour cela,
  • Conduit le calendrier à un look esthétique,
  • Prépare une présentation complète.

Et vous pouvez voir l'exemple dans le livre. Je recommande de le lire.

Source: https://habr.com/ru/post/fr422093/


All Articles