“Nuestros científicos generaron un montón de gráficos, y no sabemos absolutamente dónde colocarlos. Intentemos adjuntarlos de alguna manera. (c) escuchado
“Malos gráficos en todas partes. En mi trabajo, constantemente encuentro visualizaciones de datos extremadamente dudosas. Nadie hace malos gráficos intencionalmente. Pero esto está sucediendo. Una y otra vez En cada empresa en todos los sectores de la economía, empleados de todos los niveles. Esto está sucediendo en los medios. Esto sucede donde se espera que las personas puedan visualizar datos ". (c) autor del libro
Esto sucede aquí, en
Habré : al mirar artículos en la secuencia "Visualización de datos", a menudo me encuentro pensando que no entiendo y no puedo comprender la esencia de lo que se muestra. El artículo considerará algunos ejemplos. Y lo que es más desagradable para mí, esto también sucede en mi trabajo. No constantemente, pero más a menudo de lo que nos gustaría.

El título del libro, Storytelling with Data, sonaba convincente. Lo elegí para la lectura de la tarde y no me arrepentí. El libro no tiene fórmulas, gráficos astutos e inusuales, casos complejos. Inglés claro Impresión de calidad. Se lee como ficción. El libro será útil para todos los que tengan que hacer presentaciones basadas en datos. Creo que traerá un beneficio particular para aquellos involucrados en el análisis de datos.
Esta revisión es muy informal: el autor del libro, mis pensamientos, las situaciones de mi trabajo, así como las hojas de trucos de matplotlib para enlaces están mezclados. Habrá muchas fotos. Casi todas las ilustraciones se vuelven a dibujar de un libro en Python.
Me enseñaron estadísticas en la universidad, ahora a los estudiantes se les enseña aprendizaje automático, han aparecido escuelas de datos de grandes compañías. Pero hasta ahora no he escuchado que a los analistas de datos se les enseñe seriamente a "contar historias" basadas en datos. Pero este es un paso necesario para convertir los datos en información y conocimiento. Es importante informarle al cliente sobre los hallazgos de manera de calidad. Y decir de tal manera que fue claro y entretenido para él, que inmediatamente quería mejorar algo en los negocios (tal vez con nuestra ayuda), y no solo dijo: "Bueno, está bien, eso suena interesante" y se fue a hacer sus asuntos comerciales cotidianos. .
Un par de citas de Habr:
En una conversación con Jonathan Nolis, uno de los principales analistas de datos de Seattle que trabaja con compañías de Fortune 500, discutimos la siguiente pregunta: "¿Cuál de las dos habilidades es más importante para un profesional de datos es la capacidad de usar modelos complejos de profundidad entrenamiento o la capacidad de dibujar buenas diapositivas en PowerPoint? Nolis argumentó a favor de este último, creyendo que una explicación accesible de los resultados del análisis sigue siendo un elemento clave para trabajar con la información.
¿Qué hacen realmente los analistas de datos? Hallazgos de 35 entrevistas
Y aquí está la segunda cita sobre habilidades blandas:
- Comencemos con habilidades blandas, porque no son suficientes. A pesar de que un científico de datos es una profesión técnica, es extremadamente importante poder presentar de manera correcta / hermosa el resultado de su trabajo. En términos generales, como un iPhone, tiene buena no solo el relleno, sino también la apariencia, el empaque y la historia. Las personas necesitan aprender a presentar sus resultados: escribir publicaciones de blog, hablar, compartir código. Los mejores científicos de datos entienden esto muy bien, y lo hacen. De lo contrario, puede quedar atrapado en su agujero, e incluso con un resultado genial, pasar desapercibido.
"Es difícil para mí entender la motivación de un científico de datos que no ve la belleza en las matemáticas" - Kirill Danilyuk, Data Scientist
Introduccion
El libro comienza con ejemplos de transformación de visualizaciones fallidas en otras comprensibles. Aquí está uno de ellos.
Fue:

Se convirtió en:
Cuaderno Jupyter en GitHubSi en el primer caso mi reacción al cuadro fue: “¿Qué es esto?”, Entonces en el segundo caso, me tomó unos segundos captar la esencia de la información y luego entrar en detalles.
Casi todas las visualizaciones para una presentación son un trabajo. Estoy construyendo gráficos usando matplotlib, y el autor del libro está usando Excel. Para facilitar el trabajo en el futuro, me di cuenta de la generación de algunos gráficos de un libro en Python. El código contiene un montón de "ajuste de archivos" (ajuste fino). Resultó una especie de hoja de trucos con comentarios. Disponible
aquíEchemos un vistazo rápido al contenido de las partes del libro.
Parte 1: La importancia del contexto
Exploratorio vs explicativo. El análisis de datos es como buscar perlas: a veces es necesario abrir 100 ostras (prueba 100 hipótesis) para encontrar un par de perlas. En el proceso de dicho trabajo, visualizamos los datos por nosotros mismos. Cuando llega el momento de hablar sobre los resultados, muy a menudo existe el deseo de usar los mismos gráficos y hablar sobre todo el trabajo realizado: “Abra la primera ostra. Esta vacio Pero está bien, todavía nos quedan 99 ostras. Abrimos el segundo ". No hay necesidad de hacer esto. Es necesario separar el análisis
exploratorio del
explicativo . En la etapa del análisis explicativo, se debe establecer el tiempo, para ello, se deben realizar otras visualizaciones dependiendo del contexto: a quién, qué y cómo.
Uno de los ejemplos interesantes en los que me gustaría ver un análisis explicativo en lugar de uno de investigación es el artículo "
Análisis de los artículos de Habrahabr y Geektimes ". El autor dio un montón de gráficos y tablas, pero no vi ninguna conclusión de ellos. Sería muy interesante saber cuándo publicar artículos para obtener el máximo de visitas. Según un horario, este es domingo, según otro horario: 6 de la mañana. ¿Pero será el domingo 6 am un buen momento para publicar? No estoy seguro Uno de los comentarios:
A. Es obvio que el contenido y los detalles dependen de la audiencia. Pero aquí puedes perderte. Una vez, uno de los oyentes molestos me dijo: "¡¿10 ingenieros están sentados frente a ustedes, que han estado trabajando en la producción de petróleo durante la mayor parte de sus vidas, y nos han estado diciendo cómo analizar las curvas de disminución de la producción durante 20 minutos? !!" Y es bueno que haya dicho esto, ya que tuve contenido similar durante otros 20 minutos.
Que. Un pensamiento que no es obvio para mí. Es importante establecer claramente qué acciones espera de su audiencia. Por ejemplo, para asignar otros 10 millones de rublos, contrate a 5 desarrolladores, reduzca el departamento, aumente la temperatura en la caldera a 700 ° C, comience el proyecto para pronosticar la deuda operativa. Esto es incomodo. Siempre existe la sensación de que el "negocio" sabe mucho mejor, y da miedo hacer una oferta loca. Pero si la audiencia no entendió lo que, de hecho, quieren de ella, entonces todo puede y estará limitado al informe escuchado. Escuchan, dan las gracias y continúan haciendo sus negocios.
El "negocio" probablemente lo sepa mejor, pero el "negocio" en este momento puede estar ocupado con cosas completamente diferentes: la planta está en llamas o los hackers borraron irrevocablemente parte de los datos históricos de los sensores. (Todas estas son situaciones reales). Compórtese como un experto en el tema: analizó los datos, observó el proceso desde adentro. En cualquier caso, incluso una propuesta errónea puede dar lugar a una discusión constructiva.
Recientemente, hice un gran trabajo para uno de los clientes: analicé datos durante 3 años de varias fuentes. Compiló los hallazgos en varias tablas voluminosas de Excel y documentos de Word, los envió por correo electrónico, con la esperanza de que se lanzarían varios proyectos. En respuesta, recibió: "¡Sí, es muy interesante!". Y eso es todo. Ahora entiendo que no podría haber otra respuesta.
Como. Los cuadros de presentación son diferentes de los cuadros de letras. En el primer caso, vemos la reacción de la audiencia, en cualquier momento podemos responder preguntas, dar explicaciones. Por lo tanto, el nivel de detalle en los cuadros de letras debe ser mayor.
Parte 2: elegir una visualización efectiva
El autor proporciona una lista de buenas formas de visualizar datos. De lo inusual para mí: visualización usando texto simple y gráficos de pendiente.
Texto simple Si algo puede expresarse en un dígito, entonces el horario puede no ser necesario.
Cuaderno Jupyter en GitHubRecientemente utilicé esta idea para presentar un proyecto para monitorear y pronosticar acuerdos con agentes: "
7,000,000 de rublos de deuda acumulada en el momento de la quiebra de un agente". El efecto fue maravilloso, la audiencia inmediatamente sintonizó de la manera correcta.
Tabla de pendiente Érase una vez, utilicé tramas paralelas de SAS JMP. Algo similar Desafortunadamente, en muchos entornos no existe tal método de visualización, pero es ideal para la comparación de múltiples factores:
Cuaderno Jupyter en GitHubRecientemente en Habré había un artículo "
Los mejores empleadores en TI: los primeros resultados del servicio de calificaciones en" Mi círculo ". Hubo una línea de tiempo que condujo a una discusión en los comentarios:

Las pequeñas empresas en promedio en casi todos los aspectos tienen una calificación más alta que las grandes. Me preguntaba, pero ¿tiene sentido cambiar de una pequeña empresa promedio a una buena y grande? El resultado de la comparación usando el gráfico de pendiente:
Malos métodos de visualización. El autor del libro advierte contra el uso de pasteles, diagramas de anillos y también aconseja no usar nunca 3D.
Gráficos circulares Lo sé por mí mismo: cuando veo un gráfico circular, inmediatamente empiezo a buscar números (porcentaje) en él. Y si no hay números, simplemente sáltelo. Es difícil para las personas comparar ángulos sin un transportador. Lo único que se pierde al pasar de un gráfico circular es una visualización del hecho de que todas las partes juntas forman un todo (100%). Pero si el gráfico circular en su conjunto no funciona, entonces esto ya no es importante.
Gráficos de rosquillas. Incluso peor que circular, porque en lugar de comparar ángulos, tienes que comparar las longitudes de los arcos.
3D Un par de ejemplos realizados con Excel.
¿Qué crees que es igual a D?

No solo eso, debe rastrear con el dedo hasta un valor de 35 (es difícil girar con los ojos), por lo que 35 no es correcto. ¡El valor correcto es 40!
3D combinado con gráficos circulares hace maravillas en general. ¿Cómo C es mayor que B? Al menos sobre?

De hecho, C es 5% menos que B y son 30% y 35% respectivamente. Simplemente no use 3D para visualizar datos.
Parte 3: ¡La basura es tu enemigo!
Cada elemento en el gráfico lleva una carga cognitiva. Cuanto mayor sea la relación señal / ruido de la visualización, mejor. No en detrimento de la comprensibilidad, por supuesto. Los elementos adicionales hacen que el gráfico a primera vista sea mucho más complicado de lo que realmente es. Como resultado, parte de la audiencia decide no hacer un esfuerzo y dedicar tiempo a comprender la visualización. A menudo me sucede en Habré: "¡Oh! Este gráfico parece ser interesante, pero de alguna manera es demasiado complicado. Tal vez dejaré un marcador y lo entenderé la próxima vez ". Los autores de artículos sobre Habré no pierden nada de tal decisión. Pero un posible cliente, inversor, empleado o empleador podría haber aparecido en mi lugar.
El autor del libro explica qué es la basura en los gráficos y cómo lidiar con ella. Solo da un ejemplo.
Fue:

A pesar de que el gráfico visualiza un "hallazgo" muy simple, mi primer pensamiento es: "¿Uh?". El cerebro se niega a perder la fuerza para profundizar en la información.
Se convirtió en:
Cuaderno Jupyter en GitHubEl cerebro ya no está en pánico. Había un deseo de entender.
Parte 4: enfoca a tu audiencia
Un poco de ejercicio Cuente el número de dígitos "3" en la siguiente imagen.

Definitivamente no haría esta tarea, lo más probable es que tampoco lo hiciste. La única forma de actuar para una persona común (no un genio) es mirar todos los números en una fila de arriba a abajo de izquierda a derecha. La respuesta correcta es 6.
Ahora mira la siguiente imagen. Cuánto más fácil ahora para completar la tarea:

Según los estudios, una persona en 8-10 segundos de ver la tabla decide si debería pasar más tiempo o si es mejor centrar su atención en otra cosa. Los gráficos sin atributos que atraen la atención son similares a la primera imagen. Lo más probable es que la audiencia sea demasiado perezosa para entender, y después de 8 segundos, perderán interés, sin haber recibido ninguna información. Si el gráfico parece una segunda imagen, el público toma la información seleccionada de un vistazo. Más rápido de lo que se da cuenta. E incluso si después de 8 segundos los lectores vuelven su atención a otra cosa, se recibirá la parte más importante de la información.
La única forma de obtener información de este cuadro es leerla en su totalidad:

El cronograma revisado llama inmediatamente la atención de la audiencia hacia un "hallazgo" específico: hay que hacer algo con aislamiento acústico.
Cuaderno Jupyter en GitHubParte 5: Piensa como un diseñador
Para mí, los diseñadores son personas que pintan bellas imágenes. No soy diseñador, nunca obtuve fotos hermosas. Afortunadamente, la visualización de datos es más fácil. Es necesario desarrollar gráficos, teniendo en cuenta los siguientes puntos: asequibilidad,
accesibilidad y estética.
Oportunidades Cuando tomamos las tijeras del sastre, inmediatamente queda claro dónde colocar el pulgar y dónde, unos cuantos dedos más. Con los horarios también: el público debe comprender de inmediato dónde mirar y qué hacer con este horario. Para hacer esto:
- Destacar puntos importantes. Se recomienda seleccionar no más del 10% de los elementos de visualización, de lo contrario se pierde el efecto. "Es fácil encontrar halcones entre las palomas, pero cada vez es más difícil cuando hay más especies de aves".
- Elimina las distracciones. "La perfección se logra no cuando no hay nada que agregar, sino cuando no hay nada que eliminar", - Antoine de Saint-Exupery.
a. No todos los datos son igualmente importantes. Deshágase de los componentes no críticos.
b. Cuando no se necesitan piezas, agregue.
c. Pregúntese periódicamente: si esto se descarta, ¿cambiará algo? No cambia, tíralo a la basura.
d. Enviar elementos de fondo al fondo. Use un color gris para esto. - Crea una clara jerarquía de información. Usando diferentes atributos que atraen la atención, muestre a su audiencia la secuencia en la que necesitan recibir información. Por ejemplo, como en el siguiente gráfico:
Cuaderno Jupyter en GitHubDisponibilidad El concepto de accesibilidad sugiere que el diseño debe ser adecuado para personas con diferentes capacidades. Esto incluye personas con diferentes experiencias, conocimientos, habilidades técnicas y el grado de participación en el área temática. Puede ser ingeniero, pero no requiere una audiencia de educación técnica superior para comprender sus horarios:
- No complicarse demasiado. Si es posible, use fuentes visualmente limpias (Arial), palabras claras, oraciones cortas.
- El texto es tu amigo. Como mínimo, el gráfico debe tener un título y nombres de eje. Veamos cómo un texto simple puede cambiar la percepción de un gráfico:
Sin texto
¿De qué trata este cuadro?

Texto mínimo requerido
Se está comenzando a dibujar algo: hay algunas solicitudes que se han procesado menos de lo recibido desde mayo.

Mucho texto
Ahora todo está claro: la gente se ha ido, el equipo no está haciendo frente, es necesario contratar a dos especialistas más.
Cuaderno Jupyter en GitHubEstética Recientemente en Habré había un artículo "
Visualización de comentarios de canales de YouTube de las comunidades de touhou internacionales y locales ". Honestamente, todavía no entiendo por qué lo necesito y qué información puedo obtener de los gráficos ... ¡Pero qué hermosos son! Lo miré con placer (sin entender nada). Al dedicar más tiempo y esfuerzo a la estética de sus horarios, aumenta la posibilidad de que el público sea más paciente y atento con ellos. En consecuencia, lo más probable es que la audiencia entienda lo que quieres transmitir.
Para hacer esto:
- Usa el color sabiamente.
- Presta atención a la alineación.
- Hacer más espacios (espacios vacíos).
Un ejemplo de cómo llevar un gráfico a un aspecto estético:
Era

Se ha convertido
Cuaderno Jupyter en GitHubParte 6: Análisis crítico de visualizaciones
El autor da 5 ejemplos de buenas visualizaciones y examina en detalle por qué se hacen de esa manera.
Me gustó este ejemplo:
Cuaderno Jupyter en GitHub- Una jerarquía visual distinta: leemos el encabezado, vamos a los números en negrita, de ellos vamos de derecha a izquierda al texto "Necesidad insatisfecha (espacio)". En unos segundos entendemos: si no se hace nada, la necesidad no satisfecha aumentará.
- De "Necesidad insatisfecha (hueco)" leemos todas las etiquetas. Entendemos dónde se pierden los directores y las principales fuentes de los nuevos directores debido al hecho de que las columnas se firman directamente.
- Muy interesante idea de columnas negativas.
Parte 7: Lecciones narrativas
Una buena historia es emocionante. Basado en la experiencia de la literatura y el cine, el autor muestra cómo contar historias interesantes utilizando datos. Uno de los consejos: antes de preparar la presentación, escriba una "gran idea" (exprese los pensamientos principales en una oración) y una "historia de tres minutos" (describa los hallazgos principales en media página del texto).
Cada historia tiene 3 partes principales: principio, medio y final.
- Inicio. Indica un problema Si no hay un problema claro, entonces quizás tampoco sea necesaria una presentación. "¿Por qué debería estar interesado en esto?"
- El medio Muestra cómo se puede resolver el problema. "¿Por qué puedo tomar la decisión propuesta?"
- El final Un llamado a la acción. "¿Qué necesito comenzar a hacer ahora para resolver el problema?"
Hay dos estrategias principales para contar historias:
1. En orden cronológico:
a. Identificó el problema.
b. Datos recopilados para comprender mejor la situación.
c. Analizamos los datos (examinamos la situación desde diferentes ángulos, tomamos en cuenta otros factores)
d. Encontre una solucion
e. En base a todo esto, le recomendamos que realice las siguientes acciones
2. Comience desde el final:
a. Recomendado para hacer tal y tal
b. Apoyamos esta recomendación con datos.
Parte 8: Poner todo junto
El autor lleva al lector a través de un ejemplo a través de todos los pasos y lecciones del libro:
- Muestra un mal horario,
- Describe cuál puede ser el contexto de presentación,
- Elige un buen método de visualización,
- Elimina toda la basura.
- Determina dónde enfocar la atención de la audiencia y utiliza atributos atractivos para esto,
- Lleva el calendario a un aspecto estético,
- Prepara una presentación completa.
Y puedes ver el ejemplo en el libro. Recomiendo leerlo.