Gráficos incorrectos: nuestra experiencia

Nosotros en The Economist tomamos la visualización de datos muy en serio. Cada semana publicamos alrededor de 40 gráficos en versión impresa y en línea, así como en aplicaciones. En todas partes nos esforzamos por representar con precisión los números para que ilustren mejor el tema. Pero a veces cometemos errores. Es importante aprender estas lecciones para no cometer errores en el futuro. Seguramente nuestra experiencia te será útil.

Al sumergirme en los archivos, encontré algunos ejemplos instructivos. Los delitos contra la visualización de datos se agrupan en tres categorías. Estos son gráficos que:

  1. engañar
  2. confundido
  3. No tiene sentido.

Para cada uno, se muestra una versión revisada, que ocupa la misma cantidad de espacio, un factor importante para la publicación impresa.

(Nota: la mayoría de los gráficos "originales" se publican antes del rediseño. Los gráficos mejorados se compilan de acuerdo con las nuevas especificaciones. Los datos son los mismos).

Gráficos engañosos


Comencemos con el peor de los delitos: presentar los datos de tal manera que sean engañosos. ¡Nunca hacemos esto a propósito! Pero a veces esto sucede. Consideremos tres ejemplos de nuestro archivo.

Error: truncamiento



( datos en csv )

Este gráfico muestra el número promedio de me gusta de Facebook en las páginas de la izquierda. El propósito de la tabla era mostrar la diferencia en los gustos de los mensajes del Sr. Corbin y otros.

El programa original no solo subestima la cantidad de Me gusta de Corbin, sino que también exagera el rendimiento para otros participantes (aquí hay otro ejemplo de tal error). En la versión revisada, la columna del Sr. Corbin está completamente especificada. Todas las demás columnas siguen siendo visibles.

Otra rareza es la elección del color. En un intento de imitar el esquema de color Labor, utilizamos tres tonos de naranja / rojo asignados a 1) Corbin, 2) a otros diputados y 3) a partidos / grupos. Esto no se explica en ninguna parte. Aunque la lógica puede ser obvia para muchos, tiene poco sentido para aquellos que no están muy familiarizados con la política británica.

Error: el efecto de la relación debido al ajuste de las escalas



¿Un raro ejemplo de correlación perfecta? En realidad no ( datos en csv )

La tabla anterior es de un artículo de pérdida de peso del perro. A primera vista, parece que el peso y la circunferencia del cuello del perro están perfectamente correlacionados. ¿Pero es eso cierto? Solo hasta cierto punto.

En el gráfico, ambas escalas se reducen en tres unidades (de 21 a 18 a la izquierda; de 45 a 42 a la derecha). Pero en términos porcentuales, la escala izquierda se reduce en un 14% y la derecha, en un 7%. En la tabla revisada, mantuve la doble escala, pero ajusté los rangos para reflejar un cambio proporcional comparable.

Dado el divertido tema de este diagrama, el error puede parecer relativamente menor. Al final, el significado es el mismo en ambas versiones. Pero la conclusión es importante: si las dos gráficas están demasiado cerca la una de la otra, es probable que necesite observar más de cerca las escalas.

Error: método de visualización incorrecto



Las opiniones sobre Brexit son casi tan inestables como las negociaciones al respecto ( datos en csv )

Publicamos este cuadro de encuestas en nuestra aplicación de noticias Espresso. Muestra la relación con los resultados del referéndum de la UE en forma de gráfico lineal. A juzgar por los datos, los encuestados fluctúan mucho en sus puntos de vista: los resultados saltan unos pocos puntos porcentuales.

En lugar de una curva suave para la visualización de tendencias, indicamos los valores reales de cada encuesta. Esto sucedió principalmente porque nuestra herramienta de gráficos no sabía cómo construir líneas suaves. Solo recientemente hemos dominado programas más avanzados para procesar datos estadísticos (por ejemplo, R) con métodos de visualización más sofisticados. Hoy, cualquiera puede construir una curva suave para las encuestas, como una opción mejorada en la parte superior.

Todavía hay una violación de la escala. El gráfico fuente dispersa los datos más de lo que debería. En la versión revisada, agregué un poco de espacio entre el comienzo de la escala y el punto mínimo de datos. Francis Gagnon ofrece una buena fórmula para tales situaciones: deje libre al menos el 33% del área debajo del gráfico lineal, que no comienza desde cero.

Gráficos que son confusos.


No es un delito tan grave como engañoso, pero si el cronograma es difícil de entender, esto es una señal de trabajo de visualización mal hecho.

Error: gráficos demasiado abstrusos



... que? ( datos en csv )

Los periodistas de The Economist buscan, en el buen sentido, confundir al lector. Pero a veces vamos demasiado lejos. El cuadro anterior muestra el déficit comercial de los Estados Unidos en bienes y el número de personas empleadas en la fabricación.

Este cuadro es increíblemente difícil de entender. Ella tiene dos problemas principales. Primero, los valores de una serie (déficit comercial) son completamente negativos, mientras que otros (empleo en manufactura) son positivos. Es difícil combinar datos tan diferentes en un diagrama. La "solución" obvia conduce a un segundo problema: dos filas de datos no tienen una línea base común. La línea base del déficit comercial se encuentra en la parte superior del gráfico (resaltada en rojo, pasa por la mitad del gráfico). La línea base de la escala derecha está en la parte inferior.

El gráfico revisado muestra que no había necesidad de combinar las dos series de datos. La relación entre el déficit comercial y el empleo en la manufactura permanece clara y solo ocupa un poco más de espacio.

Error: colores enredados



50 sombras de azul ( datos en csv )

Este cuadro compara el gasto público en beneficios de jubilación con la proporción de personas mayores de 65 años en varios países, con especial énfasis en Brasil. Para no inflar el gráfico, el visualizador firmó solo algunos países y los resaltó en azul. El promedio de la OCDE se destaca en azul claro.

El visualizador (¡fui yo!) Ignoró el hecho de que el cambio de color a menudo implica un cambio de categoría. Aquí, también, el lector puede tener una idea tal que todos los países azules parecen pertenecer a un grupo diferente de los azules. Esto no es asi. La única diferencia es que simplemente no están firmados.

En la versión revisada, el color es el mismo para todos. Solo cambié la intensidad de los países firmados. La tipografía hace el resto: Brasil, el país de enfoque, está en negrita y el promedio de la OCDE está en cursiva.

Gráficos que no pueden tener sentido


Los errores en esta última categoría son menos obvios. Dichos diagramas no son engañosos ni confusos. Simplemente no pueden justificar su existencia. O fueron construidos incorrectamente, o tratamos de exprimir demasiada información en un espacio demasiado pequeño.

Error: demasiados detalles.



"¡Cuantas más flores, mejor!" ( datos en csv )

Un verdadero arcoiris! Publicamos este cuadro en la columna de superávit presupuestario alemán. Muestra el saldo presupuestario y el saldo actual de diez países de la zona del euro. Con tantos colores, algunos de los cuales son bastante difíciles de distinguir o incluso de ver porque los valores son demasiado pequeños, el significado del gráfico es difícil de entender. Esto casi bloquea el cerebro, haciendo que el lector omita la tabla y siga adelante. Y, lo que es más importante, dado que no damos cifras para todos los países de la zona euro, no tiene sentido agregar datos.

Vuelvo a leer el artículo para encontrar una manera de simplificar el diagrama. El texto se refiere a Alemania, Grecia, los Países Bajos, España y la Eurozona. En la versión revisada del gráfico, decidí seleccionarlos solo y coloqué el resto en la categoría "Otros" (el saldo total de la cuenta corriente en el gráfico procesado es menor que en el gráfico original, debido a la revisión de los datos de Eurostat).

Error: muchos datos, no hay suficiente espacio



Me rindo ( datos en csv )

Limitados por el espacio en la página, a menudo estamos tentados a insertar todos los datos en una ranura demasiado pequeña. Aunque esto ahorra un valioso espacio en la página, hay consecuencias, como se puede ver en este gráfico de marzo de 2017 . Este es un gráfico para un artículo que establece que los hombres dominan la ciencia. Todas las posiciones son igualmente interesantes y relevantes para el artículo. Pero, esa cantidad de datos es difícil de asimilar: aquí hay cuatro categorías de áreas de investigación, así como la proporción de autores de patentes en cada país.

Tras reflexionar, decidí no cambiar este diagrama. Si guarda todos los datos, el gráfico será demasiado grande para un artículo pequeño. En tales casos, es mejor cortar algo. Alternativamente, puede mostrar un cierto indicador promedio: por ejemplo, la proporción promedio de artículos de mujeres en todas las áreas. (¡Avíseme si tiene ideas sobre cómo visualizar esto en un espacio confinado!)



Las mejores prácticas se están desarrollando rápidamente: lo que es aceptable hoy, será condenado mañana. Todo el tiempo, aparecen métodos nuevos y más avanzados. ¿Alguna vez ha cometido un "crimen infográfico" que se puede solucionar fácilmente?

Source: https://habr.com/ru/post/446880/


All Articles