我们的
《经济学人》非常重视数据可视化。 每周我们都会发布约40种图表,包括印刷版,在线版以及应用程序。 我们在任何地方都努力准确地表示数字,以便它们最好地说明主题。 但是有时候我们会犯错误。 重要的是要学习这些课程,以免将来出错。 当然,我们的经验将对您有所帮助。
深入研究档案,我发现了一些有启发性的例子。 危害数据可视化的犯罪可分为三类。 这些是图形:
- 误导
- 困惑
- 没道理。
每个版本都显示一个修订版本,该版本占用相同的空间-这是印刷出版物的重要因素。
(注意:大多数“原始”图表在重新设计之前就已发布。改进后的图表将根据新规范进行编译。数据相同)。
误导图表
让我们从最严重的犯罪开始:以一种令人误解的方式呈现数据。 我们永远不会故意这样做! 但是有时候会发生这种情况。 让我们考虑存档中的三个示例。
错误:截断
( csv中的数据 )此图在左侧页面上显示了Facebook喜欢的平均数量。 该图表的目的是显示Corbin先生和其他人在职位上的不同。
原始时间表不仅低估了Corbin的点赞次数,而且夸大了其他参与者的表现(这
是这种错误的
另一个示例 )。 在修订版中,Corbin先生的专栏已完全指定。 所有其他列仍然可见。
另一个奇怪的是颜色的选择。 为了模仿“劳工”配色方案,我们使用了三种橙色/红色阴影,分别分配给1)科宾,2)其他代表和3)政党/团体。 这在任何地方都没有解释。 尽管逻辑对于许多人来说可能是显而易见的,但是对于那些对英国政治不是很熟悉的人来说,这毫无意义。
错误:因比例调整而产生的关系影响
完美相关的一个罕见例子? 实际上不是( csv中的数据 )上图摘自狗的减肥文章。 乍一看,狗的脖子的重量和周长似乎是完美相关的。 但这是真的吗? 仅在某种程度上。
在图形上,两个标度都减少了三个单位(从左侧的21减少到18;从右侧的45减少到42)。 但是以百分比表示,左边的比例减少了14%,右边的减少了7%。 在修订后的图表中,我保留了双刻度,但调整了范围以反映可比的比例变化。
给定此图的有趣主题,该错误似乎相对较小。 最后,两个版本的含义相同。 但是结论很重要:如果两个图之间的距离太近,您可能需要仔细研究一下比例尺。
错误:错误的可视化方法
关于英国脱欧的观点几乎与关于它的谈判一样不稳定( csv中的数据 )我们在Espresso新闻应用程序中发布了此调查表。 它以折线图的形式显示了与欧盟公投结果的关系。 从数据来看,受访者的观点波动很大:结果跳了几个百分点。
我们没有显示趋势图的平滑曲线,而是指示了每个调查的实际值。 发生这种情况的主要原因是我们的制图工具不知道如何绘制平滑线。 直到最近,我们才掌握了使用更复杂的可视化方法处理统计数据(例如R)的更高级程序。 如今,任何人都可以为民意测验建立一条平滑的曲线,作为顶部的改进选项。
仍然违反规模。 源图表分散的数据超出了应有的范围。 在修订版中,我在音阶的开始和最小数据点之间增加了一些空间。 弗朗西斯·加农(Francis Gagnon)为这种情况提供了一个
很好的公式 :在线图下至少留出至少33%的区域,这不是从头开始的。
图表令人困惑
没有像误导这样的严重犯罪,但是如果时间表难以理解,则表明可视化工作做得不好。
错误:图表太深奥
什么 ( csv中的数据 )《经济学人》的记者试图以一种很好的方式来迷惑读者。 但是有时候我们走得太远了。 上
图显示了美国商品贸易逆差和制造业就业人数。
该图表难以理解。 她有两个主要问题。 首先,一个系列的价值(贸易赤字)完全为负,而其他系列的价值(制造业就业)为正。 很难在一张图中组合这些不同的数据。 显而易见的“解决方案”导致了第二个问题:两行数据没有相同的基线。 贸易赤字的基准线在图表的顶部(红色突出显示,穿过图表的一半)。 正确比例的基线在底部。
修订后的图表显示,无需将这两个数据系列结合在一起。 贸易赤字与制造业就业之间的关系仍然很明确,只占据了一点空间。
错误:颜色纠结
50种蓝色阴影( csv中的数据 )该图表将政府在退休金方面的支出与许多国家中65岁以上人口的比例进行了比较,其中重点放在了巴西。 为了不使图表膨胀,可视化工具仅签署了一些国家/地区并以蓝色突出显示了它们。 经合组织平均值以浅蓝色突出显示。
可视化工具(是我!)忽略了颜色变化通常意味着类别变化的事实。 读者在这里也可能会想到,所有蓝色国家似乎都与蓝色国家属于不同的群体。 事实并非如此。 唯一的区别是它们根本没有签名。
在修订版中,每个人的颜色都是相同的。 我只更改了签署国的强度。 其余部分由印刷术完成:重点关注的国家/地区巴西以粗体显示,而经合组织国家/地区以斜体显示。
图表没有意义
最后一类中的错误不太明显。 这样的图不会引起误解,也不会造成混乱。 他们根本无法证明自己的存在。 要么它们的构建不正确,要么我们试图将太多的信息压缩到一个很小的空间中。
错误:详细信息过多。
“花越多越好!” ( csv中的数据 )真正的彩虹! 我们
将此图表发布在德国预算盈余列中。 它显示了欧元区十个国家的预算余额和当前余额。 有这么多的颜色-有些值很难辨别甚至看不到,因为值太小-很难理解图表的含义。 这几乎阻塞了大脑,导致读者跳过图表而继续前进。 而且,更重要的是,由于我们没有提供欧元区所有国家的数据,因此添加数据毫无意义。
我重新阅读了该文章,以找到简化该图的方法。 案文提及德国,希腊,荷兰,西班牙和欧元区。 在图表的修订版中,我决定仅选择它们,并将其余的放置在“其他”类别中(由于欧盟统计局数据的修订,处理后的图表上的经常账户总余额少于原始图表上的余额)。
错误:数据过多,空间不足
我放弃了( csv中的数据 )受页面空间的限制,我们经常倾向于将所有数据放入太小的插槽中。 尽管这样做可以节省页面上的宝贵空间,但仍会产生一些后果,如从
2017年3月的这张图所示。 这是一篇文章的图表,指出男人在科学中占主导地位。 所有职位都同样有趣且与本文相关。 但是,如此大量的数据很难被吸收:这是四类研究领域,以及每个国家专利作者的比例。
经过反思,我决定不更改此图。 如果保存所有数据,则图表对于一个较小的文章而言将太大。 在这种情况下,最好切一些东西。 另外,您可以显示某个平均指标:例如,所有领域中女性文章的平均比例。 (如果您有关于如何在狭窄空间中进行可视化的想法,请告诉我!)
最佳做法正在迅速发展:今天可以接受的明天将受到谴责。 一直都有新的和更高级的方法出现。 您是否曾经犯过容易解决的“信息图犯罪”?