Cole Nussbaumer Knaflic撰写的“用数据讲故事”:非正式书摘

“我们的科学家生成了一堆图,我们绝对不知道将它们放在哪里。 让我们尝试以某种方式附加它们。” (c)偷听

“到处都有糟糕的图形。 在我的工作中,我经常遇到极其可疑的数据可视化。 没有人故意制作不良图形。 但这正在发生。 一次又一次。 在每个公司的各个经济部门,各个层次的员工。 这在媒体中正在发生。 这种情况发生在您希望人们能够可视化数据的地方。” (c)该书的作者

这是在哈布雷(Habré )上发生的:查看“数据可视化”流中的文章时,我常常发现自己以为我不理解并且无法掌握所显示内容的本质。 本文将考虑一些示例。 最令我不愉快的是,这也发生在我的工作中。 并非总是如此,而是比我们想要的更多。



这本书的书名“用数据讲故事”听起来很有说服力。 我选择它作为晚间阅读,并不后悔。 这本书没有公式,狡猾和异常的图形,复杂的案例。 清除英语。 优质印刷。 它被视为小说。 这本书对于必须基于数据进行演示的每个人都非常有用。 我认为这将为参与数据分析的人员带来特别的好处。

这篇评论是非正式的:这本书的作者,我的想法,我的工作情况以及有关链接的matplotlib备忘单都混在一起了。 会有很多照片。 几乎所有插图都是从Python书中重绘而成的。

我在大学里学过统计学,现在在学校里学过机器学习,来自大公司的数据学校已经出现。 但是到目前为止,我还没有听说过认真地教过数据分析师如何根据数据“讲故事”。 但这是将数据转化为信息和知识的必要步骤。 重要的是要以高质量的方式告知客户有关调查结果。 并以一种清晰有趣的方式告诉他,他立即想改善业务(也许在我们的帮助下),而不仅仅是说:“好吧,听起来很有趣”,然后去做他的日常业务。

Habr的一些引文:
在与《财富》 500强公司之一的西雅图领先数据分析师之一乔纳森·诺里斯(Jonathan Nolis)的对话中,我们讨论了以下问题:“对于数据专业人员来说,两种技能中哪个更重要的是使用复杂的深度模型的能力。培训或在PowerPoint中绘制好的幻灯片的能力?” Nolis赞成后者,认为对分析结果的易于理解的解释仍然是处理信息的关键要素。
数据分析师实际上在做什么? 35次访谈的发现
这是关于软技能的第二句话:
-让我们从软技能开始-因为它们还不够。 尽管事实是数据科学家是技术专业人士,但能够正确/精美地展示您的工作结果非常重要。 粗略地说,就像iPhone一样,他不仅具有填充感,而且还具有出色的外观,包装和历史记录。 人们需要学习如何展示其结果:撰写博客文章,发言,共享代码。 最好的数据科学家非常了解这一点,他们也是如此。 否则,您可能会陷入困境,即使结果很酷,也不会引起注意。
“对我而言,很难理解没有看到数学之美的数据科学家的动机”-数据科学家Kirill Danilyuk

引言


本书以将失败的可视化转换为可理解的可视化的示例开始。 这是其中之一。

那是:




它变成了:




GitHub上的Jupyter Notebook

如果在第一种情况下,我对图表的反应是:“这是什么?”,那么在第二种情况下,花了几秒钟的时间来掌握信息的本质,然后进入细节。

演示的几乎所有可视化都是一件工作。 我正在使用matplotlib构建图形,而本书的作者正在使用Excel。 为了方便将来的工作,我亲自认识了从Python书中生成一些图形的方法。 该代码包含一堆“文件调整”(微调)。 原来是一种带有评论的备忘单。 在这里可用。

让我们快速看一下本书各部分的内容。

第1部分:上下文的重要性


探索性与解释性。 数据分析就像在寻找珍珠:有时您需要打开100只牡蛎(测试100个假设)才能找到一对珍珠。 在进行此类工作的过程中,我们会为自己可视化数据。 谈到结果时,通常会希望使用相同的图表并谈论所有已完成的工作:“打开第一只牡蛎。 是空的 没关系,我们还有99只牡蛎。 我们打开第二个。” 不需要这样做。 有必要将探索性分析与解释性分析分开。 在解释性分析的阶段,有必要安排时间,因为有必要根据上下文进行其他可视化处理:向谁,什么以及如何进行。

我想看到一种解释性分析而不是研究性的有趣例子之一是“ Habrahabr和Geektimes对文章的分析 ”。 作者给出了一堆图形和表格,但是我没有看到任何结论。 知道何时发布文章以获取最大观看量将是非常有趣的。 根据一个时间表,这是星期日,根据另一个时间表-早上6点。 但是,星期日6点是发布的好时机吗? 不知道 评论之一:



显然,内容和细节取决于受众。 但是在这里你会想念的。 有一次,一位烦人的听众告诉我:“有10位工程师坐在您面前,他们一生中一直在从事石油生产工作,而您却在告诉我们如何分析20分钟的产量下降曲线?!” 他说了这很好,因为我还有20分钟也有类似的内容。

什么 这种想法对我来说并不明显。 明确说明您希望听众采取什么行动很重要。 例如,再分配1000万卢布,雇用5名开发商,减少部门,将锅炉温度提高到700℃,启动预测运营债务的项目。 这不舒服。 总是有一种感觉,即“业务”了解得更多,而提出疯狂的报价也很恐怖。 但是,如果听众不了解他们实际上想从她那里得到什么,那么一切都会而且将仅限于听取的报告。 他们听着,说声谢谢,然后继续做生意。

“业务”可能更了解,但是此时的“业务”可能被完全不同的事情所占据:工厂着火了或黑客无法撤消地从传感器中删除了部分历史数据。 (所有这些都是真实情况)。 表现为主题领域的专家:您分析了数据,并从内部研究了过程。 无论如何,即使是错误的建议也会引起建设性的讨论。

最近,我为一位客户做得很好:我分析了来自多个来源的3年数据。 他将调查结果整理到多个大量的Excel表和Word文档中,并通过电子邮件发送给他们,希望能够启动多个项目。 作为回应,他收到:“是的,这很有趣!”。 就是这样。 现在,我知道可能没有其他答案。

怎么 演示图不同于字母图。 在第一种情况下,我们看到了观众的反应,我们可以随时回答问题,给出解释。 因此,图表中字母的详细程度应更高。

第2部分:选择有效的可视化


作者提供了一些可视化数据的好方法。 对我来说不寻常:使用简单的文本和坡度图进行可视化。

简单的文字。 如果某些内容可以用一位数字表示,则可能不需要计划表。


GitHub上的Jupyter Notebook

最近,我用这个想法提出了一个用于监视和预测与代理商达成和解的项目:“代理商破产时,累计债务 已达700万卢布 。” 效果很棒,听众立即以正确的方式进行调整。

坡度图。 曾几何时,我使用了SAS JMP中的平行图。 类似的东西。 不幸的是,在许多环境中没有这种可视化方法,但它是多因素比较的理想选择:


GitHub上的Jupyter Notebook

最近在哈布雷(Habré)上发表了一篇文章“ IT最佳雇主:“我的圈子”(My Circle)上提供估算服务的第一个结果 。 有一个时间表导致评论中的讨论:



几乎在所有方面,小公司的平均评分都高于大公司。 我想知道,但是从一家普通的小型公司转变为一家大型公司是否有意义? 使用斜率图的比较结果:



不良的可视化方法。 该书的作者警告不要使用饼图,甜甜圈图,并且建议不要使用3D。

饼图。 我自己知道:看到饼状图时,我立即开始在其上寻找数字(百分比)。 如果没有数字,则跳过它。 没有量角器,人们很难比较角度。 从饼图中移走时唯一丢失的是对所有部分共同形成一个整体(100%)这一事实的可视化。 但是,如果整个饼图不起作用,则这不再重要。

甜甜圈图。 甚至比圆形还差,因为您不必比较角度,而必须比较弧的长度。

3D 使用Excel制作的几个示例。

你认为什么等于D?



不仅如此,您还需要用手指追踪到35的值(很难用眼睛转弯),所以35不正确。 正确值为40!

3D与饼图相结合通常可以创造奇迹。 C如何大于B? 至少约?



实际上,C比B小5%,分别是30%和35%! 只是不要使用3D可视化数据。

第3部分:垃圾是您的敌人!


图上的每个元素都承载着认知负荷。 可视化的信噪比越高,效果越好。 当然,这不会损害可理解性。 额外的元素使图表乍一看比实际复杂得多。 结果,部分观众决定不花精力去理解可视化。 我经常在哈布雷(Habré)上发生这种情况:“哦! 该图似乎很有趣,但是某种程度上太复杂了。 也许我会留下一个书签,下次我会明白的。” 关于哈布雷的文章的作者从这样的决定中丝毫不减。 但是潜在的客户,投资者,员工或雇主可能已经出现在我的位置上。

该书的作者解释了图中的垃圾是什么,以及如何处理垃圾。 请举一个例子。

那是:




尽管该图显示了一个非常简单的“查找”事实,但我的第一个想法是:“嗯?”。 大脑拒绝浪费精力去研究信息。

它变成了:



GitHub上的Jupyter Notebook

大脑不再惊慌。 有一种理解的愿望。

第4部分:吸引观众


一点运动。 计算下图中的数字“ 3”。



我绝对不会执行此任务,很可能您也没有执行此任务。 对于普通人(不是天才)来说,唯一的表现方法是从上到下从左到右依次查看所有数字。 正确答案是6。

现在看下面的图片。 现在完成任务要容易得多:



根据研究,一个人在查看图表的8到10秒内会决定是否应该花费更多的时间,还是将注意力转移到其他事情上更好。 没有属性可引起注意的图表类似于第一张图片。 最有可能的是,观众会太懒惰以至于无法理解,并且在8秒钟之后,他们会失去兴趣,而不会收到任何信息。 如果该图看起来像第二张图片,那么观众一眼就能掌握所选的信息。 比它想像的要快。 即使8秒钟后读者将注意力转移到其他事物上,信息的最重要部分也会被接收。

从此图表中获取信息的唯一方法是完整阅读它:



修改后的时间表立即将观众的注意力吸引到特定的“发现”上:需要做一些隔音工作。


GitHub上的Jupyter Notebook

第5部分:像设计师一样思考


对我来说,设计师是描绘美丽图画的人。 我不是设计师,从来没有美丽的图画。 幸运的是,数据可视化更加容易。 必须考虑以下几点来开发图形:可负担性, 可访问性和美观性。

机会。 当我们拿裁缝师的剪刀时,立即可以清楚地知道将拇指放在哪里,还有几根手指在哪里。 附有时间表:观众应该立即了解该时间表在哪里看以及如何处理。 为此:

  1. 突出重点。 建议选择不超过10%的可视化元素,否则效果会消失。 “在鸽子中很容易找到鹰,但是当有更多的鸟类时,它就会越来越难。”
  2. 消除干扰。 “完美的实现不是在没有东西可添加时,而是在没有东西要去除时”,-Antoine de Saint-Exupery。
    一个 并非所有数据都同样重要。 摆脱非关键组件。
    b。 当不需要零件时,进行汇总。
    c。 定期问自己:如果扔掉,情况会有所改变吗? 不变-扔掉。
    d。 将背景项目发送到背景。 为此使用灰色。
  3. 创建清晰的信息层次结构。 使用吸引人的不同属性,向您的听众展示他们需要接收信息的顺序。 例如,如下图所示:


GitHub上的Jupyter Notebook

有空 可访问性的概念建议设计应适合具有不同能力的人。 这包括具有不同经验,知识,技术技能以及在主题领域中参与程度不同的人员。 您可以成为一名工程师,但不需要高学历的读者来了解您的日程安排:

  1. 不要太复杂。 如果可能,请使用视觉上干净的字体(Arial),清晰的单词,简短的句子。
  2. 文字是您的朋友。 图表至少应具有标题和轴名称。 让我们看看简单的文本如何改变图形的感知:

没有文字


这张图是关于什么的?



最低要求文字


开始有一些东西出现了:自5月以来,有些申请的处理量少于收到的申请量。



很多文字


现在一切都清楚了:人们已经走了,团队无法应对,有必要再聘请两名专家。



GitHub上的Jupyter Notebook

美学。 最近在哈布雷(Habré)上有一篇文章“ 国际和本地东方社区YouTube频道评论的可视化 ”。 老实说,我仍然不明白为什么需要它,以及我从图表中可以得到什么信息……但是它们多么美丽! 我很高兴地看着它(什么都不懂)。 将额外的时间和精力花费在时间表的美感上,可以增加听众对他们更有耐心和注意力的机会。 因此,观众很有可能会理解您想要传达的内容。

为此:

  1. 明智地使用颜色。
  2. 注意对齐。
  3. 腾出更多空间(空白空间)。

有关如何使图形具有美学外观的示例:




已成为



GitHub上的Jupyter Notebook

第6部分:可视化的批判分析


作者提供了5个出色的可视化示例,并详细检查了为什么采用这种方式。

我喜欢这个例子:


GitHub上的Jupyter Notebook

  1. 独特的视觉层次结构:我们阅读标题,转到粗体数字,从右到左,从中到文本“未满足的需求(差距)”。 几秒钟后,我们就会掌握:如果什么都不做,那么未满足的需求就会增加。
  2. 从“未满足的需求(差距)”中,我们阅读了所有标签。 我们知道,由于专栏直接签署,董事和新董事的主要来源会迷失。
  3. 负列的概念非常有趣。

第七部分:叙事课


一个好的故事令人兴奋。 基于文学和电影的经验,作者展示了如何使用数据讲述有趣的故事。 提示之一:在准备演示文稿之前,写下一个“大想法”(用一句话表达主要思想)和“三分钟的故事”(在正文的半页中描述主要发现)。

每个故事都有3个主要部分:开始,中间和结尾。

  1. 开始 表示有问题。 如果没有明确的问题,那么也许也不需要介绍。 “我为什么对此感兴趣?”
  2. 中间 。 显示如何解决问题。 “我为什么可以做出建议的决定?”
  3. 结束了。 呼吁采取行动。 “我需要立即开始做些什么来解决问题?”

有两种主要的讲故事策略:

1.按时间顺序:

一个 确定问题
b。 收集数据以更好地了解情况。
c。 我们分析了数据(从不同角度检查了情况,并考虑了其他因素)
d。 找到了解决方案
e。 基于所有这些,我们建议您采取以下措施

2.从头开始:

一个 建议做某某
b。 我们通过数据支持此建议。

第8部分:将它们放在一起


作者通过本书的所有步骤和课程为读者提供了一个示例:

  • 进度安排不好
  • 描述表示上下文可能是什么,
  • 选择一个好的可视化方法,
  • 清除所有垃圾
  • 确定将注意力集中在哪里,并使用吸引人的属性,
  • 使日程安排具有美学外观,
  • 准备完整的演示文稿。

您可以在书中看到示例。我建议阅读。

Source: https://habr.com/ru/post/zh-CN422093/


All Articles