学习Tableau的目的在于通过可视化发现和探索见解,因此,选择合适的可视化图形就是至关重要的一步。在上一篇文章中(T-可视化最佳实践:如何选择可视化图形?),我们介绍了可视化的原理、可视化的心理学,并介绍了如何选择图形的方法,在这一篇中,我们会深入分析“选择可视化图形与增强分析”的进一步逻辑。

我的分析基于以下的认知假设:人类的直觉方式是一致的,因此同一个问题,存在适用于所有人的最佳可视化实践的。结合官方的的说明和我的实践,我想对“如何选择可视化图形”及“如何增强可视化图形”展开逻辑性的分解,希望帮助更多的人利用可视化辅助决策。——下列方法不限于Tableau。

 

一、从问题到可视化增强分析的过程

面对着销售数据、业绩数据等,我应该使用折线图还是条形图?直方图还是盒须图?饼图还是树形图?如果直接提出这样的问题,你将难以获得令人满意的答案。为什么?

可视化并非始于你拥有什么数据,而始于你问什么问题。

比如说,“哪个区域的销售额最高?” 基于这个问题,我们去寻找数据(区域、门店、每天、销售额等),然后聚合到区域+销售两个要素(问题所包含的),如果我们有10个区域,那就是10个数值,如何查看谁更高?

数字显然不是最好的方式,我们可以选择长度、大小、形状、颜色等直观的方式展示,比较而言,最好的方式大概是长度,如下图:

屏幕快照 2019-05-27 上午8.37.30.png

进一步,我们再问“哪些区域的销售额高于总公司的平均值?” 在上面的基础上,我们需要添加一个新的角度去比较平均值(大小?形状?颜色?粗细等?参考线?)这里的选择就比较多,比如我们用颜色区分高于/低于平均值的区域,添加一个参考线,或者干脆计算与平均值的差异,甚至添加一个分类字段。当然,你也可以下面的几个方式组合到一个视图,做成一个大团圆。

屏幕快照 2019-05-27 下午7.10.14.png

在已有可视化基础上,随着问题的深入不断地增加新的可视化元素(比如颜色、参考线等),或者增加新的数据字段(比如计算字段、分类字段),我们都可以称之为“增强可视化分析”,这也是大部分可视化分析的关键。

在这篇文章中,我们将重点介绍善用人类的直觉元素,随着分析的深入做可视化的增强分析。

二、可视化的起点是问题

问题是探索和发现的起点,通过可视化回答问题或者验证假设,则是最终的终点。如何更好的提问题,从而建立可视化图形的起点呢?

一个恰当的问题,关键是需要充分理解听众的需求。假设你要给总裁办公会议汇报季度业绩报告,你需要提供“整个季度”的业绩数据,总裁办公会议的与会者(听众)关心的都是high level的问题,绝对不会问某个门店的奶瓶为什么卖少了,这就意味着回答问题需要数据聚合度必须足够高,他们关心的是高聚合数据中的趋势及重大变化的线索,你需要think big,需要广角的问题。

好的可视化并非始于你拥有什么数据,而始于你问什么问题。

所有的分析都是在验证某个假设,证实或者证伪。

 

三、存在普世的相互关系及其最佳范式

为了证实或者证伪问题的假设,我们需要把问题用数据可视化的方式展示出来。在这里,存在某种意义上的普世框架,为什么?一方面因为人类的直觉是一致的,而引发直觉反馈的诱因基本相,另一方面问题的归类是有限的,我们可以为有限的问题分类找到最佳的可视化方法,基于此的视图就是可视化最佳实践。

我们进一步分析可视化图形,每个图形都是形式和内容的统一体。形式就是可视化的表现形式(折线图、条形图、还是散点图),内容(或者说本质)是可视化所包含的数据关系。每一个问题,必然包含了两种或以上的要素;内容就是多种要素的关系。某种意义上讲,所有的分析都是比较,只是形式不同而已。所有就有那句重要的话:

「没有比较就没有分析。」

在之前的文章中,我们借鉴《用图表说话》一书的分析框架,把数据的相关关系分为五类:成分、项目(对比)、时间序列、频率分布和相关性,如果加上地理分析,则总共六种典型的类型。所有的问题,都是一种或者多种类型的组合。了解更多可以参考我的读书笔记:

这六种数据关系,分别对应多种最佳的可视化实践图形。比如看到饼图,我们就会推导每个部分的占比——成分(part to whole);看到折线图,直觉就是随时间的趋势变化等。简而言之,每一位做可视化分析的人,都应该记住下面的这个图,它对应了主要的数据关系与最佳可视化图形的匹配关系。

Screen Shot 2019-02-11 at 10.24.24 AM

当然,现实情况远远没有这么简单,爱因斯坦有句话说,“凡事都要追求简单,但不能过于简单”。随着数据增加,有时候我们还需要更加高级一些的图形,比如树形图、堆叠条形图、堆叠面积图等,这就走向了增强分析——随着问题的深入,通过增加形状、颜色、大小等视觉要素,增加了更深的分析维度。我在上面的基础上增加了Tableau的常见可视化,如下:

如何选择图形.png

 

四、在最佳范式之上,施展你的艺术

真正的艺术大师,体现在问题复杂时的处理艺术。简单的问题,我们都会作出统一的答案,比如“随时间变化的销售额波动”;但是面对复杂的问题,经验、艺术和感悟的能力就会浮出水面,以至于每个人对下面的问题会给出差异巨大的答案——“不同区域中,各州的营收与利润对比”( compare sales and profits measures within states across different regions.)此题目是Tableau CP的测试题,除了下面的拙劣的方式,我们还可以有更“直觉、直观”的表达。

屏幕快照 2019-05-27 下午8.32.49.png

如果一个问题中只包含两个元素,比如区域和金额,最佳可视化这两个元素相对关系对应的图形(见上一部分)。现实中,一个问题中的字段要素大多超过三种,应该如何形成最佳的可视化实践呢?这里有几个步骤。

1、务必清楚你的分析焦点是什么

可视化属于一种注意力经济,注意力是最宝贵的资源。一个问题只能有一个焦点,如果不是,那就把它分为两个问题。同时想表达的观点太多,只会让观众失焦。比如我们想要分析“各细分市场,多年来的收入趋势情况”,这里面包含了三个字段:细分市场、年度、营收,细分市场和年度是维度,用来分类,营收是度量。随着焦点的不同,视图也会不同。

这里的焦点自然是“随着时间的收入趋势”,很明显是“时间序列”类似,因此我们使用折线图来表示。我们把焦点所对应的两个字段日期和营收分别拖到X轴和Y轴,形成了一条折线图。

屏幕快照 2019-05-27 下午9.06.03.png

2、通过点缀的方式增加第二层、第三层……第N层的数据元素

如何添加第二个维度字段呢?这是分析的重点。上图展示了两种方式,一种是保持原有结构基础上使用颜色代表细分市场,另一种是细分市场作为行标题,形成了矩阵折线图。

回到我们的问题,“各细分市场,多年来的收入趋势情况”,两种方式都能回答这个问题,但是,谁更直观?更能触发我们的直觉而无需思考?很明显是用颜色代表细分的方式更直觉。

这两个图形的深层差别是,右侧的图形试图表达两个焦点信息,其一是年度,其二是细分,因此它们占据了X轴和Y轴,而左侧的图形只有一个焦点:时间的变化,因此Y轴保持了度量标尺不变。

原则:好的增强分析是不改变原有视图焦点的增强分析,同时直观可见。

在可视化分析中,X轴和Y轴上,一定要放在我们最重要的信息。坐标轴的改变意味着焦点的改变。

比如,如果我们要在上述的基础上,增加对比“各细分市场的利润变化”,但是并非作为焦点出现,而仅仅是可视化表达+讲述时诠释,我们就没必要生成新的度量折线,而可以用线条的粗细来表示,如下图(左)。但是你会发现,粗细难以直觉地帮助我们,因此我们可以考虑增加形状,突出前后的差异。我们注意到“消费者”板块的销售大增,但是利润下滑,为了突出这个问题,我们用形状代表利润的同比差异,用大小代表同比差异的大小(下图右上)但是我们发现想要突出的下滑数据相对其他年份的同比被掩盖了。因此,我梦改变用大小代表差异的思路,改用形状的上下标记来代表同比差异的正负——此时我们只想表示利润下滑而已(下图右下)。

屏幕快照 2019-05-27 下午9.39.50.png

如此,我们在没有改变主视图焦点的基础上,增加了新的利润指标,同时根据数据的问题快速调整了表现形式。

从这个过程中就会发现,为什么数据分析应该是业务人员而非IT人员来做,因为业务人员会根据业务的理解和想要表达的数据结果灵活的选择展示的形式,同时不会丧失表达的实质内容;但IT人员不具备这样的解释能力。

4、必要时,更改你的主视图

在上面的分析中,我们保持了主视图焦点——多年的营收变化趋势——不变,其他的要素都以点缀的方式呈现和说明。有的时候,我们需要进一步突出另一个数据,或者另一个数据无法作为点缀的方式出现(比如在营收上无法显示利润率,二者差距太大会引起直觉歧义),这时我们就要考虑更改我们的主视图。

比如,我们把上面的问题改为,分析“各个细分市场,多年的营收区域与利润率变化”,营收代表规模,而利润率反映质量。这里的主视角依然是“多年的变化趋势”,但是利润率和营收是对应的,放在一个标记上并不合适,我们就需要重建视图。

视图的焦点依然是“随时间的趋势”,我们把日期加到横轴,接下来加入销售额和利润率两个度量,适当对坐标轴和标记做修改格式,可能是这个样子:

屏幕快照 2019-05-27 下午10.58.50.png

虽然这里是用了日期,当时同时有两个度量时,这样的样式显然容易引起视觉混论,我们建议把绝对值改为条形图,而把比率(利润率)保持折线(下图左)。这样虽有进步,但是依然不够直观,我们进一步把销售额和利润率两个轴合并——“双轴”,然后隐藏标题,改为标题说明(下图右)。这样就清晰地看到不同细分的多年销售与利润率变化。

屏幕快照 2019-05-28 上午12.05.39.png

如果我们在这个视图基础上,我们想知道随时间的每年累积销售(上图只能体现对比,无法查看累积),我们就可以把各细分的销售予以整合,改为面积图(下图左)或者堆叠图(下图右)来显示。此时就不能使用双轴,否则数据会密集的堆积在一起。

屏幕快照 2019-05-28 上午12.10.49

上面这两个方式,虽然是说明同一个问题,但是适用于不同的背景需求。以维度为横轴,因此视图的焦点是随年度的波动,双轴图建立的“第二焦点”是分析各个细分销售与利润的相关性;而用面积图或者条形图的方式,“第二焦点”则是查看各细分的对比。这是两种关系的组合:

  • 双轴图:时间序列+相关性分析
  • 面积图:时间序列+总分关系+项目对比

这也进一步证明,为什么数据分析应该是业务人员而非IT人员来做?因为IT人员为无法把基于隐形的假设和上下文的需求调整,快速地反映到视图中来。

 

4、用直觉检验你的图形,无需解释的图形才是最好的图形

不管是在主视图基础上的点缀增强,还是重建主视图的分析增强,最后一步都要经过“直觉”的检验。

好的可视化是无需解释或解释成本很低的可视化,往往几个关键词的引导就可以帮助听众理解整个数据关系并发现线索;而不好的可视化,不仅无法直觉地发现数据结论,甚至会引起内心的直觉痛苦,我称之为“直觉不适”,这是最糟糕的情况。不幸的是,这种情况经常遇到,特别是由IT部门为业务部门提供跨部门可视化时。

检验的标准是什么?

是简洁,是人性,是直觉,是能否引起无需思考的动物性反馈。

  • 我的可视化重点突出吗?是否清晰地表达了最终的结论。
  • 其他人可以无需辅助,就能轻松解读你的最终结论,而不至于出现错误的解读或者歧义。
  • 能否和前后的背景相一致。

 

五、注意的要点

总结几点如何做增强分析的要点,如下:

1、最重要的决定是,选择合适的图形。而选择图形由问题和所要表达的数据线索决定。

2、首先建立视觉焦点:把最重要的字段,放在X轴和Y轴上,

3、好的增强分析是不改变原有视图焦点的增强分析,同时直观可见。

4、善用能引起直觉的表达方式——位置、颜色、形状、大小等。

5、把增强可视化分为“三步走”:

  • 最重要的可视化焦点是什么?加入坐标轴;
  • 在原有视图上增加非关键信息,或者重建主视图引入其他关键信息:使用直觉要素;
  • 用直觉检验。

 

最后,推荐官方的两个资源,

本文关联另外两篇文章:

May 28, 2019 mid-night
May 28, 2019 Morning-revise