1108更新:补充字段部分的说明

更新: 23日参加Tableau故事慧的B站回放 https://www.bilibili.com/video/BV1pD4y197cQ

【过去立志于写最简单的LOD帮助文档,今天开始写可视化帮助文档,帮助更多业务用户深入使用Tableau——2020年10月】

回顾一下我的书,有几个地方我还没做到尽情的展开,其一是可视化图形中的高级图形,其二是TC10大案例和15大LOD案例。如果再有一次被迫闭关的机会,我就可以再写一本Tableau实践的书了(当然不会是460页这么厚了)。

另外,随着给客户交付的咨询之深入,几家高级客户开始迫切地需要系统地引导他们从初级可视化到高级可视化,避免千篇一律的条形图困境。于是,我近期开始思考,希望系统地展开「可视化图形」的部分,有几个考虑:

  • 必须是从业务的思路思考,也就是从问题出发,而非从图形出发
  • 必须循序渐进。不能把120个图形样式罗列在一张纸上让大家“挑选”,这种方式本质上是IT的思路,违背第一条
  • 为此,必须贯穿一个主线:分析问题、基本图形、增强分析。把计算的部分主要放在增强分析环节,可以脱离原理而单独理解

因此,我先阐述一下我的框架,然后争取用一个月时间,更新至少六篇播客,从而组成一个主题。等待持续修改后,择日可以汇总为pdf公开发行,帮助更多的人。

一、从问题到图形与从数据到图形

Nov 7, 2020

数据分析,或者说可视化分析的两个角度:从数据到图形(IT的方式)、从问题到图形(业务的方式)

……

Excel和Tableau代表两种思维方式。

……

(后期补充)

二、问题解析的多个角度

问题解析是分析的开始,是可视化的开始。这是在反复思考为什么我用了三年时间才做出来“购物篮分析”的最重要的结论。

那问题如何解析?

1、问题解析(静态的结构分析)

不管是“公司的销售额”这样的简单问题,还是“在购买标签的所有订单中,连带销售的各个子类别的金额及连带占比是多少”这样的复杂性问题。可以用一个尽可能简化的问题阐述,如下:

【11-07修改】每个问题,必然包括三个部分:分析样本、问题描述和问题答案。

  • 问题层次是名词,是问题主干中的描述性部分(定性字段qualitative)。
  • 问题答案是数词,是量化部分(quantitative)。

问题描述,一定是描述性的词语,分析中称之为qualitative values,或者描述性数据;比如说商品、工号、客户名称、日期等等。每个问题描述对应的字段,它对应的是业务中有限的数据集,比如客户名称对应交易中的1万1千名客户。——描述问题的描述性字段,用于展示业务中有限的分析对象;我们把这样的字段称之为问题的层次,它是接下来问题答案的依据。

而问题答案如何来的呢?这个涉及到问题回答的过程。

2、问题解析——动态的聚合过程

设想业务的数据记录中有1000万行交易,我们要分析公司总体的销售额,意味着1000万行交易对应的每一笔交易金额累加起来,才是答案。这个从业务明细对所有数据执行累加处理的过程称之为聚合。

聚合就是多个数字,按照指定的计算方法聚合为一个数的过程,比如利润总和、平均折扣、客户数等。常见的聚合方式是sum、avg、max、min、count、countd

因此说,聚合回答答案,虽然聚合最终的结果是数字,但是数字是逻辑上的数字(称之为度量),它的来源是聚合。因此,聚合度量回答答案,是更加准确的说法。

描述性的词语与聚合度量的关系是什么?

描述性的词语是聚合的依据,是限定条件。比如“三个类别的销售额聚合”,聚合过程就应该分别聚合为三个数,而非一个数。因此,描述性的词语才是问题的关键。

这个称之为“定性字段”或者“维度”。

而我特别喜欢Tableau的地方在于,它为这样的问题解析提供了最好的实现方法。相比之下,Excel的透视表、Power BI的字段定义,由于缺乏字段属性的分类,就给用户蒙上了一层厚厚的纸板——虽然我也是刚刚才深得此义。

故曰:维度描述问题是什么,聚合度量回答答案有多少。

维度和度量,是分析问题的起点。这就是字段的第一分类。所有的描述性字段默认都是维度,而所有的聚合都是度量。

在tableau中,通过位置区分维度和度量,维度在上,度量在下,不管是系统字段还是自定义字段。

从这里开始,就进入了理解Tableau的关键环节。

  • 问题的层次——数据的详细级别——维度字段的组合
  • 聚合度量——维度或者度量字段的聚合

字段衔接数据与问题,连接问题与图形的桥梁。前者在于维度和度量,后者在于连续与离散——连续的字段生成坐标轴,有了坐标轴才有了可视化绘制的空间。

三、从问题类型到图形类型

问题解析之后,可以通过理解问题中包含的问题本身(维度)与聚合之间的关系,确定问题的类型,进而确定图形的基本类型——这就是可视化图形中的主视图。主视图可能是问题的全部(简单问题),也可能只是最终图形的框架(复杂问题)。

参考《用图表说话》一书的分类框架,可以把基本问题分为主要几种:

  • 排序类问题
  • 时间序列问题
  • 占比问题
  • 分布类问题
  • 相关性问题
  • 地理分析问题

每一种问题都有对应的基本图形样式,而在每一种图形基础上,都可以延伸为更多的可视化图形。

图2-30 从问题类型到基本图形样式《数据可视化分析》

这种框架可以用多种方式表达,比如可以使用下面的方式,不过相比之下,我更喜欢用上面的图形,虽然有点丑陋,但是它包含了从问题到图形选择的本质的逻辑。

(图书中没有收录,早期版本)

我在书中第五章,就是沿着这样的框架展开:

  • 基本图形:条形图、折线图和饼图/数形图
  • 延伸图形:条形图的延伸、折线图的延伸和饼图延伸
  • 高级图形:分布图、相关性图形
  • 地理分析(第6章)

……

从基本图形到高级图形的延伸过程又是如何展开的呢?

四、从基本图形到高级图形

参见下一篇:【高级图形-1】从基本图形到高级图形的路径

在10月份重印的书中,我增加了如下的图形,描述了从基本图形到高级图形的扩展方式。主要从标记、坐标轴、分析参考线、字段和样本控制等展开。

我也希望从这个角度进一步展开,尽可能找到一条适用于业务用户的走向高级图形的路径。

高级图形的扩展有两个思路:

1、从样本、问题和答案的角度,任意环节都可以增加;

2、标记、坐标轴、功能,是实现样本、问题和度量扩展的落地方法。

……

五、高级图形中的筛选选择、计算选择

高级图形来自于两个角度,其一是问题复杂(包含了多个维度字段或者来自于不同层次的维度字段),这就需要使用狭义LOD表达式完成预计算;其二是构建样本复杂(比如困扰我多年的购物篮分析),构建样本有多种方式(筛选、集、交互),复杂情况下还需要参数和计算参与其中。

这就涉及到多种筛选器的选择和计算的选择,因此这一部分可以作为高级图形的拔高题。

特别说明:我个人从来没有做过包含角度函数的图形,这个有违业务分析的初衷,需要专业的高等数学的背景,而且没有客户为此付费,因此我目前还会避免这条路。

……

先将我的体系罗列于此,后期不断完善,如果有人愿意与我一起,则欢迎加入。

本文会在23日故事慧之后重新完善,补充详细的图片。

Oct 19, 2020

Nov 5, 2020 修改第一部分,把聚合作为动态分析部分,增加图片

Nov 7, 2020 补充问题解析的两个角度,补充聚合。维度是聚合的依据,要害要害。