从这一期开始,我将完整地介绍Tableau的基本概念和主要技术细节,并逐步形成一个可以自成一体的体系。本文重点介绍下图中的第一部分“Data”,适用于几乎所有的BI软件,借助Tableau讲述大数据分析的基础知识。

学习路线图 Jul 16, 2019.jpg

一、 Tableau的基本界面

Tableau界面简介明了,主要的工作区域如下图所示,主要包含了菜单、左侧侧边栏(数据和分析)、功能区面板(页面、筛选器、标记、行、列)和可视化视图区。

最常用的地方是左侧侧边栏、上方工具栏和中间功能区。Tableau的操作,基本上是清一色地从左侧数据和分析窗格,拖动到右侧各种功能区中。这符合人的直觉,所以上手也非常容易。比如要添加一个日期筛选器,就把日期字段拖动到“筛选器”功能区,根据弹窗设置即可。

2-0 Tableau 软件界面 z.jpg

不过,当我们拖拽不同的字段到不同的区域,往往会出现意想不到的意外的结果,比如为什么有时候是一条折线线,而有时候是条形图?这就需要理解底层的概念和逻辑。

 

二、DATA 关于数据的基础

如果我们要深入地了解一件事情,最近同时最难的方式就是理解背后的原理。在这里,想要深刻理解可视化复杂变化,就要明白背后Tableau的专利技术VizQL的逻辑,即“拖拽生成特定结果的逻辑”。

这一逻辑有三部分组成:如何识别数据并分类、如何描述数据特征、如何根据分类和特征执行动作。可用我下面的这个图来表示。

字段分析 Jul 16, 2019.jpg
如何理解Tableau的字段 (Jul 16, 2019 update)

1、Tableau如何识别数据和分类

说到数据,我们可以所看到的所有数据分为两大类:字符串和数字,可以理解为“文本性质的”和“数量性质的”两种,专业的术语多半用“定性字段”和“定量字段”来区分。定性字段用来描述是什么,美女、野兽还是海市蜃楼,定量字段用来描述有多少量,天有多高,海有多深,人生多短,爱有多痛,一切要用定量字段来描述,数据才有对比的可能。

在哲学的世界里,文字可以描述一切;在计算机的世界里,不仅仅要有文字,还要有对应的数量来说明多寡。这样数据才能被不断地聚合、不断地对比。

字符串中又有几个特殊的形式单独分离出来:日期、日期时间布尔值、地理值。

  • 地理值是具有地理位置属性的字符串字段,比如山东省、济南市,字符串被赋予地理角色后,就可以理解为地理值。
  • 日期是具有日期属性的字符串,日期时间是具有日期和时间(时分秒)属性的字符串,比如Jul 17, 2019 和Jul 17, 2019 06:20:46 ,分别代表今天和现在,动态变化的今天和现在,在Tableau中用两个函数代替——today() 和 now()。
  • 布尔值是具有判断属性的字符串——分别代表true和false。

类似的,数字也分为两个小类,简单理解为整数和小数,小数在计算机世界的通用名字叫“浮点”(float)。每种程序都有自己的分类法则,上面的数据分类在Tableau中就很明确了。

屏幕快照 2019-07-17 上午6.16.21.png

按照上面的分类,最关键的部分不是细节,而是两个大分类——定性字段(文本字段)和定量字段(数字字段);在Tableau中,我们用两个词来对应这两个分类,分别称之为“维度 Dimension”和“度量Measure”。他们代表了最关键的两大类型,在这里具有承上启下的关键作用——这是理解Tableau最基础的基础。

  • 维度:定性数据(性质:是什么)
  • 度量:定量数据(程度:有多少)

维度与度量 示例图jpg.jpg

2、Tableau如何描述内部特征

通过数据类型来识别数据之后,每个数据就有了意义。接下来的部分,我们还需要理解每个字段内部的数据关系,比如说日期,“入职日期”中的100个日期数值,和“工号字段”相比,具有怎样的差异性特征?深刻地理解这一个特征,有助于我们接下来的数据计算和呈现——计算依赖于数据的分类,而呈现依赖于数据的特征。

数据库从两个特征来描述字段内数据特征:离散与连续,分别代表有限数量和无限数量,比如“工号字段”是有限的,两个工号之间只有有限个可能,而“交易时间”和“销售额”是连续的,任意两个数值之间都可能存在更多的可能。

一般而言,维度是离散的,度量是连续的;特别之处在于日期和时间,它们属于维度,但是大部分情况下具有连续性。在Tableau中,工程师用两个颜色分别代表这两个特征,非常直观——用蓝色代表离散,绿色代表连续。这两个颜色会每时每刻出现在软件的各个字段胶囊上。

那为什么要区分离散和连续呢?这就涉及到我们看待多个数值相互关系的角度了,“业绩部门”是离散的,是因为我们希望看到的就是不同部门的对比;而“交易时间”默认是连续的,是因为我们更希望看到的是不同时间的连续性变化。所以, 离散看对比,连续看趋势,这又会影响可视化的展示环节,我们可以用下面的图,形象的展示二者的不同。

 

2- 1离散与连续s 截图转存

当然,字段的这种内部特征是默认的,但是可以更改,如果我们把连续字段改为离散字段,原来的坐标轴改为标题,一般而言,这只在日期和时间字段上有意义。

连续改为离散

上面的两个类型结合起来,我们就可以把所有的字段分为四个象限,代表内外两大特征:维度/度量和离散/连续的特征。根据分析的需要,我们经常会在不同象限的调整,特别是针对日期字段,后面我们结合问题来分析。

屏幕快照 2019-07-07 下午12.57.10.png

一个常用的场景是,“如何展示销售额贡献在不同区间内(以1万为间隔)的客户数量”,这里需要基于“销售额”创建一个离散的分类,也就是从连续的度量象限,切换到离散的维度象限,方法是在销售额基础上创建一个数据桶。数据桶可以理解为就是对连续度量的切片分割。

屏幕快照 2019-07-17 上午7.59.37.png

3、Tableau如何执行动作

上面我们描述了数据的分类方法(外部视角)和数据特征(内部离散/连续特征),而后,当我们要对数据做数据处理操作时,这些特征就意味着不同的行为方式。

结合数据的离散和连续属性,我们已经总结了一种数据行为的结果:离散生成标题、连续生成轴。而如果在一个视图中同时包含这两种操作,你会注意到,坐标轴对应的是刻度,而刻度是度量聚合的结果,分别对应的是不同类别维度下,销售额的总额是多少(聚合)。

屏幕快照 2019-07-17 上午7.41.19.png

这背后的逻辑,就是Tableau如何对数据进行聚合操作。针对维度和度量,聚合的方式也会略有差异,维度的聚合方式简单,主要是计数,对于具有连续特征的日期和时间而言,还可以执行最大值和最小值操作;度量的聚合则更加广泛,除了计数、最大值、最小值,最重要的聚合方式是求和、平均值、中位数等数据操作。

 

在多年的学习和使用过程中,为了更好地帮助更多人理解这个过程,我不断修改和完善一个数据的说明图,最新的更改如下:

字段分析 Jul 16, 2019

 

练习:

  1. 练习:将“分类”拖至视图行,将“销售额”拖到到视图列,查看字段与视图的关系;
  2. 把“销售额”放在列,“日期”字段拖至 行,样式改为“线”,修改连续或者离散,查看对视图的影响;
  3. 在度量的基础上,通过数据桶,改为维度(后续附图)

 

Jul 9, 2019
Jul 17, 2019

by 喜乐君

吴玉朋 微信二维码
Tableau Partner,QA Certification
提供企业级Tableau全产品培训服务
按天计费,可承诺按照培训后的效果付费