//我是Tableau的解读者,而非官方文档的搬运工。

早上学习,突然顿悟,这可能是我能写出来的,关于数据合并的最究竟的文章了!以此为指引,可以完全掌握Tableau的多种数据合并方法,特别是最让人头疼的「数据混合」。

如果这篇博客能完整领会,其他的都不用看了,包括我之前写的几篇。 见招~ by 喜乐君

 

一、数据合并的几种方法与相互位置

严格的讲,数据合并只有两类:相同的上下相续,不同的前后相接,前者称之为「并集」union,后者称之为「连接」join,再无其他类型。

不过,连接在不同阶段又有巨大的差异,因此不得不分为两种情形来说,一种是连接数据库后的数据连接,此时是行级别的,相对简单易懂;另一种是在构建视图之后,想在聚合的结果之后增加来自于另一个数据库的聚合结果,此时是聚合级别,相对就不容易理解——毕竟聚合的层次需要的是高级的抽象思考和想象力。后者在Desktop中起了一个恰当但又有些让人迷糊的名字:数据混合blend

这就是并集union、连接join和混合blend的纠缠历史。

为了更好的理解,我用下面的这个图来代表它们在分析过程中的相对位置,借助这个图形,我想总结几点:

屏幕快照 2019-08-30 上午9.35.54

1、「数据并集」可以视为是数据整理的一部分,它几乎、总是与数据连接前后紧挨着发生——如果需要并集的话;

2、如果数据需要整理,一定要先整理,再连接;因此,数据连接几乎总是在数据并集后面;

2、三者的关系上,数据并集更靠近数据源,数据连接是构建视图聚合的前提,数据混合更靠近视图,因此,几乎、必然、总是上面的顺序,不可能有颠倒;

3、数据混合是构建视图的一部分,在数据混合发生时,主视图已经构建——也就是已经根据问题需要创建了数据聚合——而后数据混合在原来主视图基础上,增加了辅数据源的聚合数据,可以理解为数据连接的高级形式。

和并集、连接不同,数据混合需要明确的区分主数据源和辅数据源——主数据源构建了主视图,辅数据源相当于修补匠。

屏幕快照 2019-09-02 上午7.57.38.png

done ~

理解了上面的图形和总结,你几乎就可以完整的理解三者方式的完整意义!

 

二、Desktop和Prep的差异性

desktop是做视图可视化的,而prep是做数据整理的,prep中绝对没有可视化视图的概念,因此就没有desktop中基于可视化视图的数据混合!(补充:有人说prep也有视图的概念,可能在相关专业和很多数据库中中,把聚合而成的table都称之为一个view。因此,我用“可视化视图”来代替desktop中的视图)

但是,可视化视图的本质是基于问题层次的数据聚合,问题代表层次,层次即聚合。在prep中,没有可视化视图,但是有聚合,每一个聚合都是虚拟的数据仓库,因此可以理解为新的行级别集合。正因为此,prep可以执行多次数据整理、聚合后的连接,desktop却不行。

通过下面的图可以看到,prep中用另一种方法构建基于聚合的数据合并,万能、无敌的“聚合+连接”组合!既然可以随时聚合,又能反复创建,因此就可以在任何层次执行数据连接,就可能实现desktop中的数据混合功能。

Beautiful ~

屏幕快照 2019-08-30 上午9.36.23

下面这个图片,可以用来理解Prep中的“数据混合”过程。借助 聚合+连接 的组合,Prep可以在任何层次实现desktop中的数据混合过程——本质上都是先聚合再连接,区别在于desktop构建了可视化视图,prep只是构建了聚合数据表。

屏幕快照 2019-09-02 上午7.55.14.png

 

三、Desktop中三种方法的说明与对比

进一步展开,可以对比desktop中的三种合并方法,使用下图,如果理解了上面的内容,如果有了顿悟的感觉,下图可以跳过去了,安心休息。

屏幕快照 2019-09-03 上午9.10.49

四、理解数据的层次就是理解问题的层次,应该作为数据分析的起点

总结几句话,以后再慢慢展开,一会儿该工作了……

1、数据库中只保存了数据的关系,但是没有数据的层次(我不说多维数据源啊)

2、构建视图的过程,其实是分析问题的层次,然后按照问题层次把数据表达出来,比如CEO关系销售总额,部门经理关系分公司排名,主管只关心商品的毛利情况等;

3、构建视图的关键,是找到问题的层次;

4、找到了问题的层次,仅需要把数据聚合出来,然后选择合适的图形就好。

所以,我把我的冰山又做了一些这方面的补充,帮助理解:

层次与冰山

Done!

这应该是我写的最快的博客了,心中流淌,信手拈来。

早安,Tableau~

早安,Tableau users~

数据合并系列

 

Aug 30, 2019
Sep 2, 2019 update pictures
Sep 3, 2019 update

吴玉朋 微信二维码

喜乐君 Tableau Partner ,产品销售、服务和培训
18615511300(微信)