【特别说明】强烈建议先阅读最新博客:Tableau 如何合并数据· 顿悟后的究竟指南,可以作为连接并集、连接、混合的总纲!万分重要!

喜乐君· 数据连接专题

最新修改:把并集作为数据连接的一部分,而非数据整理的一部分。在「如何合并数据·顿悟后的究竟指南」中详细说明了逻辑。

按照技术的术语来说,数据分析之前有一个非常重要的阶段是数据的抽取、转化和加载的过程。专业术语称之为ETL(Extract–transform-load),通俗的讲,就是把清洗脏数据、按需加工数据从而为分析提供准备。

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关系到BI项目的成败。”

Tableau Prep是敏捷ETL工具,为业务用户提供了轻松简单处理数据的友好工具。坦言之,Prep的出现让我真正地热爱Tableau至今,它补充了Tableau从可视化分析走向了自助化分析的完整版图。

最近正在准备Tableau的视频课程,因此在体系化的、从业务角度出发梳理整个脉络体系。今天,我用一篇文章,试图简明、全面地概括整个软件最关键的功能。

一、Prep的功能介绍

prep的功能可以分为数据连接和初次加工、数据清洗和深度加工、数据发布三个阶段,所有的数据过程基本都要完整经过这个过程。我们可以把数据看作是生病的病人,Prep帮助我们诊断明显的或者隐藏的各种病情并完成治疗,同时还能根据需要做各种保健,之后送出医院。数据整理我们分为两个步骤,(针对数据错误)数据清理和(针对需求)数据结构转化,因此就成了以下四个部分。

Tableau Prep 整理框架 0 框架.png

第一步,我们需要先把用我们的诊疗设备(prep)连接到“数据病人”,为了更好的诊断,我们建议连接数据库,从而完整地了解;为了提高诊疗的性能,我们有可以先建立样本望闻问切,找到思路后再运行全部的数据。连接之后有一部分轻处理工作,可以对“数据病人”做一些基本的数据整理。

第二步,“数据会生病”,小病看保健,大病做手术。前者比如重命名、赋予字段数据角色、复制移除等;后者如修改、筛选、分组、拆分。——这一部分是数据清洗的关键,面向的都是数据的异常和错误。

第三步,治病要治标也要治本,这才是关键。根据分析的需要,我们需要对数据进行深度的加工,比如多个数据源的合并和连接,调整数据的粒度(详细级别),甚至必要时做好数据转置等。

第四步,把数据导出,放在本地或者作为数据源发布共享。

 

二、数据连接与初步处理

数据连接是分析的起点,这里包含了数据连接、样本设置和轻处理三个环节。

1、Tableau desktop和Prep都可以轻松连接你的数据源,不管是本地文件还是数据库文件。本地文件可以使用通配符创建并集,服务器可以使用初始化SQL简化数据连接的过程。

2、作为大数据分析产品,我们可以基于样本做分析,之后在总体上运行样本的处理规则,因此使用样本可以加速处理过程。快速抽样是选择数据源的最后的数据,提取更快,而随机抽样更加全面。

3、字段也需要处理,最常见的是字段的数据类型错误,比如身份证应该是字符而非数字,这里可以点击字段左上角的abc标记轻松修改。 同时,并非所有的数据字段都是分析必备的,因此可以移除字段;而使用筛选器可以排除或者保留字段中的特定数据,确保分析时的数据准确,并减少分析范围,比如仅筛选最近三年的订单信息。

Tableau Prep 整理框架 1-1.png

4、在本地数据的数据连接阶段,我们还会遇到多个文件的并集合并Union,在连接面板中,建议使用通配符来完成自动匹配。

 

三、数据清洗与数据深整理

这一部分是Prep的关键,数据会生病,我们要诊断并针对性治疗。完整的数据整理可以分为数据清理(错误)和数据结构转化(优化)

1、数据清洗 Data Clean

数据清理可以分为字段名称的清洗数据的清洗两个部分,前者针对构成分析的维度和度量名称,后者针对明细数据。

Prep 数据清理两个部分.jpg

字段的整理主要是修改字段名称(比如“单位”改为“单位名称”)、按照分析工具的要求赋予字段特定角色(比如给“省”赋予“地理角色”,从而生成地图),以及基本的字段操作(字段移除和复制等)。

而数据的清理相对而言更加重要,也更加复杂。最简单的是直接双击修改数据——适用于少量的数据异常;如果批量的数据异常,则推荐使用“分组和替换”批量修改,比如按照字符来替换。除此之外还有三大操作:筛选器、清理和拆分。分别用于数据的保留或排除、批量清理字符和拆分字段。而所有的这些操作,其实都是在数据上执行的“计算”。如果遇到了这些快捷方式无法完成的问题,就可以使用计算字段来实现,比如常见的left、mid函数,makedate函数等等。

Tableau Prep 整理框架 2-1

2、数据转化

上面说的是修改数据错误,另一类型的数据操作是数据没有错,但是结构需要根据分析的需要调整——注意是分析的需要,所以在不同情况下调整自然会有不同,无所谓对错,而在于需求。

常见的按需调整有三类:数据合并(并集或连接)、数据聚合(更改数据层次)、数据转置(更改行列结构)。特别是数据聚合,常用于修改数据的颗粒度(或者称之为数据级别),比如把100万行的数据根据需要调整为1万行的数据颗粒度,从而加速分析过程。

在prep中,可以通过可视化的拖拽轻松完成这些操作,并能使用颜色直观地查看数据结果。

Tableau Prep 整理框架 3-1.png

四、数据导出

最后,我们要分享整理的结果,要么保存为本地文件,要么通过数据源发布到服务器以供更多人使用,Tableau Prep都可以轻松实现。

而且,Prep可以让我们在任何一个整理的环节跳转到desktop预览,从而查看整理的结果。

Tableau Prep 整理框架 4-1.png

一个思维导图,基本理清了所有的prep脉络,按照这个思路练习一遍,即可以轻松掌握。

 

by 喜乐君 Tableau partner and QA certification

Aug 14, 2019
Aug 20, 2019 Sichuan
Aug 21, 2019 Beijing