【数据整理】一份思维导图,学完Tableau Prep

【特别说明】强烈建议先阅读最新博客:Tableau 如何合并数据· 顿悟后的究竟指南,可以作为连接并集、连接、混合的总纲!万分重要!

喜乐君· 数据连接专题

最新修改:把并集作为数据连接的一部分,而非数据整理的一部分。在「如何合并数据·顿悟后的究竟指南」中详细说明了逻辑。

按照技术的术语来说,数据分析之前有一个非常重要的阶段是数据的抽取、转化和加载的过程。专业术语称之为ETL(Extract–transform-load),通俗的讲,就是把清洗脏数据、按需加工数据从而为分析提供准备。

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关系到BI项目的成败。”

Tableau Prep是敏捷ETL工具,为业务用户提供了轻松简单处理数据的友好工具。坦言之,Prep的出现让我真正地热爱Tableau至今,它补充了Tableau从可视化分析走向了自助化分析的完整版图。

最近正在准备Tableau的视频课程,因此在体系化的、从业务角度出发梳理整个脉络体系。今天,我用一篇文章,试图简明、全面地概括整个软件最关键的功能。

一、Prep的功能介绍

prep的功能可以分为数据连接和初次加工、数据清洗和深度加工、数据发布三个阶段,所有的数据过程基本都要完整经过这个过程。我们可以把数据看作是生病的病人,Prep帮助我们诊断明显的或者隐藏的各种病情并完成治疗,同时还能根据需要做各种保健,之后送出医院。数据整理我们分为两个步骤,(针对数据错误)数据清理和(针对需求)数据结构转化,因此就成了以下四个部分。

Tableau Prep 整理框架 0 框架.png

第一步,我们需要先把用我们的诊疗设备(prep)连接到“数据病人”,为了更好的诊断,我们建议连接数据库,从而完整地了解;为了提高诊疗的性能,我们有可以先建立样本望闻问切,找到思路后再运行全部的数据。连接之后有一部分轻处理工作,可以对“数据病人”做一些基本的数据整理。

第二步,“数据会生病”,小病看保健,大病做手术。前者比如重命名、赋予字段数据角色、复制移除等;后者如修改、筛选、分组、拆分。——这一部分是数据清洗的关键,面向的都是数据的异常和错误。

第三步,治病要治标也要治本,这才是关键。根据分析的需要,我们需要对数据进行深度的加工,比如多个数据源的合并和连接,调整数据的粒度(详细级别),甚至必要时做好数据转置等。

第四步,把数据导出,放在本地或者作为数据源发布共享。

 

二、数据连接与初步处理

数据连接是分析的起点,这里包含了数据连接、样本设置和轻处理三个环节。

1、Tableau desktop和Prep都可以轻松连接你的数据源,不管是本地文件还是数据库文件。本地文件可以使用通配符创建并集,服务器可以使用初始化SQL简化数据连接的过程。

2、作为大数据分析产品,我们可以基于样本做分析,之后在总体上运行样本的处理规则,因此使用样本可以加速处理过程。快速抽样是选择数据源的最后的数据,提取更快,而随机抽样更加全面。

3、字段也需要处理,最常见的是字段的数据类型错误,比如身份证应该是字符而非数字,这里可以点击字段左上角的abc标记轻松修改。 同时,并非所有的数据字段都是分析必备的,因此可以移除字段;而使用筛选器可以排除或者保留字段中的特定数据,确保分析时的数据准确,并减少分析范围,比如仅筛选最近三年的订单信息。

Tableau Prep 整理框架 1-1.png

4、在本地数据的数据连接阶段,我们还会遇到多个文件的并集合并Union,在连接面板中,建议使用通配符来完成自动匹配。

 

三、数据清洗与数据深整理

这一部分是Prep的关键,数据会生病,我们要诊断并针对性治疗。完整的数据整理可以分为数据清理(错误)和数据结构转化(优化)

1、数据清洗 Data Clean

数据清理可以分为字段名称的清洗数据的清洗两个部分,前者针对构成分析的维度和度量名称,后者针对明细数据。

Prep 数据清理两个部分.jpg

字段的整理主要是修改字段名称(比如“单位”改为“单位名称”)、按照分析工具的要求赋予字段特定角色(比如给“省”赋予“地理角色”,从而生成地图),以及基本的字段操作(字段移除和复制等)。

而数据的清理相对而言更加重要,也更加复杂。最简单的是直接双击修改数据——适用于少量的数据异常;如果批量的数据异常,则推荐使用“分组和替换”批量修改,比如按照字符来替换。除此之外还有三大操作:筛选器、清理和拆分。分别用于数据的保留或排除、批量清理字符和拆分字段。而所有的这些操作,其实都是在数据上执行的“计算”。如果遇到了这些快捷方式无法完成的问题,就可以使用计算字段来实现,比如常见的left、mid函数,makedate函数等等。

Tableau Prep 整理框架 2-1

2、数据转化

上面说的是修改数据错误,另一类型的数据操作是数据没有错,但是结构需要根据分析的需要调整——注意是分析的需要,所以在不同情况下调整自然会有不同,无所谓对错,而在于需求。

常见的按需调整有三类:数据合并(并集或连接)、数据聚合(更改数据层次)、数据转置(更改行列结构)。特别是数据聚合,常用于修改数据的颗粒度(或者称之为数据级别),比如把100万行的数据根据需要调整为1万行的数据颗粒度,从而加速分析过程。

在prep中,可以通过可视化的拖拽轻松完成这些操作,并能使用颜色直观地查看数据结果。

Tableau Prep 整理框架 3-1.png

四、数据导出

最后,我们要分享整理的结果,要么保存为本地文件,要么通过数据源发布到服务器以供更多人使用,Tableau Prep都可以轻松实现。

而且,Prep可以让我们在任何一个整理的环节跳转到desktop预览,从而查看整理的结果。

Tableau Prep 整理框架 4-1.png

一个思维导图,基本理清了所有的prep脉络,按照这个思路练习一遍,即可以轻松掌握。

 

by 喜乐君 Tableau partner and QA certification

Aug 14, 2019
Aug 20, 2019 Sichuan
Aug 21, 2019 Beijing

【数据整理】一份思维导图,学完Tableau Prep”的一个响应

Add yours

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Twitter picture

您正在使用您的 Twitter 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s

网站通过 WordPress.com 打造.

向上 ↑

%d 博主赞过: