按照技术的术语来说,数据分析之前有一个非常重要的阶段是数据的抽取、转化和加载的过程。专业术语称之为ETL(即Extract–transform-load),通俗的讲,就是把清洗脏数据、按需加工数据架构从而为分析提供准备。

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计的好坏直接关接到BI项目的成败。”

Tableau Prep是敏捷ETL工具,为业务用户提供了轻松简单处理数据的友好工具。坦言之,Prep的出现是我第二次对Tableau真正激发起应用信心的关键,它补充了Tableau从可视化分析走向了自助化分析的完整版图。

今天,我用一篇文章,试图简明、全面地概括整个软件最关键的功能。

一、Prep的功能介绍

prep的功能可以分为数据连接和初次加工、数据清洗和深度加工、数据发布三个阶段,以此对应ETL的三个普遍过程。所有的数据过程基本都要完整经过这个过程,我们可以把数据看作是生病的病人,Prep帮助我们诊断明显的或者隐藏的各种病情并完成治疗。

Tableau Prep 整理框架 0 框架.png

第一步,我们需要先把用我们的诊疗设备(prep)连接到“数据病人”,为了更好的诊断,我们建议连接数据库,从而完整地了解;但是为了提高诊疗的性能,我们有可以先建立样本望闻问切,找到思路后再运行全部的数据。第一次连接可以对“数据病人”做一些基本的数据整理:哪些数据不看可以隐藏,修改数据样式。

第二步,“数据会生病”,小病看保健,大病做手术。前者比如重命名、赋予字段数据角色、复制移除等;后者如修改、筛选、分组、拆分。——这一部分是数据加工的关键。

第三步,治病要治标也要治本,这才是关键。根据分析的需要,我们需要对数据进行深度的加工,比如多个数据源的合并和连接,调整数据的粒度(详细级别),甚至必要时做好数据转置等。

第四步,把数据导出,放在本地或者作为数据源发布共享。

 

二、数据连接与初步处理

数据连接是分析的起点,这里包含了数据连接、样本设置和轻处理三个环节。

1、Tableau desktop和Prep都可以轻松连接你的数据源,不管是本地文件还是数据库文件。本地文件可以使用通配符创建并集,服务器可以使用初始化SQL简化数据连接的过程。

2、作为大数据分析产品,我们可以基于样本做分析,之后在总体上运行样本的处理规则,因此使用样本可以加速处理过程。快速抽样是选择数据源的最后的数据,提取更快,而随机抽样更加全面。

3、并非所有的数据字段都是分析必备的,因此可以移除字段;而使用筛选器可以排除或者保留字段中的特定数据,确保分析时的数据准确,并减少分析范围,比如仅筛选最近三年的订单信息。

Tableau Prep 整理框架 1-1.png

 

三、数据清洗与数据深整理

这一部分是Prep的关键,数据会生病,我们要诊断并针对性治疗。完整的数据整理可以分为数据清理(错误)和数据结构转化(优化)

1、数据清洗 Data Clean

数据清理可以分为字段名称的清洗和数据的清洗两个部分,前者针对构成分析的维度和度量名称,后者针对明细数据。

字段的整理主要是修改字段名称(比如“单位”改为“单位名称”)、按照分析工具的要求赋予字段角色(比如给“省”赋予“地理角色”,从而生成地图),以及基本的字段操作(字段移除和复制等)。

而数据的清理相对而言更加重要,也更加复杂。

Tableau Prep 整理框架 2-1

数据转化

Tableau Prep 整理框架 3-1.png

四、数据导出

Tableau Prep 整理框架 4-1.png

 

Aug 14, 2019
Aug 20, 2019 Sichuan