Tableau官方刚刚发布了其最新的产品组件——Tableau Prep,看名字就知道是做数据准备的工具,具体来说,它可以“整合、规范和清洗数据“。

Use Tableau Prep to combine, shape, and clean your data for analysis in Tableau.

屏幕快照 2018-08-01 上午7.33.22

Tableau Prep 是一款直观、简洁和智能的工具,可有效清理和组织数据以供分析。

分析前的数据准备工作通常需手动完成且十分耗时,坦白说,这完全是一项枯燥乏味的工作。……您可使用 Tableau Prep 轻松准备数据。

在这里,我简单介绍一下prep的用处、操作界面,以及数据清理的几个方法,深度功能会有单独分析。(备注,2018年8月,已经更新中文版本)

一、简要介绍

自己在数据整理上耗费了很多的时间,深感数据整理的重要性和不易,因此迫不及待地下载下来尝鲜,果不其然,非常有效地整合了Tableau中有关数据ETL的各项工作。

入门帮助

第一次安装,建议看一下软件自带的一分钟视频教程:Help-Get started,没有字幕,动画就让你看点明白主要的步骤。

prep- help

Drag and drop or double-click to bring your tables into the flow pane, and then use familiar operations such as filter, split, rename, pivot, join, and union to clean and shape your data.

拖放或双击把数据表放到数据流面板中,然后使用Tableau中熟悉的操作,比如筛选、分割、重命名、转动、混合和并集等操作清洗和整理数据。

Each step in the process is represented visually in a flow chart that you create and control. Tableau Prep tracks each operation so that you can check your work and make changes at any point in the flow.

你的每一步操作都会在数据流面板中直观地反馈。而且Prep会记录每一步操作,从而确保后期检查你的工作并在任意一点做出修改。

面板介绍

在Tableau Prep中,通过多个视图展现了数据,最主要分为A数据连接区域、B数据流区域、C数据视图和D数据详情。

  • 流程面板 Flow pane (B):  A visual representation of your operation steps as you prepare your data. 直观的展现你的操作步骤。
  • 大纲面板Profile pane (C): A summary of each field in your data sample. 数据样本中每个字段的汇总视图。本身带有了可视化的元素,非常炫酷。
  • 数据方格Data grid (D): The row level detail for your data.数据的行级别数据详情。 也是prep后期导出的样子。

prep 面板

主要操作

  • 数据解释器:通过数据解释器,更好的连接Excel表格中的有效数据;
  • 数据抽取:通过Connections导入数据,并且增强了通配符匹配(Wildcard)功能,解决了之前需要通过自建可视化验证通配符输出的麻烦。
  • 数据清理:专门的Clean步骤,可以增加筛选、修改名称、修改格式等各种分析前的准备工作;从而使数据更干净。
  • 数据合并Union和混合Joint:增强了两个功能的可视化效果,而不是像Tableau一样简单的数据关联实现混合。
  • 数据计算:可以实现跨越层级的数据计算,可以进一步把数据计算字段,加入到数据准备阶段。
  • 数据流Flow:最后把数据清理的结果,以数据流的形式展现出来。

 

二、数据整理

在上面的图片中,我们可以看到,Tableau Prep实时显示了通配符匹配的结果,可以说Prep增强了Tableau的数据准备功能,而且是更上一层楼啊。

  • 1、Connect to Data 连接数据

    在这一步,可以清洗文件层面,比如合并多个数据表,就像上面一样。Prep特意区分了单个文件single file和通配符匹配WildCard两种类型。特别是后者,可以看到实时结果,再也不用自己用可视化验证了。

///重要提醒:我在这里犯了一个错误,提醒大家。 如果你的数据需要经常更新,比如我经常下载当月到当下的订单详情,今天0401~0413.xls,过几天就0401~0423.xls。这种情况下,千万不要把经常更新的文件加入到连接中 ,否则,每次重新关联数据,很多内容就会变化,特别像已经隐藏的字段。最好是用一个不变化的文件建立清洗规则,然后通过wildcard匹配其他文件。

还有一个办法,就是使用后面的union方式,类似于追加数据,而不是每次重建一座大楼——对于我这样的强迫症,可能有点难度,我希望整月的数据,在一个数据表中 😄 

  • 隐藏不要的字段

    • 在把tables拖入flow面板后,点击数据,可以快速排除不要的字段,还可能快速建立筛选(相当于Tableau 操作顺序中优先级最高的导入筛选),这里需要在未见森林之前写公式筛选,建议在探索数据过程中处理。
    • prep 导入表字段预览
    • 说明:不建议在第一个数据源的层面隐藏字段,否则重新连接新文件后,被隐藏的字段会自动恢复到未隐藏的字段。(Nov 7, 2018)

2、Explore Your Data 探索数据

对于超大文件,比如600M的数据文本,Prep会建立数据样本sample,展现一部分数据加速数据清理过程,在数据profile面板,可以看到“Sampled”橙色字样。在数据字段的上方,还可以看到数据的数量。prep 数据profile

  • 3、Clean and Shape Data 清洗与整理

    prep为我们提供了多种建立数据流的方法,包括step环节、Aggregate聚合、pivot转置、join混合、union并集和output输出流

    prep clean

    通过增加step,可以整理单个的数据表,比如修改名称rename、修改格式(特别是数值、日期等)、还可以根据字段增加filter(比如仅仅选择已经支付的订单)。特别重要的,这个阶段,可以自己创建计算计算(create calculated field…),弥补数据中的不足。

    还有很多操作,简化了了Tableau的工作,比如:

    • 通过直接修改名称,建立“组”setPrep 创建组
      immediate-results-gif_cropped-2
      “立刻获得结果”的输入反馈

    • 增强的分组和替换功能

    • 默认的分组功能对英文的支持更好,对中文支持一般,不过依然增强了Tableau的功能。
      • Make Uppercase: 改为大写字母.
      • Make Lowercase: 改为小写字母
      • Remove Letters: 移除letter字母(中文也会被移除).
      • Remove Numbers: 移除数字.
      • Remove Punctuation: 移除标点(比如点、括号等).
      • Trim Spaces: 移除开通和结尾的空格.

prep 增强的替换等 .gif

5、Join or Union Data 连接或并集

  • 这里自然是Prep的重头戏,我们先要看一下二者的区别:join是连接,更像TAbLEAU中的混合,是数据表的水平扩展,而union则是纵向的追加。
  • The result of combining data using a join is a table that’s typically extended horizontally by adding fields of data.
    Join混合的结果是通过增加新的数据字段,水平地扩展了数据。
    Union is a method for combining data by appending rows of one table onto another table. ……Make sure the tables you union have the same number of fields, the same field names, and the fields are the same data type.
    并集是把一个数据表附加在另一个后面,因此,确保两个数据表有相同的字段数量、字段名称和格式。

prep

关于join和union,我想单独在实践中分享吧。

至于pivot, 我也单独分析,这是学习的一个门槛,不过有了excel的透视图基础,也非常容易理解。

至于aggregate,我在Tableau峰会时焕然开朗,明白了一个重要的节点,也会单独讲述。

 

三、保存混合与导出

完整数据整理后的数据,有三种方式保存或分享

  • Save a flow  保存为数据流(.tflx格式),可以在其他prep软件中打开
  • View your data sample in Tableau 直接在Tableau中查看数据样本

在prep中,任何一个数据流环节,都可以在Tableau desktop中预览,如下图,可以直接查看数据样本。

  • Create and publish data extracts and data sources 创建和发布数据源

在数据整理完之后,可以创建一个导出数据流(output数据流),然后保存为数据源文件(tds格式),或者数据提取文件(.tde格式或者最新的.hyper格式)。当然也可以发布到server或者online中供其他人使用。

 

世界很长,一点点进步。

 

Prep系列:

  1. {爱不止步}Tableau Prep 功能一览为快 1/6
  2. 「Tableau prep」数据整理之pivot转置 2/6
  3. 【Tableau】prep合并数据之联结join与并集Union

30 Apr 2018
3 May 2018 update