书名:《数据之美》
作者:(美)Nathan Yau
出版社:中国人民大学出版社,2014年第1版

从上个月中旬开始学习Tableau商业智能软件,甚为它的神奇所感染,二十多天一直学习和使用,逐步有了一点点感觉。但也深知自己在设计,在”美”上一直是假装聪明的,所以借这个机会,迫不及待地找了几个业界都在推荐的书,打算一本本地读完。

《数据之美》,就是这条路上的第一本。

1 数据与现实的距离

我是对数据颇为敏感的人,时不时会拿高中时“全班级数学第一,成绩甩第二三四名几条街”表示自己功底不错。在这个经济时代、商业时代,现在更是进入了互联网时代和数字时代,对数据的基本敏感几乎成了职场人士的基本要求,特别是想要掌控全局的人而言。

自己要学习运营,下门店自然是通路之一,但终归不是长久之计;后来想,短期内能让我掌控全局、纵深洞察的方式,只有数据这条路了。所以又在工作之余开始转身到“数据化分析”的道路上来。

但是要理解运营,洞察现实,数据本身不能告诉我什么的,现实和数据之间,应该有一个万花筒或者望远镜可供看透的,这是什么?

图形是透过数据看现实的窗户/MK
现实世界-数据-图形(原书P198)

我们几乎所有人都难以直接从数据中看到现实,虽然二者之间的映射关系是存在必然性的;与其说“数据连接着图形和现实世界”,不如说“图形是我们透过数据看到现实世界的窗户”

2 数据分析是客观的吗?

这个问题其实是值得思考的,作者在 第一章 “你真的理解数据了吗” 中讲:

-数据的可变形
-数据的不确定性
-数据所依存的背景信息

我们也许以为数据是客观的,其实数据并不客观。一方面,身边只有少数数据是静态的,比如男女、黑白、绝对位置,而绝大多数的数据都是动态的,比如今天门店的业绩很好,明天一阵大雨就探底了;再比如昨天的我的各种数据特定虽然和今天相似,但绝不相同。作者说,“数据中的波动才是最有趣、最重要的部分。”对波动信息的数据描述,是难以客观的。另一方面,很多数据是相对数据,比如胖和瘦、业绩好和差、任务高低,基于相对数据的很多数据都是估计值,这本身就说明了数据的不确定性。

最重要的是,背景信息严重的影响了一个人对数据的主观判断,甚至完全改变你对某一个数据集的看法。而如果失去了背景信息,数据就缺乏了和外部世界的关联,数据就变得缺乏意义了。所以下面的话我必须摘要在这里:

离开背景信息,数据就毫无用处了,而基于它们创建的任何可视化内容也变得没什么价值了。使用数据而不了解数值本身之外的任何消息,就好比拿着断章取义的片段作为文章的主要论点引用一样。这样做或许没有问题,但却可能完全误解说话人的意思。(P37)

既然如此,数据分析的前提就要了解关于数据的背景信息,也就是元数据:

你必须首先了解何人、如何、何事、何时、何地以及何因,即元数据,或者说关于数据的数据,然后才能了解数据的本质是什么。

3 可视化数据的原材料

数据是现实世界的抽象,而现实世界是复杂的。我们要透过一扇窗户看到数据背后的数据现实才行。作者把组成可视化的组件分为:视觉暗示、坐标系、标尺以及背景信息。不管图谱的位置,可视化就是基于数据和这些组件的创建的。

我想说说视觉暗示。

刚开始用Tableau的时候,有的人其实就和表格的透视图一模一样,我起初也是觉得筛选+列+行 就好了,其实在可视化方面Tableau非常有远见的机制是“标记”功能。

“标记”完美的解决了透视图的进阶问题。

4 数据可视化的过程

在探索可视化过程中,作者总结了四个主要的步骤,分别为:

  • 拥有什么数据?
  • 关于数据想了解什么?
  • 应该使用哪种可视化方案?
  • 你看到了什么?有意义吗?

WechatIMG6

可见,对数据的理解有赖于我们的主观认识,按照这四个步骤,就可以得到标准的数据规范。

“常见的错误是先形成视觉形式,然后再找数据。其实应该反过来,先有数据,再进行可视化。通常,获取需要的数据时最困难、耗时最多的一步。”

而在数据可视化设计的清晰整理方面,作者又提出了几个方式,比如建立视觉层次、高亮突出显示、加上注解描述数据等等。(第五章)

可视化让数据更可靠!可视化不仅仅是一门工具。

第一版 2017/8/9