为了学习数据分析,买了好多前辈们推荐的书,今天为大家分享一本大部头的好书——《深入浅出数据分析》by Michael Milton,以供大家入门和参考。
全书共计13个章节,尤以前五章为要,对于数据分析的思路入门大有好处,后面几章侧重于工具,建议结合Tableau等工具学习,在Tableau系列中我会逐步讲到。
Chapter 1 分解数据
数据无处不在。……熟谙一切数据分析技术方法的分析者会比其他人技高一筹:他们知道如何处理所有的数据材料,如何将原始数据转变成推进现实工作的妙策,如何分解和构建复杂的问题和数据集,进而牢牢把握工作中的各种问题的要害。
优秀的数据分析师是以形成决策建议为目标的,而不是抛出信息推卸掉自己解决问题和建议决策的义务;而明智的决策建议源自于清晰地认识问题,未确定问题就进行数据分析,如同没有目标的旅途;不过我偶然用漫步数据的方式随机寻找分析目标,这也是一种学习的方法。
因而,数据分析要认清问题,进而解决问题。优秀的数据分析师能帮助客户思考自己的问题,进而改善业务。作者提出了“确定——评估——分解——决策”的数据分析基本流程,也值得我们学习。
如何确定问题和分解,作者给出了两个要点:
- 把大问题划分为小问题,避免问题模糊不清。 比如说,我们难以一下子回答“销售为什么下降?”,但是可以分为“顾客减少”,“客单价可能下降”,“商品购买频次下降”等小问题。
- 将数据分解为更小的单元,找到比较对象。
在确定问题基础上,数据分析师进而要评估数据,这就需要形成自己明确的假设,而不是纯粹描述性的说明;在决策过程中,更要清晰地传达自己的意见和建议。
我又想起来《你的灯亮着吗》这本书,它说,“永远不要以为找到了问题的答案,但是永远不要停下寻找的脚步。”为什么,因为昨天的我们解决不了今天的问题,昨天的“心智模式”未必适应今天的需要。
心智模型
作者这一章提到了心智模式,并且强调“统计模型取决于心智模式”。
心智模式是每个人在成长过程中必然会遇到的,或多或少,或直接或间接,或激烈或温和地,在这一方面,很多书都可以帮我们入门,比如《第五项修炼》、《批判性思考指南》、“mindset”等等,以后有时间我会分享。
心智模式,就是我们业已形成的对假设和观点,有些是先天禀赋,更多是后天形成的,这些假设和观点会大大地影响我们对于数据的判断和理解。我的经验告诉我,只有在无知的状态下,才会觉察不到心智模式的影响,就像井底的青蛙不知道外面的天空有多大。

心智模式应当包括你不了解的因素。知道自己“不知道”,有助于避免自己进入数据分析的盲区。比如看到供应链的商品销售同比普遍增长了30%,并不能说供应链的整体操盘能力提高了,这是没有必然关系的。
数据分析需要理解数据,更要清晰地懂得业务,这就是数据分析师匮乏的重要原因。好的数据分析师会逐步扩大认知的边界,不断调整自己的心智模式,这也意味着未知的边界越来越长。
世上没有傻问题
2 检验你的理论
一个好实验往往能让你摆脱观察数据的无限依赖,能帮助你理清因果联系;可靠的实证数据将让你的分析更有说服力。
统计和分析最基本的原理之一就是比较法。数据分析通过相互比较才会有意义。
如果你看到有人举着标记“65”的牌子,肯定一头雾水,单纯的数字是没有意义的;如果改为了“65岁退休”,数字就具备了数据的价值;但是仅仅如此,你依然无法准确明白老人想表达什么。当你和过去的“60岁退休”以及西方的“55岁荣休”做比较是,数据分析才有价值。如果有越多的数据作为比较,分析结果就会更加精确。
除了样本要大,还有两个建议,一是尽可能去除“污染数据”,它们会让数据分析结果失真,比如辛辛苦苦做了很久的门店销售分析,不料没有剔除退货数据,那就坏了;二是要有控制组对照,这是统计学的基础要求。
3 寻找最大值(最优解)
这一章节提出来的橡皮鸭和橡皮鱼的问题,就像小时候计算几只兔子、几只鸡一样。对于给定条件,总有一个最优解在那里。最优化问题需要一定的条件:
- 要有明确的约束条件,比如一只鸡只有两条腿,一只兔子四条腿,约束的条件才能成为固定的参数;
- 有明确的目标,比如计算几只鸡、几只兔子;
- 任何最优化问题都有一些约束条件,和一个目标函数。
寻找最大值的最好办法就是公式了,一般二元一次方程久可以解决类似的问题;而在表格中,有“规则求解”(solver)的功能可以实现输入约定条件,输出考核结果。如果画在xy轴图上,很可能是类似于价格曲线的样子,阴影部分就是合规但并非最优的答案集合。
现实中没有多少数兔子和鸡的例子,多半都是多种约束条件,因此作者说:
你的模型只是描述了你规定的情况……你的目标应该是尽量创建最有用的模型,让模型的不完美相对于分析目标变得无足轻重。
数据分析师要自己评估数据分析出必要性,从而确定假设条件,并按照目标不断地校正才对。
4 数据图形化:图形让你更精明
从最早的联机分析,到数据挖掘,再到数据可视化的展现,商业智能的每一次进步都在简化它的表达方式,从而更好地被理解和传递。毕竟,感性思维和形象化思维几乎是每个人的天性,“数据表远非你所需”。
作者总结了数据图形化的三个要点,这是应该铭记在心的:
- 要体现数据。不得不说,我特别赞同《大数据》作者涂子沛的那句封面语,“除了上帝,任何人都必须用数据说话”。
- 要有正确的比较。没有比较就没有意义,没有正确的比较,就不会有数据的洞察。
- 使用“多元图形”,展现多个变量。
在Excel中,我们难以做到深入的数据洞察,这个时候就需要类似于Power BI或者Tableau之类的大数据分析平台,比如我用Tableau做的某商品价格点分布(下图,关键数据做了隐秘化处理),体现了不同月份的成交价格点和销售数量,反映了不同时段的销售数据对比,包含了月份、单价、销售数量等多元化数据。
从上面的图中我们看到,此商品三月之前价格相对稳定,四月开始执行促销,销售数量也出现了短期增长,但六月之后,单价和销售双双下滑。根据这个图,可以复盘此商品的操盘策略,努力实现追求价格和销售的平衡。
是不是觉得这是一本好书了?做笔记同时的复读,自己也是受益匪浅。
这不是一本武侠秘籍,却是入武林的好法门。
2017/9/7 David.Wu
一个有关“【数据】好书慢读《深入浅出数据分析》(上)”的想法