今天继续为大家分享《深入浅出数据分析》by Michael Milton,适合数据分析的入门者。

全书共计13个章节,尤以前六章为要,对于数据分析的思路入门大有好处,后面几章侧重于工具,建议结合Tableau等工具学习,在Tableau系列中我会逐步讲到。

前四章的导读分享,请点击:【数据】好书慢读《深入浅出数据分析》(上)

Chapter 5 假设检验

关键词:证伪、网络关系、诊断性

这一章内容很短,却极其重要,它试图努力告诉我们几个简单而深刻的原理:

  • 各个变量之间的线性关系,可以负相关,也可以正相关;
  • 但现实世界中的各种原因多呈网络关系,而非线性关系;线性等于直觉,网络关系却复杂的多的多;
  • 假设检验的核心是证伪,而不是证实;证实的思路会不可避免地受“确认偏误”的影响,有意无意地忽略看似不相关的要素;
  • 通过观察「诊断性」对证据和假设进行比较,从而帮助对假设排序,找到否定性最小的假设,也就是最不容易不证伪的假设。

数据分析的过程,就是不断的假设,证伪,再假设,再证伪的反复过程,直到我们找到一些有见地的洞察,才是阶段性成果。 关键是,什么是证伪?

简单的说,证伪是一种思维方法,它假设可以被验证的才可能是科学的,而科学通过不断的验证之路不断螺旋前进;证伪是一种工具,可以用来弥补芸芸大众习以为常却脆弱的“证实”方法。

以后,我会给大家介绍「证伪」的鼻祖、科技哲学的大师,卡尔·波普,以及他著名的几本书,比如《猜想与反驳》、《开放世界及其敌人》,他有一个响当当的标签是:马克思主义的掘墓人。

卡尔波普.jpeg

更好地理解“证伪”的思想,是每个人心智成熟,避免很多思维偏误的重要方法之一;数据分析其实就是微观世界的科学研究,需要在不断证伪中前进,后面第六章贝叶斯统计和第七章主观概率,其实就是这个内容的进一步展开。

「诊断性」,是证据所具有的一种功能,能够帮助你评估所考虑的假设的相对似然。如果证据具有诊断性,就能帮助你对假设排序。

既然现实世界多半是网络关系而非线性关系,我们就可以用相关性代替因果必然性对假设作出判断,用证据和每一个假设作出比较,用加号和减号及诊断性来评定这些假设。(如图P160)

P70915-235817(1)

如果一个证据平等地支持所有的假设,这个证据就失去了诊断性——不能给假设带来任何进展; 通过判断证据对于多个假设的支持程度,我们可以找到最好的假设,从而降低商业的风险。

你会说,这么讲太抽象了,如何持续的验证假设呢?这就是后面两章的重点。

Chapter 6 贝叶斯统计

这是全书最艰涩难懂的章节,也是极易挑战内心常识的内容。在此我不去引用复杂的公式,仅作内容的笔记。书中用了一个特别虚拟的案例,“得蜥蜴流感的概率”形象地表达了贝叶斯统计的公式。

生活中充满了预测,每一次预测都是此前的经验和最新观察整合的结果,足球队的守门员,巡逻的警察,也在做一次次的预测和行动。统计学家和科学家的高明,在于对我们如何对外部作出预测做了模型化的分析,贝叶斯理论就是经典。

W020160822494107210514
正确的预测
W020160822494107246888.jpg
错误的预测

关于运动员的预测分析,不妨读一下这篇文章:奥运闭幕 运动员们一定要夸一波,下面的贝叶斯的图,就来自于这篇文章。

贝叶斯理论
贝叶斯理论

“贝叶斯理论就是一种基于前期经验的预测模型,其不仅充分利用先验信息(基础概率),而且将预测模型与普通回归模型的预测结果进行比较,最后做出更优的结论。”

贝叶斯规则为我们提供了概率分析的工具,特别是涉及到基础概率(或者称为事前概率)的时候。而且,贝叶斯规则可以不断地加入新证据,然后把之前的结果作为基础概率,从而估算新的条件概率。

p70916-14293611.jpg

贝叶斯统计,能帮你利用基础概率和波动数据做到明察秋毫。……它提供了一种把新信息整合到分析中的精确方法。
条件概率即以一件事的发生为前提的另一件事的发生概率。  
基础概率谬误,即忽略事前数据并因此作出错误决策。……避免基本概率谬误的唯一办法就是对基础概率提高警惕,而且务必要把基础概率整合到分析中。

在分析概率问题上,作者提出了一个很好的建议,即把概率问题转化为整数问题来处理,比如1%的概率,那就假设有100或者1000个单位。

我们的大脑生来不擅长处理概率数字,因此将概率转变为整数,然后进行思考,是避免错误的一个有效办法。

 

Chapter 7 主观概率

刚入门的数据分析者会以为数据分析师就是处理和分析数据而已,其实不然,正如作者所言,“优秀的数据分析师同时也是优秀的沟通者”,分析师还需要在沟通中获得数据,特别是主观数据的客观化处理,比如主观概率,“主观概率是一种向别人精确地传达你的想法和信念的富有启发性的表达方法。

每个人都在使用主观概率,只是大多数人用“很大程度上”、“一定”、“极不可能”、“大概”之类的方式来表达他的主观概率,因此也就难以被充分的运用;而数据分析师则试图用精确的方式传达,比如说,“我认为明天下雨的概率是90%”、“有75%的员工评价难以和新来的副总沟通 ”。

数据分析师要引导“主观概率”的表述语言,这是减少摩擦、提高决策的准确性的基础。

如果用一个数字形式的概率来表示自己对某事的确认程度,所用的就是「主观概率」。

主观概率是根据规模进行分析的巧妙办法,尤其是在预测孤立事件却缺乏从前在相同条件下发生过的事件的可靠数据的情况下。

主观概率是对分歧内容和分歧大小的一种精确规范,分析师用主观概率帮助自己抓住问题焦点,以图问题解决。

用精确的主观概率代替模糊的判断之后,我们就可以使用统计的工具来评价了,比如用标准方差判断分歧程度(数据点的离散程度)等。

所以,理性主义文化兴盛的公司,会有一种“凡事用数据说话”的传统,会议上也很难听到“大概可能也许是,然而未必不见得;似乎大家都觉得,不过我们不敢说”(引子梅贻琦)。

当然,主观概率也会随着新的证据不断的变化,而且,“使用主观概率不能保证主观概率的正确性”,如何修改主观主观概率?这就用到了上一章节的内容:贝叶斯规则。

通过贝叶斯规则,不断地修正主观概率,「使用贝叶斯规则求主观概率的根本在于,找到在假设成立的条件下,证据出现的概率。」

P70916-120149(1)
贝叶斯规则是修改主观概率的好办法

 

Chapter 8 启发法

前面几章介绍了精确如概率的数据分析方法,但是生活中大部分世纪并非以最理性的方式展开的,而是利用不齐全又不确定的信息,凭经验进行处理,迅速作出决策,如同卡尼曼在《思考,快与慢》中所言的“系统1”,好在大多数时候,经验是正确的。

我们的大脑有快与慢两种作决定的方式。常用的无意识的“系统1”依赖情感、记忆和经验迅速作出判断,它见闻广博,使我们能够迅速对眼前的情况作出反应。但系统1也很容易上当,它固守“眼见即为事实”的原则,任由损失厌恶和乐观偏见之类的错觉引导我们作出错误的选择。有意识的“系统2”通过调动注意力来分析和解决问题,并作出决定,它比较慢,不容易出错,但它很懒惰,经常走捷径,直接采纳系统1的直觉型判断结果。

——丹尼尔·卡尼曼 《思考,快与慢》

面对杂乱无章的数据,甚至很多数据本身是难以定量的,数据分析者需要设计一种最优化的模型,了解不同要素之间的关系,以及关键变量对目标结果的影响。如何搭建从直觉到最优化的道路呢?作者提出使用“启发法”,如图。

屏幕快照 2017-09-16 下午1.53.38.png

既然启发法是从直觉走向最优化的桥梁,那如何利用启发法找到问题的最优化解?作者使用了一种称之为“快省树”的方法,类似于思维导图的“逻辑树”,使用层层分枝的判断描述启发法的结果。这里要用到思维导图和流程图的基本知识。比如我们要判断“要不要换工作”,

屏幕快照 2017-09-16 下午2.06.41.png

当然,即便是在作启发法训练时,我们很多人的思维方向依然是趋同的,这说明存在常识性的固定模式;作者说,“固定模式都具有启发性”,只是我们要注意,很多时候,固定的模式往往欠缺推理逻辑,虽然有效,但并非是“效度”最好的方式。避免固定模式有效性低的方法之一,就是让不同的群体来做启发式思考,这样可以综合更多的判断。

就像我们要思考如何提高门店的效益,采购、店长、市场部主管的思考模式是有差异的,多个主体的启发性,可以相互借鉴。

 

小结

上面的几章,都是稍具难度的内容,后面的直方图、回归、误差和数据整理,更偏重于工具和应用,我会结合Tableau一起单独介绍。有兴趣的伙伴们,抓紧买一本书,好好读吧。

总结一下,《深入浅出数据分析》不是一本工具书,更像是数据的启蒙,它用诙谐生动的方式,带我们领略了数据分析的重要性,数据分析的基本步骤,以及对待数据的态度和方法。多读几遍,总有好处。

 

2017年9月16日 by David.Wu 

David.wu