【数据】好书慢读《深入浅出数据分析》(下)

今天继续为大家分享《深入浅出数据分析》by Michael Milton,适合数据分析的入门者。 全书共计13个章节,尤以前六章为要,对于数据分析的思路入门大有好处,后面几章侧重于工具,建议结合Tableau等工具学习,在Tableau系列中我会逐步讲到。 前四章的导读分享,请点击:【数据】好书慢读《深入浅出数据分析》(上) Chapter 5 假设检验 关键词:证伪、网络关系、诊断性 这一章内容很短,却极其重要,它试图努力告诉我们几个简单而深刻的原理: 各个变量之间的线性关系,可以负相关,也可以正相关; 但现实世界中的各种原因多呈网络关系,而非线性关系;线性等于直觉,网络关系却复杂的多的多; 假设检验的核心是证伪,而不是证实;证实的思路会不可避免地受“确认偏误”的影响,有意无意地忽略看似不相关的要素; 通过观察「诊断性」对证据和假设进行比较,从而帮助对假设排序,找到否定性最小的假设,也就是最不容易不证伪的假设。 数据分析的过程,就是不断的假设,证伪,再假设,再证伪的反复过程,直到我们找到一些有见地的洞察,才是阶段性成果。 关键是,什么是证伪? 简单的说,证伪是一种思维方法,它假设可以被验证的才可能是科学的,而科学通过不断的验证之路不断螺旋前进;证伪是一种工具,可以用来弥补芸芸大众习以为常却脆弱的“证实”方法。 以后,我会给大家介绍「证伪」的鼻祖、科技哲学的大师,卡尔·波普,以及他著名的几本书,比如《猜想与反驳》、《开放世界及其敌人》,他有一个响当当的标签是:马克思主义的掘墓人。 更好地理解“证伪”的思想,是每个人心智成熟,避免很多思维偏误的重要方法之一;数据分析其实就是微观世界的科学研究,需要在不断证伪中前进,后面第六章贝叶斯统计和第七章主观概率,其实就是这个内容的进一步展开。 「诊断性」,是证据所具有的一种功能,能够帮助你评估所考虑的假设的相对似然。如果证据具有诊断性,就能帮助你对假设排序。 既然现实世界多半是网络关系而非线性关系,我们就可以用相关性代替因果必然性对假设作出判断,用证据和每一个假设作出比较,用加号和减号及诊断性来评定这些假设。(如图P160) 如果一个证据平等地支持所有的假设,这个证据就失去了诊断性——不能给假设带来任何进展; 通过判断证据对于多个假设的支持程度,我们可以找到最好的假设,从而降低商业的风险。 你会说,这么讲太抽象了,如何持续的验证假设呢?这就是后面两章的重点。 Chapter 6 贝叶斯统计 这是全书最艰涩难懂的章节,也是极易挑战内心常识的内容。在此我不去引用复杂的公式,仅作内容的笔记。书中用了一个特别虚拟的案例,“得蜥蜴流感的概率”形象地表达了贝叶斯统计的公式。 生活中充满了预测,每一次预测都是此前的经验和最新观察整合的结果,足球队的守门员,巡逻的警察,也在做一次次的预测和行动。统计学家和科学家的高明,在于对我们如何对外部作出预测做了模型化的分析,贝叶斯理论就是经典。 关于运动员的预测分析,不妨读一下这篇文章:奥运闭幕 运动员们一定要夸一波,下面的贝叶斯的图,就来自于这篇文章。 “贝叶斯理论就是一种基于前期经验的预测模型,其不仅充分利用先验信息(基础概率),而且将预测模型与普通回归模型的预测结果进行比较,最后做出更优的结论。” 贝叶斯规则为我们提供了概率分析的工具,特别是涉及到基础概率(或者称为事前概率)的时候。而且,贝叶斯规则可以不断地加入新证据,然后把之前的结果作为基础概率,从而估算新的条件概率。 贝叶斯统计,能帮你利用基础概率和波动数据做到明察秋毫。……它提供了一种把新信息整合到分析中的精确方法。 条件概率即以一件事的发生为前提的另一件事的发生概率。   基础概率谬误,即忽略事前数据并因此作出错误决策。……避免基本概率谬误的唯一办法就是对基础概率提高警惕,而且务必要把基础概率整合到分析中。 在分析概率问题上,作者提出了一个很好的建议,即把概率问题转化为整数问题来处理,比如1%的概率,那就假设有100或者1000个单位。 我们的大脑生来不擅长处理概率数字,因此将概率转变为整数,然后进行思考,是避免错误的一个有效办法。   Chapter 7 主观概率 刚入门的数据分析者会以为数据分析师就是处理和分析数据而已,其实不然,正如作者所言,“优秀的数据分析师同时也是优秀的沟通者”,分析师还需要在沟通中获得数据,特别是主观数据的客观化处理,比如主观概率,“主观概率是一种向别人精确地传达你的想法和信念的富有启发性的表达方法。” 每个人都在使用主观概率,只是大多数人用“很大程度上”、“一定”、“极不可能”、“大概”之类的方式来表达他的主观概率,因此也就难以被充分的运用;而数据分析师则试图用精确的方式传达,比如说,“我认为明天下雨的概率是90%”、“有75%的员工评价难以和新来的副总沟通 ”。 数据分析师要引导“主观概率”的表述语言,这是减少摩擦、提高决策的准确性的基础。 如果用一个数字形式的概率来表示自己对某事的确认程度,所用的就是「主观概率」。 主观概率是根据规模进行分析的巧妙办法,尤其是在预测孤立事件却缺乏从前在相同条件下发生过的事件的可靠数据的情况下。 主观概率是对分歧内容和分歧大小的一种精确规范,分析师用主观概率帮助自己抓住问题焦点,以图问题解决。 用精确的主观概率代替模糊的判断之后,我们就可以使用统计的工具来评价了,比如用标准方差判断分歧程度(数据点的离散程度)等。 所以,理性主义文化兴盛的公司,会有一种“凡事用数据说话”的传统,会议上也很难听到“大概可能也许是,然而未必不见得;似乎大家都觉得,不过我们不敢说”(引子梅贻琦)。 当然,主观概率也会随着新的证据不断的变化,而且,“使用主观概率不能保证主观概率的正确性”,如何修改主观主观概率?这就用到了上一章节的内容:贝叶斯规则。 通过贝叶斯规则,不断地修正主观概率,「使用贝叶斯规则求主观概率的根本在于,找到在假设成立的条件下,证据出现的概率。」   Chapter 8Continue reading “【数据】好书慢读《深入浅出数据分析》(下)”