【零售】Tableau LOD+TC做客户交叉购买分析(上)2.0更新

【2020年4月更新】【Tableau高级】LOD实例:基于订单的购物篮分析   上文提供了更加精确的购物篮分析方法。 by 喜乐君 //本文已经加入即将出版的《大数据可视化:原理与方法》 今天客户咨询我一个问题,忙完了细细思考,非常值得写一篇小文章梳理其中的逻辑。此类的问题经常被人问及,之前也零散地分享过,终归不够系统,此次尝试说一下相关的业务需求和背后的技术逻辑。 本文阐述一种角度——一次Fixed LOD,加一次TC表计算(合计百分比)。 PS. 复习了一下高中数据并集和交集 😄 Tableau中左右连接Join,两种基本形式是inner Join和outer Join,前者是内连接(并集),后者是外连接(交集),分别用第二个字母来表示,就是A ∩ B(并集), 和A U B (交集)。 一、来自业务的需求说明 在销售领域分析中,有一个特别重要的领域是购买的交叉分析,比如“同时购买多个品类的客户数量”、“购买品类A同时购买品类B的客户占比”、“仅购买一次的客户中,不同品类的分布情况”等等。这些问题一般不会直接计算金额、商品数量等绝对度量的分析,而更偏重于结构性分析,特别是从顾客数量、品类数量、订单数量等高于商品层次的角度。 也就是,交叉分析往往是考察多个维度直接的结构性关系,而非直接深入单个维度的度量比例。 比如我们要查看客户的忠诚度,一个很重要的角度就是查看“不同购买频次下的顾客数量及占比”这样的分析视角。转化一下视角,从下图来看,就是不同品类的交叉情况。后面我们结合超市数据,分析这个图的可视化过程。 二、客户与品类的交叉分析 我们站在销售经理的角度,尝试去分析不同品类的客户购买情况。我们首先可能会做每个分类的客户数量分析及其相关分析,比如购买金额、购买数量及其%占比等。不过,结构性分析的重点是查看另一个维度的对比或者趋势,比如不同年度的客户数量。 1、无关计算的初级可视化 这个时候,我们可以会想把年度作为颜色加入可视化对比(左下图),不过显然,看上去还不错,但是解释起来破费口舌,这说明我们没有很好地表述可视化焦点。重申一下题目“分析不同分类的客户数量在多年的对比趋势”,趋势应该是关键,所以我们更换品类标题和作为颜色标记的年,就会立刻切换图形,考虑到对比的关键是趋势,面积图自然会比条形图更加直观(右下角)。 在这里,我们可以很明显地发现“技术”的客户数量在2019年增速放缓,被“家具”迎头赶上,这也是折线图非常直观的地方。 2、从直观趋势到内部结构性分析 不过,上面的图形还是停留在初级的分析层面,稍微深一点的分析视角,我们需要从宏观的多年对比回到当下,比如分析2019年的内部结构问题,这样年度就不再是值得关心的焦点,重点是结构。依然从客户和类别的角度出发,我们可以提出更多的结构性问题,比如: 有多少客户仅仅购买了一个品类?多少客户购买了两个品类?多少客户购买了三个品类? 主要分布在哪些品类上? 仅仅购买了A品类、仅仅购买了B品类、仅仅购买了C品类,以及购买了所有这些品类的客户占比是多少? 购买某个品类的客户,同时购买其他哪些品类的概率更高?(连带购买分析) 比如先说第一个问题,哪些品类被反复购买,而哪些则被客户冷落?类似问题的背后,是查看每个客户购买的品类的次数,以及不同次数下的品类的分布。完整的说“(2019年)购买一个品类、两个品类、三个品类的客户数量分别是多少?” 这里的客户数量需要聚合,同时还需要客户层面的一个字段作为维度——每个客户的购买品类数。需要使用一个层次的(辅助计算)字段,又不能使用这个层次的维度字段本身,因此我们就需要使用LOD表达式提前计算这个结果:{fixed 客户名称: countd(类别) } . 这个问题,可以参考15大详细级别表达式的第一个题目。(【Tableau】15大详细级别表达式-会员分析案例(对话版)) 以这个字段作为维度,就可以查看购买了1个类别、2个类别……3个类别的客户数量(下图左上角)。不过这只是刚刚开始,我们还需要每一个条形图中更多的结构性组成,因此,我们把类别作为新的维度加入标记——颜色之中,发现了什么? 你会发现次数的坐标轴远远超过了此前的坐标轴对应的数量,为什么?因为这里购买2个以上的分类中客户出现了大量重复,以至于购买了三个类别的客户数量出现了三次——购买了A的客户数量,比如等于购买了B和C的客户数量,毕竟这些客户都是购买了三个类别。可以参考最开始的那个交叉图。 更专业的角度说,这是因为左边的图的详细级别停留在“客户购买的品类频次”,因此聚合为了三个数;而后者的详细级别进一步下沉,到了“客户购买频次” X “品类”,于是从三个标记,增加到7个标记。 结合上图下面的单品类情况图,我们发现,有23个客户仅购买过一个类别,其中仅购买办公用品的最多,占19人;有126人购买过两个类别,其中技术的连带率最低,仅有52人被连带购买了此分类;有622人购买了全部的三个类别。为了更清晰的看到分布,我们可以使用下面的这个图(借鉴了上面的图,但是比例和数值不对等,注意): 这样的绝对值虽然客观,但是不容易对比,我们还需要转化为百分比。从全部客户的角度看,上面的每个数值需要除以全部的客户数量,在没有筛选的情形下,我们使用总计百分比的结果,和除以{ countd(客户名称)} 的结果是一致的。 因此,增加“快速表计算”——“合计百分比”之后,默认就是上图中间左侧的图形。注意这里的百分比,购买2个类别和3个类别的各占比百分比合计会大于1,为什么,因为客户有重复。 因此,在这里仅购买过办公用品的19人占比2%,技术和家具分别占比不足1%;购买办公用品同时连带购买其他一个类别的客户123人占比16%,同时购买了三个品类的客户占比81%。——这些值都是和全部的客户总数比较。 这个可以使用中间的图形,也可以使用下面的图形来补充增强——在此前的数值基础上,增加更多的角度: 前面的数字代表交叉购买的类别数量,通过绝对值和百分比来突出具体的指标。这里只用了一个一次LOD计算和一次表计算,就可以完整展示不同交叉购买下的分类占比。很明显,这里的三个类别连带购买率占比很高,达到了81%;两个类别的连带购买率中,技术最低仅为7%Continue reading “【零售】Tableau LOD+TC做客户交叉购买分析(上)2.0更新”