​10.8.3实例:基于订单的购物篮分析

——《大数据可视化分析:原理与方法》书摘速览//五月上市
零售分析中把每个客户的一次订单交易(通常对应一张交易小票)模拟为一个虚拟购物篮,购物篮分析是交叉分析的典型代表。经典是案例是“啤酒和尿裤”,通过把关联产品陈列在一起促进客户的连带购买,从而提高顾客每次消费总价。正因为此,基于大数据统计分析哪些产品具有更强的关联性,就具有了营销方面的引导意义,甚至可以结合价格分析指导关联营销中的定价策略。
基于超市的数据,假设要为某个子类别板块,比如“标签”的负责人提供以下分析:“在购买标签的订单(购物篮)中,其他哪些子类别被同时关联购买的概率更高?从销售数量的角度分析。”
这个问题会综合使用逻辑判断、狭义LOD表达式、筛选器等分析方法。
(本文约2560字·写作时长5小时)
第一步,分析问题
第二步 通过计算建立筛选 
第三步 基于筛选后的数据建立排序 
第四步 把“标签”的分析扩展到其他子分类 
第五步 为每个子类别增加背景信息(比例)
第六步 增加层次分析(如需)

第一步,分析问题

分析一下这个问题,其中涉及到“子类别”和“订单ID”两个维度字段,和“数量”度量字段。主视图当然就是“各个子类别的购买数量”,要看孰高孰低,首选条形图。最终效果如图10-69所示:

69

图 10‑69 选择任意子分类,查看其他子分类关联购买占比
难点在于,问题中隐含着筛选条件——如何把数据范围,筛选到所有包含“标签”的订单交易中。
 

第二步 关键步骤:通过计算建立筛选

推荐从你熟悉的详细级别开始复杂的问题分析。购物篮分析针对的是订单层次,首先双击订单ID、子类别加入视图,如图10-70所示,凡是不包含“标签”分类的,即购物篮中没有消费这个子类别。

70

图 10‑70 排除不含标签的订单ID
如何排除不包含“标签”的订单呢?答案就在问题之中——不包含“标签”的订单有一个共同的特征:不包含“标签”。因此,创建一个辅助列,仅保留“标签”信息,把其他子类别名称都替换为NULL(空),之后在订单ID层面计数,凡是等于0的订单就是不包含“标签”的订单,就可以排除了。
思路有了,方法如图10-71所示,首先使用IIF逻辑判断增加一个辅助列IIF([子类别]=’标签’,[子类别],NULL),注意这个是行级别的逻辑判断——如果当前行所对应的商品交易属于标签子类别,则保留子类别的名称,否则全部替换为NULL(空)。
之后可以用这个辅助字段的计数大小,来判断订单是否属于包含“标签”的订单。由于要在订单层次做判断,使用FIXED LOD将结果指定在“订单ID”层次计算,即{ FIXED [订单 ID]:COUNTD(IIF([子类别]=’标签’,[子类别],NULL))}。

71.jpg

图 10‑71 使用IIF建立辅助列,使用FIXED LOD计算作为分类标准
这里使用了即席计算,直接把IIF的辅助字段拖入FIXED LOD表达式计数。
FIXED LOD计算的目的是为了分类,也就需要作为分类字段(维度)使用,这也是FIXED LOD最独特的使用场景。
如图10-72所示,把列中的表达式拖入左侧数据窗格创建字段,命名为“是否包含标签”(步骤a)。分类字段应该是维度而非度量,因此右键字段,选择“转换为维度”,字段就会转到维度区域并成为蓝色胶囊(步骤b)。至此,就可以把这个字段拖入筛选器,针对数据做筛选了,选择“1”,即仅保留了包含“标签”的订单交易。

72.jpg

图 10‑72 把FIXED LOD的结果转化为维度筛选器

第三步 基于筛选后的数据建立排序

移除视图中的“订单ID”字段,就是仅包含“标签”的交易数据了,此时的“总和(是否包含标签)”对应的是订单的数量,拖入“数量”字段就可以看到标签的销售数量,和与标签关联购买的其他子类别销售数量了。如图10-73所示。
73.jpg
图 10‑73 购买标签同时购买其他子类别的数量
最后记得排序,就可能清晰地发现“椅子”“收纳具”和“装订机”是与“标签”关联购买最好的子类别。

第四步 把“标签”的分析扩展到其他子分类

为了简化问题,开篇以“标签为例展开了整个分析,那如何结合互动,把这个分析方法扩展到其他子分类,从而可以任意选择某个子分类从而查看其关联销售的子类别数量呢?
此类的问题都涉及到更改计算中的某个变量,而参数是单一变量最好的方法。
如图10-74所示,在“子类别”字段上右键选择“创建”——“参数”,可以快速创建包含子类别数据的参数列表。之后在“是否包含标签”字段右键选择“编辑”,将计算字段中的“标签”更改为“子类别 参数”即可。
这样,在视图中通过选择子类别,就可以查看该子类别关联的购物篮子类别排名,为了通过标题突出所选的子类别,还可以在标题中插入参数。
75.jpg
图 10‑74 将参数加入到FIXED判断过程
如果使用层次结构进一步展开,或者结合某些重点单品做进一步筛选,则可以指导组合营销策略。

第五步 为每个子类别增加背景信息

在图10-74中,虽然可以清晰的看到指定子类别的关联子类别排名,但是由于缺少每个子类别的总计销售,因此难以估计被连带购买的子类别的确切占比。如果能增加这样的背景信息,显然就可以在排序之外,同时关注相当于其他所有子类别的关联占比。
要增加的背景信息,要优先级作为分类的维度筛选器,因此可以使用FIXED LOD计算每个子类别的销售数量,即{ FIXED [子类别]:SUM([数量])}。如图10-75所示,在列中双击增加一个计算胶囊,输入这个表达式。
75.jpg
图 10‑75 在购物篮关联排名基础上,增加每个子类别的合计销售数量
为了增强可视化效果,为了更好的对比当前子类别的关联销售数量和合计销售数量的占比,可以把第2和第3个度量建立双轴,并通过调整颜色和大小增加层次性。如图10-76所示。
76
图 10‑76 增加双轴同步,并增加比例计算

至此,业务负责人才能清晰的看到每个子类别的关联购买情况,只有这种精确的计算,才能引导精确的分析。最佳可视化的基本标准,就是无须深度思考,即可直观表达关键结论。

第六步 增加层次分析(如需)

当然,按照同样的逻辑,如果想要查看每个子类别下面不同制造商的情况,则可以进一步增加维度,并适当调整计算字段。通常,业务决策必须依赖于层层钻取的深入分析,才能精确的指导运营工作。如图10-77所示,增加“制造商”字段,并调整FIXED LOD表达式,就可以查看制造商品牌状况了。
77
图 10‑77 增加制造商字段,进一步查看各品牌的关联购买
这个案例最重要的环节,是基于订单级别的数据筛选(第二步),使用了IIF的行级别逻辑判断和FIXED LOD表达式。通过这个案例,也可以深入理解行级别函数、FIXED LOD表达式作为维度使用的灵活性和重要性。
————
图书五月份出版,倒计时。

[1] 强烈推荐戈尔曼·西蒙的《定价圣经》和《定价制胜》,定价领域的经典。