在当今的企业环境中,机器学习(ML)已成为决策支持的重要工具。尽管如此,机器学习系统的预测和决策仍需依赖人类用户的直觉和经验。
本文旨在展示如何将机器学习与敏感性分析相结合,以制定数据驱动的业务策略。重点讨论的是客户流失问题,同时探讨了使用基于机器学习的分析时常见的挑战。这些问题包括处理不完整和不平衡的数据、确定模型选择以及评估这些选择对潜在影响的量化。
具体来说,本文利用机器学习识别出可能流失的客户,并结合特征重要性与规划分析,提出定量和定性的建议。这样,组织可以据此制定适当的战略和战术决策,以减少未来的客户流失。这个案例展示了数据科学实践中常见的几个问题,例如:
整个流程可以在Amazon SageMaker中实施,也可以在Amazon EC2上独立运行。
本文将介绍通过以下步骤创建减少客户流失的策略:
首先,通过检查各输入要素与客户流失标签之间的简单关联,探索客户数据。此外,研究特征间的关联(称为互相关或协方差),以支持算法决策,特别是确定哪些特征需要派生、修改或删除。
接着,构建多种机器学习算法,包括自动特征选择,并结合多个模型以提升性能。
第三步,测试不同模型的性能。从这里,确定一种决策机制,以最小化客户流失数量被高估的风险。
最后,使用机器学习结果理解影响客户流失的因素,得出特征选择并量化评估这些选择对客户流失率的影响。通过执行敏感性分析,调整在现实生活中可控的一些因素(如折扣率),预测不同控制因素下的客户流失率变化。
在机器学习模型开发过程中,常遇到的问题包括输入数据中的共线性和低方差特征、异常值以及数据缺失。本节介绍了如何使用Amazon SageMaker解决这些问题。
这些带有时间戳的数据可能包含一些重要的模式。将其按日、周、月划分,有助于开发新特征来说明目标的动态特性。
随后,研究原始特征和新特征之间的简单一对一关系及其关联度量。此外,还研究了特征与客户流失标签之间的相关性。
对于低方差特征(即流失标签变化时几乎不变的特征),可以通过边际相关性和Hamming/Jaccard距离来处理。Hamming/Jaccard距离是专门针对二元结果设计的相似性度量。这些指标提供了每个特征在客户流失方面提供多少信息的视角。
删除低方差特征是有益的,因为它们不会显著变化,无论预测什么。因此,它们不仅无助于分析,还会降低学习过程的效率。
下表显示了特征与客户流失之间的最高相关性和二进制差异。48个原始特征和派生特征中仅显示最重要的特征。“过滤”列包含应用异常值和缺失值过滤后的结果。
主要结论是,三个销售渠道似乎与客户流失呈反比关系,大多数边际相关性都很小(≤0.1)。应用过滤器后,边际相关性的统计显著性得到了改善。
共线特征的问题可以通过计算所有特征之间的协方差矩阵来解决。该矩阵提供了某些特征具有冗余量的新视角。删除冗余特征是有益的,因为它们会导致偏差并增加计算量,从而降低学习效率。
缺失和异常数据通常通过经验规则来处理,例如删除缺少某些记录数据或超出样本标准差三倍的观察值(客户)。
由于数据缺失很常见,可以用样本或总体的均值或中位数来估算缺失值,而不是删除观察值。在此,删除了超过40%的缺失值的特征,并将剩余特征的缺失值替换为中位数。当遇到异常值时,删除了数值超过均值六倍标准差的客户。总共删除了140个观察结果(占总数的0.5%)。