许多企业在决策过程中常常借助机器学习(ML)技术,但即便如此,最终的业务决策仍需依赖人类的直觉。
本文旨在展示如何将机器学习与敏感性分析相结合,从而制定出基于数据的业务策略。本文的重点在于客户流失问题,同时也探讨了使用基于机器学习的分析时常见的挑战。这些挑战包括处理不完整和不平衡的数据、选择合适的模型以及评估这些选择对客户流失可能产生的影响。
具体而言,本文使用机器学习识别出可能流失的客户,并将特征重要性与方案分析相结合,从而提出具有量化和定性指导意义的建议。这样,企业便能依据这些信息制定相应的战略和战术,以减少未来的客户流失。这一案例揭示了数据分析中常见的几个问题,例如: - 信噪比较低,即特征与流失率之间的关系不够明确; - 数据集中高度不平衡(90%的客户未流失); - 利用概率预测和调整来决定决策机制,以避免过度投资于客户流失的问题。
整个流程的实现可以通过Amazon SageMaker完成,也可以在Amazon EC2上独立运行。
在这个案例中,我们设想一家提供多种产品的虚拟公司。我们将两种主要产品分别命名为产品A和产品B。虽然我们仅掌握该公司及其客户的一部分信息,但最近该公司发现客户流失情况有所增加。我们的数据集包含了数千名客户的各种属性信息,这些数据是在数月内收集和整理的。数据中既有已流失的客户,也有尚未流失的客户。通过分析特定客户名单,我们可以预测任何一个客户流失的可能性。在此过程中,我们将回答以下几个问题:我们能否构建一个可靠的客户流失预测模型?哪些因素会影响客户流失的概率?公司可以采取哪些措施来减少客户流失?
探索数据和建立新特征
首先,我们将通过观察各个输入要素与客户流失标签之间的简单关联来探索客户数据。此外,我们还将研究特征之间的关系(称为互相关或协方差)。这些操作有助于我们做出算法决策,特别是确定哪些特征需要派生、修改或删除。
开发一组ML模型
然后,我们将建立多个机器学习算法,包括自动特征选择,并结合多个模型以提高性能。
评估和完善ML模型的性能
在这一部分,我们将测试不同模型的性能。从这里,我们可以确定一种决策机制,该机制可以最小化高估客户流失数量的风险。
将ML模型应用于业务策略设计
最后,在第四部分中,我们将利用ML结果来了解影响客户流失的因素,并通过特征选择和量化评估来确定这些选择对客户流失率的影响。我们将通过执行敏感性分析来实现这一点,该分析会调整一些在现实生活中可以控制的因素(如折扣率),并预测这些因素变化对客户流失率的影响。所有预测都将基于第3部分中确定的最佳ML模型。
在机器学习模型开发期间,经常会遇到数据中存在的共线和低方差特征、异常值和数据缺失等问题。本节将介绍如何使用Amazon SageMaker来解决这些问题。
带有时间戳的数据可以在某些时间段内包含重要的模式。我们将这些时间段细分为日、周和月,从而开发出新的特征来说明这些目标的动态性质。
接着,我们将研究原始特征与新特征之间的一对一关联和相关性度量。我们还会研究特征与客户流失标签之间的相关性。
低方差特征(即在流失标签变化时不会显著改变的特征)可以通过边缘相关性和汉明/雅卡尔距离来处理。这些测量指标提供了一个视角,即每个特征在多大程度上提供了关于客户流失的信息。
去除低方差特征是明智的选择,因为它们无论预测什么都不会发生显著变化。因此,它们不仅无助于分析,而且实际上会降低学习过程的效率。
表格显示了特征和客户流失之间的最高相关性和二进制差异。48个原始特征和派生特征中仅显示最重要的特征。“过滤”列展示了在处理异常值和缺失值时获得的结果。
表的主要结论是,三个销售渠道似乎与客户流失成反比,并且与客户流失的大多数边缘相关性很小(≤0.1)。使用过滤器处理异常值和缺失值会提高边缘相关性的统计显著性。
共线特征的问题可以通过计算所有特征之间的协方差矩阵来解决。该矩阵为识别某些特征的冗余量提供了新的视角。去除冗余特征是一个好习惯,因为它们会产生偏差并需要更多的计算资源,从而降低学习过程的效率。
缺失和异常数据的问题通常通过经验规则来处理,例如在数据缺失或超出样本标准差三倍时删除观察值(客户)。
由于数据缺失是常见的问题,你可以选择用样本或总体的平均值或中位数来估计缺失值,而不是删除观察值。在这里,我们删除了缺失比例超过40%的特征,并将剩余特征的缺失值替换为中位数。对于遇到的异常值,我们删除了那些数值超过平均值六倍标准差的客户。总共删除了16096个观察结果中的140个(0.5%的值对应一个类别,而p<0.05表示显著性水平)。