经过将机器学习与敏感性分析相结合来制定业务策略

在当今的企业环境中，机器学习（ML）已成为决策支持的重要工具。尽管如此，机器学习系统的预测和决策仍需依赖人类用户的直觉和经验。

本文旨在展示如何将机器学习与敏感性分析相结合，以制定数据驱动的业务策略。重点讨论的是客户流失问题，同时探讨了使用基于机器学习的分析时常见的挑战。这些问题包括处理不完整和不平衡的数据、确定模型选择以及评估这些选择对潜在影响的量化。

具体来说，本文利用机器学习识别出可能流失的客户，并结合特征重要性与规划分析，提出定量和定性的建议。这样，组织可以据此制定适当的战略和战术决策，以减少未来的客户流失。这个案例展示了数据科学实践中常见的几个问题，例如：

整个流程可以在Amazon SageMaker中实施，也可以在Amazon EC2上独立运行。

本文将介绍通过以下步骤创建减少客户流失的策略：

首先，通过检查各输入要素与客户流失标签之间的简单关联，探索客户数据。此外，研究特征间的关联（称为互相关或协方差），以支持算法决策，特别是确定哪些特征需要派生、修改或删除。

接着，构建多种机器学习算法，包括自动特征选择，并结合多个模型以提升性能。

第三步，测试不同模型的性能。从这里，确定一种决策机制，以最小化客户流失数量被高估的风险。

最后，使用机器学习结果理解影响客户流失的因素，得出特征选择并量化评估这些选择对客户流失率的影响。通过执行敏感性分析，调整在现实生活中可控的一些因素（如折扣率），预测不同控制因素下的客户流失率变化。

在机器学习模型开发过程中，常遇到的问题包括输入数据中的共线性和低方差特征、异常值以及数据缺失。本节介绍了如何使用Amazon SageMaker解决这些问题。

这些带有时间戳的数据可能包含一些重要的模式。将其按日、周、月划分，有助于开发新特征来说明目标的动态特性。

随后，研究原始特征和新特征之间的简单一对一关系及其关联度量。此外，还研究了特征与客户流失标签之间的相关性。

对于低方差特征（即流失标签变化时几乎不变的特征），可以通过边际相关性和Hamming/Jaccard距离来处理。Hamming/Jaccard距离是专门针对二元结果设计的相似性度量。这些指标提供了每个特征在客户流失方面提供多少信息的视角。

删除低方差特征是有益的，因为它们不会显著变化，无论预测什么。因此，它们不仅无助于分析，还会降低学习过程的效率。

下表显示了特征与客户流失之间的最高相关性和二进制差异。48个原始特征和派生特征中仅显示最重要的特征。“过滤”列包含应用异常值和缺失值过滤后的结果。

主要结论是，三个销售渠道似乎与客户流失呈反比关系，大多数边际相关性都很小（≤0.1）。应用过滤器后，边际相关性的统计显著性得到了改善。

共线特征的问题可以通过计算所有特征之间的协方差矩阵来解决。该矩阵提供了某些特征具有冗余量的新视角。删除冗余特征是有益的，因为它们会导致偏差并增加计算量，从而降低学习效率。

缺失和异常数据通常通过经验规则来处理，例如删除缺少某些记录数据或超出样本标准差三倍的观察值（客户）。

由于数据缺失很常见，可以用样本或总体的均值或中位数来估算缺失值，而不是删除观察值。在此，删除了超过40%的缺失值的特征，并将剩余特征的缺失值替换为中位数。当遇到异常值时，删除了数值超过均值六倍标准差的客户。总共删除了140个观察结果（占总数的0.5%）。

责任编辑：：

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2019-12-19

机器学习精准估算——海平面上升带来的风险有大多