经过将机器学习与敏感性分析相结合来制定业务策略
作者头像
  • 2019-12-19 17:49:58 4

结合机器学习与敏感性分析开发数据驱动的业务策略

在当今的企业环境中,机器学习(ML)已成为决策支持的重要工具。尽管如此,机器学习系统的预测和决策仍需依赖人类用户的直觉和经验。

本文旨在展示如何将机器学习与敏感性分析相结合,以制定数据驱动的业务策略。重点讨论的是客户流失问题,同时探讨了使用基于机器学习的分析时常见的挑战。这些问题包括处理不完整和不平衡的数据、确定模型选择以及评估这些选择对潜在影响的量化。

具体来说,本文利用机器学习识别出可能流失的客户,并结合特征重要性与规划分析,提出定量和定性的建议。这样,组织可以据此制定适当的战略和战术决策,以减少未来的客户流失。这个案例展示了数据科学实践中常见的几个问题,例如:

  • 低信噪比:特征与流失率之间缺乏明确的相关性。
  • 高度不平衡的数据集:其中90%的客户并未流失。
  • 概率预测与调整:为了减少过度投资于客户流失控制的风险,采用概率预测和调整决策机制。

整个流程可以在Amazon SageMaker中实施,也可以在Amazon EC2上独立运行。

使用机器学习减少客户流失

本文将介绍通过以下步骤创建减少客户流失的策略:

1. 数据探索与特征工程

首先,通过检查各输入要素与客户流失标签之间的简单关联,探索客户数据。此外,研究特征间的关联(称为互相关或协方差),以支持算法决策,特别是确定哪些特征需要派生、修改或删除。

2. 构建一组机器学习模型

接着,构建多种机器学习算法,包括自动特征选择,并结合多个模型以提升性能。

3. 评估与优化模型性能

第三步,测试不同模型的性能。从这里,确定一种决策机制,以最小化客户流失数量被高估的风险。

4. 将机器学习应用于业务策略

最后,使用机器学习结果理解影响客户流失的因素,得出特征选择并量化评估这些选择对客户流失率的影响。通过执行敏感性分析,调整在现实生活中可控的一些因素(如折扣率),预测不同控制因素下的客户流失率变化。

数据探索与特征工程

在机器学习模型开发过程中,常遇到的问题包括输入数据中的共线性和低方差特征、异常值以及数据缺失。本节介绍了如何使用Amazon SageMaker解决这些问题。

这些带有时间戳的数据可能包含一些重要的模式。将其按日、周、月划分,有助于开发新特征来说明目标的动态特性。

随后,研究原始特征和新特征之间的简单一对一关系及其关联度量。此外,还研究了特征与客户流失标签之间的相关性。

对于低方差特征(即流失标签变化时几乎不变的特征),可以通过边际相关性和Hamming/Jaccard距离来处理。Hamming/Jaccard距离是专门针对二元结果设计的相似性度量。这些指标提供了每个特征在客户流失方面提供多少信息的视角。

删除低方差特征是有益的,因为它们不会显著变化,无论预测什么。因此,它们不仅无助于分析,还会降低学习过程的效率。

下表显示了特征与客户流失之间的最高相关性和二进制差异。48个原始特征和派生特征中仅显示最重要的特征。“过滤”列包含应用异常值和缺失值过滤后的结果。

主要结论是,三个销售渠道似乎与客户流失呈反比关系,大多数边际相关性都很小(≤0.1)。应用过滤器后,边际相关性的统计显著性得到了改善。

共线特征的问题可以通过计算所有特征之间的协方差矩阵来解决。该矩阵提供了某些特征具有冗余量的新视角。删除冗余特征是有益的,因为它们会导致偏差并增加计算量,从而降低学习效率。

缺失和异常数据通常通过经验规则来处理,例如删除缺少某些记录数据或超出样本标准差三倍的观察值(客户)。

由于数据缺失很常见,可以用样本或总体的均值或中位数来估算缺失值,而不是删除观察值。在此,删除了超过40%的缺失值的特征,并将剩余特征的缺失值替换为中位数。当遇到异常值时,删除了数值超过均值六倍标准差的客户。总共删除了140个观察结果(占总数的0.5%)。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
敏感性制定经过结合机器策略业务分析学习
    下一篇