自动机器学习:团队如何在自动学习项目中一同工作?(附链接)
作者头像
  • 陈丽慧
  • 2020-02-24 10:15:25 6

如何利用自动机器学习减少库存过剩

去年11月,我撰写了一篇文章,探讨了如何利用自动机器学习推动人工智能的普及(详见以下链接)。

[i]附链接:[/i]

[i]https://medium.com/microsoftazure/democratize-artificial-intelligence-with-automated-machine-learning-169b348a9509[/i]

在这篇文章中,我将展示如何使用自动机器学习来解决具体问题(该案例已在GitHub上发布,详见以下链接)。我们将介绍数据科学家、项目经理和业务主管如何利用自动机器学习和Azure机器学习服务减少商品库存过剩的具体过程。

[i]附链接:[/i]

[i]https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/automated-machine-learning/forecasting-orange-juice-sales/auto-ml-forecasting-orange- juice-sales.ipynb?WT.mc_id=azuremedium-blog-lazzeri[/i]

此外,本文还将展示数据科学家、项目经理和业务主管如何利用自动机器学习改进团队协作和学习,从而推动数据科学项目的成功实施。

在执行机器学习项目时,数据科学家、项目经理和业务主管需要紧密合作,以确保模型能够满足特定的业务目标。识别关键的业务变量是这一过程的核心。我们将这些变量视为模型的目标,并通过它们来确保项目的成功。

在这一案例中(该案例公开发布在GitHub上),我们将展示数据科学家、项目经理和业务主管如何利用自动机器学习和Azure机器学习服务来减少商品库存过剩。Azure机器学习服务是一个云平台,支持模型训练、部署、自动化和管理,所有这些都可以在云端进行。Azure机器学习服务中的自动机器学习功能通过训练数据和算法组合来迭代,从而自动选择最佳模型。

过多的库存不仅占用仓库空间,还会占用资金,影响现金流。如果不通过打折促销来减少利润,这些库存将无法转化为现金。更糟糕的是,库存过剩可能会被转移到其他渠道,如经销商,这会延迟销售。提前识别哪些产品不会达到预期的周转率,并通过与销售预测相匹配的库存补给来控制补货,是帮助批发商提高投资回报率的关键。

确定公司的业务目标

正确的产品组合和库存水平可以带来丰厚的销售额和利润。实现这一目标的关键在于拥有最新、准确的库存信息。手动处理不仅耗时,还会导致信息延迟和错误,进而导致收入损失。库存过剩会占用宝贵的仓库空间,并占用可用于购买新库存的资金。然而,以折扣形式销售过剩库存可能会损害品牌形象,影响其他产品的销售。

项目经理作为数据科学家与业务运营之间的桥梁,与业务主管讨论使用以往销售额的一部分来解决库存过剩问题的可能性。项目经理和业务主管通过询问和细化与业务目标相关的问题来定义项目目标。

此阶段主要包括两个任务: - 定义目标:项目经理和业务主管需要识别业务问题,并提出问题以明确数据科学技术可以解决的业务目标; - 识别数据源:项目经理和数据科学家需要找到相关数据来回答定义项目目标的问题。

寻找正确的数据和流程

一切从寻找数据开始。项目经理和数据科学家需要识别包含业务问题答案的数据源。他们寻找与问题相关的数据,以及可以准确衡量模型目标和感兴趣的特征的数据。

在此阶段,数据科学家需要处理三个主要任务: - 将数据导入分析环境; - 探索数据以确定其质量是否足够回答问题; - 建立数据流水线以定期更新和评分数据

将数据从源位置移动到分析环境后,数据科学家开始清理原始数据,生成干净、高质量的数据集,该数据集与目标变量之间的关系已经明确。在训练机器学习模型前,数据科学家需要充分了解数据,通过创建数据摘要和可视化来审核数据质量,并在准备建模之前提供必要的数据处理信息。

最终,数据科学家负责设计数据流水线架构,该架构会定期更新和评分数据。

利用自动机器学习预测橙汁销售

数据科学家和项目经理决定使用自动机器学习,原因包括:自动机器学习能够让有或没有数据科学背景的用户快速确定端到端的机器学习流程,从而节省时间并提高准确性。此外,它可以运行大量实验,加快迭代速度,使智能体验更加成熟。

让我们来看看如何利用自动机器学习预测橙汁销售。

在明确了业务目标并选择了合适的外部数据后,数据科学家将创建一个工作区。该工作区是服务的顶级资源,提供了一个集中地点来处理所有必要的工件。在创建Azure机器学习服务的工作区时,会自动添加以下Azure资源(如果可用): - Azure容器注册表 - Azure存储 - Azure应用洞察 - Azure密钥保管库

要运行自动机器学习,数据科学家还需要创建一个实验。实验是在工作区中的一个命名对象,代表一个预测任务,输入为训练模型及其一组评估指标。

数据科学家现在准备加载历史橙汁销售数据,并将CSV文件加载到Pandas DataFrame中。CSV中的时间列称为WeekStarting,因此它会被特别解析为日期时间格式。

DataFrame中的每一行代表某个商店中某个橙汁品牌的每周销售量。数据还包括销售价格、表示橙汁品牌是否在商店中做广告的标志,以及基于商店位置的一些客户人口统计数据。由于历史原因,数据还包括销售数量的对数值。

我们的任务是为“数量”列构建时间序列模型。重要的是要注意,数据集包含多个独立的时间序列,每个时间序列对应于商店和品牌的唯一组合。为了区分不同的时间序列,我们定义了粒度,粒度是用于确定时间序列边界的列值。为了评估预测效果,我们将数据分为训练集和测试集。之后,数据科学家开始建模以执行预测任务,自动机器学习将执行时间序列的预处理和估计步骤。

自动机器学习将执行以下预处理步骤: - 检测时间序列样本的频率(例如每小时、每天、每周),并为不存在的时间点创建新记录以使序列有规律; - 使用前向填充和特征列的中位数来估算目的中的缺失值; - 创建基于粒度的特征以完成不同序列之间的固定效应; - 创建基于时间的特征以辅助季节性模式的学习; - 将分类变量编码为数字量。

对于一个自动机器学习训练任务,AutoMLConfig对象定义了设置和数据。以下是用于训练橙汁销售预测模型的自动机器学习配置参数的概要:

访问GitHub以获取更多关于预测的信息(见以下链接)。每次迭代都会在实验中运行,并存储来自自动机器学习迭代的序列化流水线,直到找到在验证集上表现最佳的流水线为止。

附链接:

https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/automated-machine-learning/forecasting-orange-juice-sales/auto-ml-forecasting-orange-juice-sales.ipynb?WT.mc_id=azuremedium-blog-lazzeri

评估完成后,数据科学家、项目经理和业务主管再次会面以检查预测结果。项目经理和业务主管的任务是了解输入并根据这些结果选择实际步骤。业务主管需要确认最佳模型和流水线以满足业务目标。此外,机器学习解决方案以可接受的准确性解决了将系统部署到生产环境中的各种问题,可供外部销售预测应用程序使用。

微软在自动机器学习上的投入

自动机器学习基于微软研究部门的一项突破。这种方法结合了协同过滤和贝叶斯优化的思想,可以智能、高效地搜索可能的机器学习流水线的大空间。如今,它作为Azure机器学习服务的一部分提供给用户。正如你所见,无论是否有数据科学专业知识,自动机器学习都可以帮助用户确定端到端的机器学习流水线,解决任何问题,并在提高准确性的同时节省时间。它还可以运行大量实验并加快迭代速度。自动机器学习如何使您的组织受益?您的团队如何利用机器学习更紧密地合作以实现业务目标?

资源

  • 了解有关Azure机器学习服务的更多信息:[i]https://docs.microsoft.com/en-us/azure/machine-learning/service/?WT.mc_id=azuremedium-blog-lazzeri[/i]
  • 了解有关自动机器学习的更多信息:[i]https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml[/i]
  • 开始免费试用Azure机器学习服务:[i]https://azure.microsoft.com/en-us/trial/get-started-machine-learning/?WT.mc_id=azuremedium-blog-lazzeri[/i]

【end】

    本文来源:图灵汇
责任编辑: : 陈丽慧
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
自动学习何在一同团队机器链接项目工作
    下一篇