机器学习“调音师”:如何及何时重新调校ML
作者头像
  • robotinside
  • 2020-06-09 15:12:08 7

全文共约1600字,预计阅读时长5分钟

古希腊哲学家赫拉克利特曾说过:“唯一不变的是变化。”时间拥有不可动摇的力量,无论是观念、社会还是人类自身,都会随着时间的推移发生巨大的变化。过去最先进的事物可能会被淘汰,今天的新想法也可能在几年后被遗忘。因此,了解变化对于企业来说至关重要。

十五年前,如果一家手机制造商没有涉足智能手机的研发,它可能就难以生存。许多曾经在市场上占据主导地位的功能手机已经消失。人们对手机的需求迅速转向了智能手机,那些未能适应变化的公司则付出了代价。

数据分析逐渐成为商业决策的主要驱动力,机器学习模型在其中扮演着重要角色。然而,这些模型需要随着时间和环境的变化进行不断调整,这被称为“模型漂移”。

什么是“模型漂移”

尽管大多数教程、文章和博客都定义了机器学习的生命周期,从数据收集到模型部署,但人们往往忽略了机器学习生命周期中的一个重要特性——模型漂移。本质上,目标变量与自变量之间的关系会随时间变化。这种漂移会导致模型不再稳定,预测结果的准确性也会逐渐下降。

以线性回归为例,我们通过自变量x_i来预测目标变量y:

[ y = alpha + beta1 x1 + beta2 x2 + beta3 x3 + ldots ]

其中,(alpha) 是截距,(betai) 表示变量 (xi) 的系数。通常认为这种映射是固定的,即系数 (beta_i) 和截距 (alpha) 不会随时间变化。然而,这种假设在实际应用中并不成立。企业的盈利很大程度上依赖于这些模型,一旦假设不成立,就会对企业构成严重威胁。

漂移的种类

模型漂移主要分为两类:

  1. 概念漂移:当目标变量的统计特性发生变化时,这种漂移就会发生。例如,如果用来预测的重要变量的意义发生了变化,模型就不再适用。

  2. 数据漂移:当预测的统计特性发生变化时,这种漂移就会发生。例如,基础变量的变化会导致模型失效。

一个典型的例子是季节性导致的数据模式变化。冬季有效的商业模型在夏季可能就不再适用。例如,假期期间航班需求激增,而在淡季时,航班的上座率却很低。另一个例子是消费者偏好的变化,比如智能手机的普及。

如何处理模型漂移?

解决模型漂移的最佳方法是不断修正模型。一旦模型出现漂移,可以通过以往的经验来进行预估,从而积极重建模型,降低漂移带来的风险。此外,如果数据随时间变化,可以赋予近期数据更多的权重,以确保模型的稳定性。

另一种更复杂的解决方案是对变化本身进行建模。首先建立一个静态模型作为基准,然后根据最近数据的行为变化,建立新的模型来纠正对基准模型的预测。

应该多久重新调校一次模型?

处理模型漂移的常见方法是持续重新调校模型。具体频率取决于具体情况。有时,问题会自然出现,尽管这不是最理想的方式,但对于新模型而言却是唯一的选择。一旦发现问题,可以研究并进行修正,以应对未来可能出现的问题。

有时,数据与模型中处理的实体相关,遵循季节性模式。在这种情况下,应根据季节变化重新调校模型。例如,在假期期间,信贷贷款机构需要特殊模型来应对突然出现的形式变化。

最好的检测漂移的方法是持续监测。与模型稳定性相关的度量指标需要在一段时间内进行监控,时间间隔可以是一周、一个月或一个季度,具体取决于不同的领域和业务。

监测可以由人工执行,也可以通过自动化脚本实现。一旦出现异常情况,自动化脚本应能触发警报并发送通知。

变化是永恒的,只有那些准备好接受并监测变化的企业才能取得成功。

    本文来源:图灵汇
责任编辑: : robotinside
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
调音师调校何时重新机器如何学习
    下一篇