部署机器学习非常困难，并将不断如此...

朱瑞雪
2019-11-19 06:29:58 10

机器学习部署面临的挑战及解决方案

机器学习技术正以前所未有的速度改变着我们的生活。然而，对于学术界的研究人员来说，他们往往止步于算法原型的研发。而在实际的工业应用中，将这些算法转化为实用的应用程序则面临诸多挑战。

作为一名顾问，我认识到，对于那些希望通过机器学习创造价值的企业来说，大规模部署机器学习模型是最主要的挑战之一。随着模型变得越来越复杂，这一问题变得更加棘手。根据我的经验，只有少数机器学习项目能够成功地进入生产环境。人工智能项目的失败原因多样，其中“难以部署”便是其中之一。因此，了解项目部署的核心机制以及如何降低失败风险对于决策者来说至关重要。

一、挑战

机器学习部署面临诸多独特挑战，这也是我们当前正在解决的问题：

1. 数据科学语言管理

机器学习应用程序通常由多种编程语言编写，而这些语言之间的交互性较差。例如，一个机器学习应用程序可能会先使用R语言，然后转向Python，最后再使用其他语言。尽管Python和R是目前最流行的两种语言，但它们在生产环境中使用的频率较低。这是因为将Python或R编写的模型移植到C++或Java等常用语言中往往会导致性能下降。

容器化技术（如Docker）可以帮助解决工具多样性带来的兼容性问题，但诸如依赖管理、错误检查、测试和构建工具等问题依然存在。此外，复现性也是一个巨大挑战。数据科学家可能会使用不同的编程语言、库或库的不同版本来构建模型，手动跟踪这些依赖关系十分困难。因此，我们需要一个机器学习生命周期工具，能够在训练阶段自动记录依赖关系，并将其与模型一起打包以便部署。

我建议使用可以将代码从一种语言即时转换为另一种语言的工具，或者采用API部署模型的方式，以便模型在任何环境中都能被轻松集成。

2. 算力和GPU

现代神经网络结构复杂，训练和推理过程需要大量算力。通常，我们希望算法运行得尽可能快，这对许多用户来说可能是个挑战。此外，许多生产环境中的机器学习系统依赖于GPU，但GPU不仅稀缺而且昂贵，这使得大规模部署变得更加复杂。

3. 可移植性

模型部署还面临着缺乏可移植性的挑战。许多历史遗留系统限制了软件组件在不同主机环境中的运行，这给数据科学家带来了障碍。

4. 可扩展性

可扩展性是许多人工智能项目中的一个重要问题。为了确保模型能够应对不断增长的数据和需求，团队需要采用灵活的工具和技术。通过采用基于微服务的方法，团队可以通过简单的配置更改快速调整模型的工作模式，同时扩展计算资源以适应更复杂的工作负载。

5. 边缘计算

有时，算法在训练完成后并不会立即投入使用，而是等待用户在需要时调用。这意味着在一天中的不同时间段，模型可能需要处理不同数量的请求。如何在不浪费资源的情况下实现快速扩展和收缩是一个巨大的挑战。

二、提升鲁棒性使模型可以运行

为了使模型准备好投入生产环境，我们需要花费大量时间进行调整。提升模型的鲁棒性包括重构模型以适应现有架构，这通常需要大量的工作。在某些情况下，整个模型需要使用合适的语言重新编码。这一过程往往充满挑战，可能导致部署延期数月。一旦完成，模型还需要整合到公司的IT架构中，包括处理之前提到的各种依赖关系问题。此外，在生产环境中访问数据也是一项艰巨的任务。

三、其他挑战

在实际操作中，我还注意到以下几个问题：

输入特性的变化可能会导致模型权重和用途的变化，因此需要设计灵活的系统来跟踪这些变化。
模型迭代过程中，保持配置的清晰和灵活性成为一项新的挑战。
随着时间的推移，某些数据输入可能会发生变化，需要一种方法来理解和跟踪这些变化，以便更好地了解系统。
传统单元测试和集成测试无法识别所有问题，例如部署错误版本的模型或在过时的数据集上训练模型。

四、测试和验证的问题

模型功能需要定期验证，因为随着时间推移，模型可能会发生变化。验证过程带来了一系列挑战：

必须使用相同的测试集和验证集来评估模型性能，以对比不同模型的效果。
更新测试集和验证集时，需要重新评估不同模型，这增加了在生产环境中自动训练和部署新版本模型的难度。
为了保持一致性，度量标准应在不同时间和模型之间使用相同的代码。
新模型可能带来性能提升，但也可能导致预测时间增加，因此验证过程需要包括基准测试和负载测试。

五、自动化平台

自动化机器学习平台可以帮助加快模型创建过程，并支持多个模型的开发和比较。企业可以根据预测准确率、计算延迟和计算资源需求等因素选择最适合的模型。据估计，高达90%的企业级机器学习模型可以通过自动化方法开发。此外，许多模型会遭受“模型漂移”现象，即随着时间推移模型性能下降。因此，部署后的模型需要进行持续监控，包括记录所有输入、输出和异常情况。平台需要具备日志存储和模型性能可视化功能。

六、发布策略

在部署软件时，可以探索多种方法，如“影子模式”和“金丝雀模式”。前者可以在不实际提供服务的情况下收集新模型的输入和预测结果，后者则允许逐步向部分用户发布新版本。这种方法需要更成熟的工具，但在出现错误时可以将损失降到最低。

结论

机器学习技术正处于快速发展阶段，软件和硬件也在不断进步以满足需求。通过使用容器化技术和微服务架构，我们可以解决异构性和基础设施带来的问题。虽然部署机器学习仍然充满挑战，但一些新的架构和产品正在成为数据科学家的好帮手。随着更多公司扩展其数据科学业务，我们将看到更加便捷的模型部署工具的出现。

图灵汇

责任编辑：：朱瑞雪

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

并将部署困难不断机器如此非常学习

黑智

2019-11-19