古代机器学习工具

机器人库
2020-06-12 09:04:52 1

+关注

语境

随着数据迷信的快速发展，机器学习的角色也在逐步转变。从前的数据迷信家多被视为混合角色，现在逐渐转变为更加侧重工程或分析的角色，通常被称为A型和B型数据迷信家。

一些因素推动了这一变化：

机器学习模型越来越多地被集成到消费系统中，这要求从业者具备更深厚的技术技能。
商业产品和用户行为的变化速度加快，对自动化的需求也随之增加。
法规要求如GDPR的“解释权”增加了对数据可追溯性和预测、决策解释性的需求。

变革

这种环境的变化导致了数据迷信家所使用的工具也发生了相应的转变。数据迷信家现在更多地关注应用云计算、自动化、可解释性和可重复的过程。

基于云的机器学习：云基础设施和Kubernetes（K8S）改变了机器学习的实施方式。从可以将预构建解决方案作为SaaS应用程序使用，到能够在K8S上运行完整的机器学习堆栈。
自动化和编排：自动化机器学习（AutoML）简化了模型训练过程，提供了一种自动化的数据准备、特征工程、超参数优化或模型选择方法。
可解释且可重复的机器学习：近年来，出现了一些库和工具，帮助人们理解模型预测及其背后的权重，并赋予其意义。例如，whatiftools、Lime、Shap或Manifold等工具可以帮助实现这一目标。

云基础的机器学习

随着向云和Kubernetes迁移的步伐加快，机器学习工程师对更多DevOps或数据操作功能的需求也随之增加。人们对深度学习的兴趣日益浓厚，尤其是Keras使这一领域更加普及，进一步突显了这一点。深度学习需要大量的计算资源，其应用率会因工作负载的变化而波动，这促使Tensorflow执行器在K8S上运行，从而支持更弹性、可扩展的基础架构。

另一个促进这一转变的因素是机器学习在生产中的重要性不断提高。这种转变反过来又增加了原型系统与生产系统紧密结合的需求，并借助各种SaaS云产品（如AWS SageMaker或Google Cloud ML Engine），简化了将模型推向生产的过程。

自动化和机器学习工作流程

由于生产级机器学习系统的日益重要，从模型训练到部署的整个机器学习价值链对自动化的需求也相应增加。自动化允许更快地迭代和改进模型。

自动化机器学习（AutoML）提供了围绕模型训练过程的一层自动化，可以处理一些重复性的任务，如超参数优化、特征选择和模型选择。目前，许多云提供商的机器学习产品都包含了AutoML功能。此外，自动化需求还增加了对不同部分进行编排的需求。像Airflow、Kubeflow、MLFlow和MetaFlow这样的工作流工具是完成这一任务的关键工具，它们负责将整个机器学习过程作为一条流水线处理，协调从数据收集到模型服务的端到端流程。

可解释且可重复的机器学习

GDPR和其他法规已经影响了我们构建机器学习模型的方式。这些法规推动了可解释和可复现模型的发展。在可解释性方面，一系列工具已经出现，帮助数据科学家更好地利用他们的模型。这些工具评估不同的方案，分析变量之间的相互作用，并提供仪表板以帮助解释模型预测。Whatiftool、Lime、SHAP和Manifold是应对这一挑战的一些工具。

除了提供可靠的方法来调试模型的优点外，可复现性也是受法规影响的一个方面。工作流工具可以创建可复现的机器学习管道。然而，为了简化这个过程，一些特定的工具也出现了。