随着数据迷信的快速发展,机器学习的角色也在逐步转变。从前的数据迷信家多被视为混合角色,现在逐渐转变为更加侧重工程或分析的角色,通常被称为A型和B型数据迷信家。
一些因素推动了这一变化:
这种环境的变化导致了数据迷信家所使用的工具也发生了相应的转变。数据迷信家现在更多地关注应用云计算、自动化、可解释性和可重复的过程。
随着向云和Kubernetes迁移的步伐加快,机器学习工程师对更多DevOps或数据操作功能的需求也随之增加。人们对深度学习的兴趣日益浓厚,尤其是Keras使这一领域更加普及,进一步突显了这一点。深度学习需要大量的计算资源,其应用率会因工作负载的变化而波动,这促使Tensorflow执行器在K8S上运行,从而支持更弹性、可扩展的基础架构。
另一个促进这一转变的因素是机器学习在生产中的重要性不断提高。这种转变反过来又增加了原型系统与生产系统紧密结合的需求,并借助各种SaaS云产品(如AWS SageMaker或Google Cloud ML Engine),简化了将模型推向生产的过程。
由于生产级机器学习系统的日益重要,从模型训练到部署的整个机器学习价值链对自动化的需求也相应增加。自动化允许更快地迭代和改进模型。
自动化机器学习(AutoML)提供了围绕模型训练过程的一层自动化,可以处理一些重复性的任务,如超参数优化、特征选择和模型选择。目前,许多云提供商的机器学习产品都包含了AutoML功能。此外,自动化需求还增加了对不同部分进行编排的需求。像Airflow、Kubeflow、MLFlow和MetaFlow这样的工作流工具是完成这一任务的关键工具,它们负责将整个机器学习过程作为一条流水线处理,协调从数据收集到模型服务的端到端流程。
GDPR和其他法规已经影响了我们构建机器学习模型的方式。这些法规推动了可解释和可复现模型的发展。在可解释性方面,一系列工具已经出现,帮助数据科学家更好地利用他们的模型。这些工具评估不同的方案,分析变量之间的相互作用,并提供仪表板以帮助解释模型预测。Whatiftool、Lime、SHAP和Manifold是应对这一挑战的一些工具。
除了提供可靠的方法来调试模型的优点外,可复现性也是受法规影响的一个方面。工作流工具可以创建可复现的机器学习管道。然而,为了简化这个过程,一些特定的工具也出现了。
机器学习工具已经经历了显著的变化,从简单的预测库和Jupyter笔记本,到现在需要掌握更广泛的工具集,包括云库、工作流工具、解释和版本控制工具。这种工具的增加有助于数据科学从一些研究抽象转向更多的工程或业务功能。