Databricks推出AutoML工具,自动化机器学习工作管线
作者头像
  • 2019-08-21 19:13:21 2

材料科学公司Databricks,由Apache Spark技术团队创立,在其统一分析平台中加入了自动化机器学习功能(AutoML),使得不具备专业背景的用户也能轻松创建机器学习模型。

创建机器学习模型并不容易,通常需要具备专业知识的数据科学家,准备大量的训练数据,并进行特征工程、超参数调优、自动模型追踪、产品化及部署等一系列复杂工作。Databricks指出,企业对机器学习的需求十分旺盛,大型企业每年可能需要创建数百个模型以解决各种问题,但由于数据科学家资源有限,实际完成的数量往往较少。

为了满足这一需求缺口,Databricks在其统一分析平台中引入了自动化机器学习功能,使未经培训的人员也能顺利完成机器学习模型的创建与训练。

该平台新增了AutoML Toolkit及其定制化解决方案。AutoML Toolkit提供了一套自动化端到端的机器学习工作流,从特征工程开始,一直到超参数调优、模型选择及最终部署,用户可以无需编写代码完成这些步骤,同时也能通过精细的控制实现必要的调整。Databricks的开源机器学习平台MLflow则可以自动跟踪AutoML Toolkit的执行情况,用户可以通过MLflow查看模型结果和训练进度。

此外,定制化的AutoML解决方案赋予数据科学家更大的灵活性,允许他们设计个性化的机器学习工作流。统一分析平台集成了ETL、模型构建和推理等功能,通过与流行的库集成,数据科学家可以灵活控制端到端的机器学习工作流,并由系统自动执行生产所需的步骤。

Databricks Runtime同样进行了优化,整合了HyperOpt、MLlib和MLflow,简化了分布式超参数调优和模型搜索的过程。用户可以利用增强的HyperOpt和MLflow追踪功能,搜索最优的分布式超参数设置,并获得强大的数据可视化功能。此外,Databricks Runtime还支持流行的开源机器学习框架,如TensorFlow、PyTorch和scikit-learn,使得数据科学家可以利用经过优化的工具进行分布式深度学习训练,并借助MLflow内置的实验和可视化追踪功能辅助超参数调优工作。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
管线Databricks自动化机器推出工具AutoML学习工作
    下一篇