如何用一套引擎搞定机器学习全流程？

2020-05-29 15:35:37 3

深度学习技术在现代社会的应用日益广泛，目前已被应用于个性化推荐、商品搜索、人脸识别、机器翻译及自动驾驶等多个领域。随着技术的发展，深度学习正在向更多行业渗透。

背景

深度学习应用的多样化促使了各种优秀计算框架的涌现。TensorFlow、PyTorch和MXNet等框架因其强大的功能而备受关注。然而，在实际应用中，深度学习项目通常需要结合数据处理相关的计算框架。例如，模型训练前需要对数据进行预处理以生成训练样本，而在预测阶段则需要对数据进行监控。这意味着数据处理和模型训练通常需要分别使用不同的计算引擎，增加了用户的使用复杂度。

本文将介绍一种解决方案，即如何通过单一引擎完成机器学习的全流程处理。首先，我们将概述典型的机器学习工作流程，该流程包括特征工程、模型训练以及离线或在线预测等步骤。

典型机器学习工作流程

在机器学习的各个阶段，如特征工程、模型训练和模型预测，都会产生大量日志。这些日志通常需要通过数据处理引擎（如Flink）进行分析，然后再进入特征工程阶段。接着，利用深度学习引擎（如TensorFlow）进行模型训练和预测。在模型训练完成后，可以使用TensorFlow Serving进行在线评分。

尽管这一流程可行，但依然存在一些问题，例如： - 使用多个计算引擎：在同一个机器学习项目中，可能需要同时使用Flink和TensorFlow两个计算引擎，这增加了部署的复杂性。 - TensorFlow的分布式支持不足：TensorFlow在分布式支持方面存在局限性，尤其是在动态分配IP地址和端口的情况下，需要手动指定。此外，缺乏自动故障转移机制。

解决方案

为了解决这些问题，我们提出了一种结合Flink和TensorFlow的方法。具体来说，通过将TensorFlow程序运行在Flink集群上，可以简化部署流程并节省资源。

Flink计算引擎简介

Flink是一个开源的大数据分布式计算引擎。在Flink中，所有的计算都被抽象为操作符（operator）。数据读取的节点称为source operator，数据输出的节点称为sink operator。这些操作符之间可以进行多种多样的数据处理。

机器学习分布式计算

在机器学习的分布式环境中，通常会将一组节点划分为worker（负责算法执行）和ps（负责参数更新）。为了将Flink的操作符结构与机器学习的角色相结合，我们引入了flink-ai-extended的概念。

Flink-ai-extended概念

flink-ai-extended通过对机器学习集群进行抽象，将Flink与机器学习集群结合起来，支持不同的计算引擎，包括TensorFlow。

ML Framework

ML Framework由Application Manager（am）和node组成。am负责管理所有节点的生命周期，而node负责执行机器学习算法。通过这种结构，可以灵活地支持不同的深度学习引擎。

ML Operator

ML Operator提供了两个关键接口：addAMRole和addRole。通过这些接口，可以在Flink作业中添加Application Manager及一组node，从而构建一个完整的机器学习集群。

TensorFlow在Flink中的应用

TensorFlow的分布式训练通常涉及worker和ps角色。worker负责计算任务，ps负责参数更新。通过将TensorFlow运行在Flink集群上，可以实现高效的数据处理和模型训练。

实时预测

对于已经训练好的模型，可以通过Python或Java进行实时预测。在Python环境下，模型加载和参数更新通过TensorFlow的GRPC通信完成。而在Java环境下，可以直接使用TensorFlow Java API进行预测，无需额外的参数服务器。

总结

本文介绍了如何通过Flink和TensorFlow结合的方式，简化机器学习项目的部署和管理。通过使用flink-ai-extended，用户可以更轻松地管理和运行复杂的机器学习任务。希望这些内容能帮助大家更好地理解和应用这些技术。

图灵汇

责任编辑：：

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

何用搞定流程机器引擎学习

贾莲莲

2020-05-29

背景