机器学习：如何在Kafka运用程序中部署一个分析模型停止实时预测

Apache Kafka与机器学习的结合十分巧妙。本文主要探讨如何在Kafka应用程序中部署分析模型以实现实时预测。虽然模型训练和模型部署通常是两个独立的过程，但在数据集成和数据预处理阶段，两者需要统一的数据处理方式，包括数据集成、过滤、增强和聚合。

本文将对比两种模型部署方式：通过RPC的服务端模型和直接嵌入Kafka客户端的模型。尽管本文以TensorFlow为例，但这些原则同样适用于其他机器学习或深度学习框架，如H2O.ai、Deeplearning4j、谷歌云端机器学习引擎和SAS等。

TensorFlow是一个开源软件库，主要用于高效计算，其灵活的架构使在多种平台上部署计算变得更加容易，包括CPU、GPU和TPU等。TensorFlow不仅适用于桌面和服务器集群，还适用于移动和边缘设备。TensorFlow的生态系统丰富，涵盖了从训练模型到模型服务的各种工具。

在模型部署过程中，重点在于保存和加载模型，这涉及到模型的存储和使用TensorFlow作为模型服务器。模型通常以二进制文件形式存储，使用协议缓冲区序列化。图表对象是TensorFlow计算的基础，而权重则保存在单独的检查点文件中。

Kafka在模型部署、数据集成、数据预处理和数据监控方面都发挥着重要作用。模型服务器可以自我管理，也可以由分析供应商托管。服务器通常支持版本控制和A/B测试等功能，并通过请求-响应协议（如HTTP或gRPC）与应用交互。

本文展示了如何使用TensorFlow模型服务器和RPC进行流处理。此外，也可以选择将模型直接嵌入Kafka应用中，通过Kafka本地处理的数据流来使用模型。这可以通过KSQL或Kafka客户端API（如Java、Scala、Python和Go）实现。

并非所有模型都适合直接嵌入应用。选择嵌入模型时，需要考虑模型的功能、二进制格式、大小以及是否需要模型服务器的特性。小型的TensorFlow模型加载速度较快，而大型模型则可能较慢。

在Kafka应用中重建模型服务器的特性并不困难。用户可以根据需求选择合适的模型部署方式。如果需要动态更新模型、版本控制、A/B测试或金丝雀测试等功能，可以选择使用模型服务器。但如果追求更低的延迟和更高的性能，直接嵌入模型可能是更好的选择。

在云原生环境中，如Kubernetes，两种方法都可以利用其优势。嵌入模型可以充分利用独立pod结构，而使用边车模式可以结合模型服务器的优势。对于边缘部署，模型可以部署在边缘设备或边缘数据中心，使用轻量级客户端进行通信。

总之，无论是选择模型服务器还是直接嵌入模型，都需要根据项目的具体需求和技术条件来决定。通过合理选择，可以实现高效的模型部署和实时预测。

责任编辑：：林琳

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

GRCC

2020-02-16

机器学习与统计学的争论，有意义吗？