构建实机遇器学习系统解读
作者头像
  • 撒靓瑶
  • 2019-11-29 07:48:23 3

机器学习综述

定义

机器学习是一门科学,其目的是让计算机无需明确编程就能自主工作。深度学习的先驱之一吴恩达教授曾从计算机从业者的角度这样定义机器学习。而世界领先的统计软件公司SAS则从统计和数据分析的角度将其定义为一种自动化建立模型的方法。

从学术和工业界的视角来看,机器学习应当具备以下三个要素:基于数据、高度自动化以及鲁棒性。这三方面是组织成功应用机器学习的关键,但必须始终以用户体验为优先考虑。

机器学习的应用领域

  • 监督式学习:通过已有信息对感兴趣的目标进行预测或分类,常用方法包括线性模型、最近邻估计、神经网络和决策树。
  • 非监督式学习:主要用于对数据进行分类,以便于数据的分析和可视化处理,常见的方法有聚类分析和隐含因子分析。
  • 强化学习:通过观察实际事件来优化行为。

实机遇器学习的应用场景

  • 硬实时机器学习:系统能够立即响应请求,快速处理。
  • 软实时机器学习:系统接收请求后立即开始处理,并在短时间内提供反馈。
  • 批量处理机器学习:对成批数据进行实时处理。

实机遇器学习模型的生命周期

生命周期涵盖从提出、设计、开发、测试、部署到维护、升级或退役的全过程。开发实机遇器学习模型遵循构思、分析、设计、完成和维护五个步骤,这一过程可能会随着业务的发展而反复迭代。最终目标是在创造前沿技术的同时,实现个人、组织和社会的收益。

实机遇器学习架构

设计实机遇器学习架构的四个关键点
  • 数据流量和存储:评估数据的流动和存储需求。
  • 响应延迟:考虑与其他系统的交互以及对现有系统的依赖。
  • 迁移意义:新旧系统之间的迁移所带来的影响。
Lambda架构及其主要组件

Lambda架构是一种能够实时处理大规模数据的架构模式,设计时充分考虑了响应延迟、处理吞吐量及高容错性。它由以下三个部分组成:

  • 实时响应层:快速响应外部需求。
  • 快速处理层:软实时地响应外部需求。
  • 批处理层:在线下处理大量数据,响应延迟较低,但数据全面性强。
Lambda架构按处理速度分类
  • 瀑布流架构:数据单向流动,从源到目的地呈瀑布状。
  • 并行响应架构:主要用于处理低延迟需求下的大量机器学习任务,通过负载均衡将任务均匀分配给前端服务器集群。
  • 实时更新模型混合架构:结合了瀑布流架构和并行前端架构的优点,既能快速响应访问请求,又能根据实际情况实时更新模型。

总结

本文是对《构建实机遇器学习系统》一书的简要总结,介绍了实机遇器学习系统的基本架构及其特点。

    本文来源:图灵汇
责任编辑: : 撒靓瑶
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
学习系统机遇解读构建
    下一篇