AIOps:自顺应机器学习异常检测
作者头像
  • 科技美学
  • 2021-07-01 20:48:19 4

改写内容:

以下是根据2021年阿里云开发者大会的内容改写而成的文章,分享的主题是《AIOps:自适应机器学习异常检测》。此次分享旨在介绍如何利用机器学习算法提升企业的运维效率,从而保障业务的快速发展。

业务快速增长与传统监控的挑战

1. 运维监控的工作流程

  • 在新业务上线之前,运维人员需要了解服务的部署情况,确定监控对象及其可观测性目标,并收集和处理相关日志数据。这一过程通常包括大量的日志采集和处理工作。
  • 当设定好监控对象的关键指标后,通常需要设置一系列规则,例如某个接口每分钟的平均请求延迟不得超过多少毫秒,单位时间内的错误请求数量不得超过多少等。
  • 随着业务的发展和服务的推出,运维团队常常面临误报和漏报的问题。这些问题通常需要人工干预,调整阈值或制定新的监控规则,特别是对于漏报问题,需要人工监控屏幕,以便及时发现并处理。

2. 监控对象爆炸式增长带来的挑战

  • 随着业务向容器化和微服务化演进,应用部署从单物理机转向单个容器。这带来了一些新的问题:
    • 传统部署模式下,监控对象相对固定,对应的观测目标也较为确定,且生命周期较长,更容易进行异常监控。
    • 在新的架构下,服务组件和模块数量增多,这些组件通常运行在同一物理机器上,相互之间的影响较大,服务对象的生命周期较短,使得完整监控变得更加困难。
    • 在大型公司中,可能有数百名研发人员维护数千个应用和服务,每月有上百次变更,每分钟会产生几十甚至数百GB的监控数据。在这种情况下,传统的基于规则的监控难以满足服务的动态需求。

3. 传统监控规则的局限性

  • 在服务过程中,我们发现传统监控规则存在一些局限性:
    • 基于人工规则的监控容易出现漏报和误报,且阈值难以自适应。
    • 例如,周期性的批处理作业的CPU利用率曲线显示,某些突刺信号是正常的,但传统的阈值方式难以捕捉到这些信号。
    • 在线服务的内存曲线变化较大,传统监控规则可能会将某些正常的变化视为异常。
    • 新业务的监控需求难以复用现有的监控规则。例如,不同业务的请求量范围差异很大,且曲线形状各异,传统的监控策略难以满足这些需求。

自适应时序监控的设计方案

1. 智能时序系统的核心功能

  • 系统需要具备准确且全面地发现异常的能力,要求系统的准确率和召回率都很高。
  • 系统需要具备一定的自适应能力,因为系统是供人使用的,算法判断结果需要易于理解和解释。
  • 算法的输出结果应该是结构化的,并且异常程度可以用0到1之间的分数表示,便于与业务系统对接。
  • 系统还需要具备良好的扩展能力,能够处理数十万个时序监控对象。

2. SLS的解决方案

  • 在图中第一部分描述了我们服务部署环境中需要关注的服务相关日志,包括程序日志数据、组件日志数据、时序目标数据及系统事件数据等。这些数据统一存储在SLS平台中。
  • SLS平台提供了丰富的数据处理工具,可以处理原始数据,使其规整、丰富和分发,同时还提供了兼容SQL92的查询分析功能,快速定制SQL查询任务,提取目标数据,供后续分析和可视化。
  • 用户可以启用智能巡检服务,生成结构化的异常事件,告知用户。用户可以对异常事件进行反馈,未来我们将逐步打通告警管理系统,解决事件跟踪和关联判断的问题。

3. SLS智能巡检服务简介

  • 具体的算法原理是采用无监督学习算法,自动识别实体数据特征,根据特征选择不同的算法组合,实时建模,完成异常检测,并根据用户的反馈训练监督模型,不断优化算法,提高准确率。
  • 巡检系统处理的对象是监控目标。当监控对象有大量历史数据时,系统会构建时序画像,主要从周期性、趋势性和波动性等维度进行描述。当数据较少时,系统会先采用统计建模策略,分析目标的部分统计特征,然后逐步构建时序画像。
  • 我们构建了一个实时处理数据流的时序巡检系统,逐点送入时序建模(Time2Graph算法),对接异常判断模型。异常判断结果通过钉钉机器人渠道告知用户,用户可以对系统的输入进行反馈,平台自动收集反馈信息,训练异常事件样本的监督模型,优化系统输出。

4. SLS平台中的应用展示

  • 智能巡检服务已正式上线,您可以查阅SLS官方文档获取详细操作指南。如果您在使用过程中遇到问题,可以联系我们。希望时序巡检服务能够简化日常监控中的重复配置工作,提高运维人员的幸福感。

本文内容未经允许不得转载。

    本文来源:图灵汇
责任编辑: : 科技美学
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
顺应异常机器检测学习AIOps
    下一篇