大连银行自2017年起启动了基于运维大数据的业务渠道态势感知项目建设,经过大数据、机器学习和深度学习技术的应用,成功挖掘并利用海量运维数据中的关键信息。2018年,该项目取得了显著进展,主要成果包括以下几个方面:
通过实时解析旁路业务数据,项目实现了业务逻辑梳理和可视化业务访问逻辑拓扑。通过对业务态势数据进行大数据分析和机器学习,自动生成业务时间基线,直观反映偏离基线的异常交易行为。此外,通过多维目标关联分析,实现了精确报警和快速缺陷定位,推动了从被动运维向主动运维的转变,提高了运维服务质量,并积累了大量业务态势数据。
借助积累的生产运维数据,项目团队通过区分线上线下各业务渠道的态势数据,利用大数据分析和机器学习建立了平均处理主要业务的时间基线,有效识别影响业务流程的长时间交易操作和行为。通过对柜面柜员和机具柜员行为习惯的分析,提出了加速业务办理和提升用户体验的优化方案。通过渠道动态态势感知,项目了解了各新兴渠道和新发布产品的质量变化、客户体验和热点页面,为优化渠道业务流程和产品种类提供了支持。此外,项目还开展了大额实时交易流动性监测,提升了大额资金变动提示的时效性,为营销、挽留和业务推广提供了有力支持。
项目采用了基于主题的数据存储管理方式,不同主题的数据分别存储在不同的数据集群中,集群间通过联邦方式管理,构建了一个融合的运维数据平台,实现了跨主题数据的联邦化管理。数据被按照属性特征分为多个集群,包括客户与业务交易行为数据集群、网络行为数据集群、系统与软件行为数据集群以及日志类数据集群,构建了后台的运维大数据管理平台,实现了单类数据自治化管理与统一融合管理。
项目构建了机器大数据平台,实现了实时态势感知。平台分为数据采集、数据存储、数据模型构建和数据智能分析四个部分。
为了全面感知信息系统和管理员的行为,需要从多个维度捕获各种行为和数据,这些数据是智慧运维的基础。具体包括以下几类数据:
客户行为和体验数据:主要包括客户在浏览器Web页面、WAP页面及APP上的访问、交易、终端、点击、设备和地域等信息。客户体验数据包括访问不同业务请求的响应速度、响应率和成功率等信息,是分析客户对商业银行信息系统服务水平的基础。
业务和交易行为数据:主要包括客户发起的每笔转账、存款、理财查询等业务交易的详细属性信息,如业务代码、金额、发起渠道、交易对手和交易路径等。此类数据是分析业务交易运行效率和服务水平的基础。
系统行为数据:主要包括访问日志、业务与交易日志、应用软件行为日志等,记录了客户访问信息和应用软件的具体运行行为。此类数据是分析应用系统状态和行为的基础,也是及时发现和定位应用系统缺陷和异常的基础。
管理员操作行为:主要包括系统登录行为、操作行为、堡垒机记录的操作行为、流程管理系统记录的操作行为和终端记录的操作行为等。
在数据存储管理方面,项目选择了Elasticsearch作为大数据管理平台的核心。Elasticsearch与主流大数据平台(如Hadoop、Storm、Spark等)具有深度的双向集成能力,同时与主流数据采集平台(如Kafka、Flume、Logstash等)有成熟稳定的对接渠道,共同完成了对实时数据和历史数据的集中存储,并具备高性能搜索功能。
项目采用行内已部署的各种监控系统提供的指标,如每秒监控系统交易请求数量、交易响应时间、交易成功率、交易响应率、I/O利用率和网络吞吐量等,描述某台机器的机器行为。通过对这些数据的分析,准确发现机器行为的异常并发出警报。从中提取出各时间序列的特征周期,这些特征作为训练样本对机器行为模型进行训练,最终生成行为模型用于对监控对象的预测。
项目针对发现的信息系统报警事件、异常情况、潜在风险和运行规律等情报,通过与其他运维支持系统联动,以智能化的方式进行处理。具体包括: - 针对已固化的处理模式的场景,发送指令给配套的自动化调度系统,根据预定的处理方案和步骤,自动化进行故障修复、风险隔离,提高应急处理效率,保障信息系统稳定运行; - 针对偏离正常行为模式的业务交易行为、应用系统行为和网络行为,及时产生报警信息,通过流程化的方式通知到各技术领域进行深入研究; - 针对偏离正常行为模式的人员操作行为,及时通过运维支持系统之间的联动,控制人员的操作权限,必要时立即中断,防止对信息系统造成损害; - 针对发现的攻击行为、安全漏洞、外部违规等尚未对业务和信息系统安全稳定运行造成影响的潜在风险,将相关信息转入专门的安全管理系统处理。
项目能够测量、捕捉、监控和传递系统相关的所有信息(包括业务、交易、应用访问、系统功能和网络流量等),通过大数据技术和机器学习技术等先进的感知手段,迅速、全面、准确地获取和分析系统信息。
项目通过有效的展示方式,将信息系统的实时状态、规律性、异常行为和潜在特征等以直观的方式呈现给运维管理人员。
项目通过便捷的方式将业务态势与机器态势进行有效关联,并以直观的方式展示,使运维管理人员在了解业务逻辑的同时,引入多技术领域的思维模式,进行多维功能目标和业务目标的关联分析,将稳定运行与业务优化、扩展关联起来。
基于实时流量数据和日志数据的大数据平台既满足了当前灵活运维和业务分析的需求,又可以作为未来AIOps、风控和BI补充过程数据、建立数据仓库,从而助力实现智能运营的愿景。
项目大幅提升了运维能力,准确的监控报警、多维的数据展示和完善的配套体系,帮助运维人员及时掌握系统运行状况,快速发现、定位和解决系统问题,提升了问题处理效率,促进了系统的优化,保障了系统的稳定运行。项目有效支撑了业务优化,通过实时态势感知和大数据、机器学习技术的有效应用,实现了对相关业务系统的优化和扩展。此外,项目还发挥了良好的示范作用,业务渠道态势感知平台于2018年2月上线运行,每日获取交易过程数据超过60GB,日交易量超过5500万笔,高效稳定地对各类重要应用系统进行全面监控,使大连银行业务态势感知的能力得到了进一步提升。同时,项目还推广了“电子渠道交易态势感知”、“柜面渠道交易态势感知”和“日间大额交易态势感知”,推动并促进了传统业务流程的优化以及渠道资源的有效整合和成本控制。
大连银行作为东北地区首家借助业务交易数据实现多渠道业务态势感知的银行,在探索新的运维模式及推动运维向运营转变、提升智能运维水平方面起到了良好的示范作用,并将继续开展智能化运维的探索与实践。