随着新一代核心系统建设项目在我行的推进,如何高效处理海量历史数据,简化数据迁移过程,降低核心系统负载,提高处理能力等问题变得日益紧迫。
目前,我行的数据仓库已经涵盖了主要系统的大部分数据,形成了金融机构级别的数据仓库体系,主要用于支持运营管理。然而,随着数据量的增加,数据仓库的批处理时间逐渐延长,某些作业甚至影响了后续任务的执行。业务的发展需要新的解决方案来处理和规划未来数据的加工策略,同时也需要明确数据如何逐步创造价值,助力金融机构开拓新业务领域。
构建“大数据平台”成为解决这些问题的有效途径。基于分布式存储和计算的大数据平台采用PC服务器集群部署,旨在突破硬件限制,以低成本实现大量数据的存储和运算,尤其在非结构化数据处理和实时分析方面弥补传统数据仓库的不足。尽管如此,大数据平台在国内银行业的应用还处于起步阶段,缺乏成熟的管理和实践经验。
我行采用Cloudera提供的企业级Hadoop平台,包括HDFS、YARN、HBase、Hive等多种Hadoop生态项目。平台的主要定位是历史数据存储与后台应用,通过传输平台获取其他业务系统的数据,进行批量处理并长期存储。同时,平台通过上层开发的应用向相关部门提供服务或网页访问接口,并将历史数据的分析结果接入传输平台,为下游业务提供数据支持。
贴源层:负责集成其他系统数据,以原始格式存储,保持数据粒度不变。贴源层简化了数据接入过程,但由于数据未经复杂处理,难以直接满足上层应用的需求。
数据集市:为特定业务准备处理后的数据,直接提供计算结果和数据服务。数据集市的数据结构专门针对业务需求设计,提高了处理效率。但数据集市的数据需要额外加工,因此直接从集群获取的数据不能直接作为数据集市的数据使用。
语义层:当业务扩展时,贴源层与数据集市之间可能重复的ETL逻辑可通过语义层进行优化和整合。语义层将贴源层中的表和字段转换为业务关注的目标,减少了重复计算,简化了业务人员的操作。
我行从自身数据需求出发,搭建了分布式大数据平台,并与传统数据仓库有效结合,形成了混合式数据平台架构。在此基础上,完善了数据平台的管理体系和规范,利用数据仓库维护数据模型和加工数据,大数据平台负责贴源数据存储、检核和供给,以及半结构化和非结构化数据处理、实时流数据处理。
这种混合式数据平台架构避免了数据冗余问题,降低了成本,充分发挥了数据仓库和大数据平台的优势。依托数据检核系统、元数据管理系统和目标管理系统,实现了对数据质量、结构、标准、加工规则和生命周期的管理,提升了我行的数据管理水平。
近线存储:通过近线存储减轻业务系统负担,存储和处理历史数据,避免对OLTP系统的压力。平台将查询和计算任务分配到多台服务器,快速响应贴源数据查询和统计分析。
高并发访问支持:传统数据仓库难以支持高并发访问,而大数据平台通过分布式架构提供了所需的访问能力,支持一线工作人员快速获取数据,扩大数据用户范围。
半结构化和非结构化数据处理:大数据平台采用文件式存储,更适合处理半结构化和非结构化数据。平台已具备成熟的文本识别、语音识别和图像识别组件,能够解析和分析这些数据。
数据管理提升:数据质量管理依赖元数据管理和数据标准管理,是确保数据质量的关键环节。大数据平台在处理源业务系统数据近线存储的同时,也为数据管理和质量控制提供了合适的载体。
目前大数据平台运行良好,历史数据查询系统和外部审计系统已接入平台。平台处理150多张源表,约10TB数据。历史数据查询系统每日处理20多张业务报表,提供查询和打印服务。外部审计系统提供100多张表的贴源数据查询。
经过半年试运行的不断调整和优化,每日ETL时间已从11小时缩短至5小时以内,完全满足业务需求。平台还形成了《大数据平台管理规范》、《大数据平台系统管理手册》和《大数据平台运维技术手册》等规范和参考文档,为后续建设提供指导。
大数据平台的建设取得了显著成效,支撑了历史数据查询、日初日终报表和外部审计等业务,有效降低了核心系统的查询压力和批处理压力。历史数据查询系统解决了核心系统只能查询当年交易流水的问题,将查询时间提前至2012年。
从经济效益来看,大数据平台的投入远低于传统小机成本,设备成本和软件授权费用大幅降低。初步估算,PC服务器成本仅为传统小机的五分之一,硬盘成本不到十分之一,软件授权费用仅为传统数据库的二十分之一。
在实际应用中,我们找到了适合我行架构的数据应用方案。以下是几个关键经验总结:
开源技术的应用:Hadoop生态圈中有许多开源组件,需要深入了解才能高效应用。大数据平台的开源技术复杂且迭代迅速,需要持续学习和协作。
多公司合作:大数据平台项目涉及多家实施公司,需要我行主导项目实施的每个阶段,确保自主可控。
数据接入规范:大数据平台接入的数据复杂,需要先行进行数据管理,包括数据来源评估、数据预处理和数据质量控制。
数据应用规范:数据应用的成功与否直接影响业务价值的实现。需要细分应用场景,进行功能规划和技术选型,确保方案的可行性。
本文由2018年度乡村金融科技创新优秀案例评选组委会授权发表,转载时请注明原文出处和链接。