金科案例 天津农商银行:大数据平台建设项目
作者头像
  • Dismap
  • 2019-08-12 12:17:04 1

项目背景及目标

随着新一代核心系统建设项目在我行的推进,如何高效处理海量历史数据,简化数据迁移过程,降低核心系统负载,提高处理能力等问题变得日益紧迫。

目前,我行的数据仓库已经涵盖了主要系统的大部分数据,形成了金融机构级别的数据仓库体系,主要用于支持运营管理。然而,随着数据量的增加,数据仓库的批处理时间逐渐延长,某些作业甚至影响了后续任务的执行。业务的发展需要新的解决方案来处理和规划未来数据的加工策略,同时也需要明确数据如何逐步创造价值,助力金融机构开拓新业务领域。

构建“大数据平台”成为解决这些问题的有效途径。基于分布式存储和计算的大数据平台采用PC服务器集群部署,旨在突破硬件限制,以低成本实现大量数据的存储和运算,尤其在非结构化数据处理和实时分析方面弥补传统数据仓库的不足。尽管如此,大数据平台在国内银行业的应用还处于起步阶段,缺乏成熟的管理和实践经验。

项目方案

我行采用Cloudera提供的企业级Hadoop平台,包括HDFS、YARN、HBase、Hive等多种Hadoop生态项目。平台的主要定位是历史数据存储与后台应用,通过传输平台获取其他业务系统的数据,进行批量处理并长期存储。同时,平台通过上层开发的应用向相关部门提供服务或网页访问接口,并将历史数据的分析结果接入传输平台,为下游业务提供数据支持。

核心组件

  • 贴源层:负责集成其他系统数据,以原始格式存储,保持数据粒度不变。贴源层简化了数据接入过程,但由于数据未经复杂处理,难以直接满足上层应用的需求。

  • 数据集市:为特定业务准备处理后的数据,直接提供计算结果和数据服务。数据集市的数据结构专门针对业务需求设计,提高了处理效率。但数据集市的数据需要额外加工,因此直接从集群获取的数据不能直接作为数据集市的数据使用。

  • 语义层:当业务扩展时,贴源层与数据集市之间可能重复的ETL逻辑可通过语义层进行优化和整合。语义层将贴源层中的表和字段转换为业务关注的目标,减少了重复计算,简化了业务人员的操作。

数据存储规则

  • 所有上传至Hadoop平台的数据文件直接存放在接入区,随后通过ETL作业存入贴源层。
  • 其他平台的业务数据表按原粒度存放在贴源层,进行初步加工但不整合统计。
  • 对外提供的服务数据存放在数据集市中,按业务需求格式存放。
  • 业务系统生成的中间数据初期仅存放在数据集市中,不进入贴源层。
  • 数据存储需遵循特定规则,确保数据结构清晰,便于管理和使用。

项目创新点

我行从自身数据需求出发,搭建了分布式大数据平台,并与传统数据仓库有效结合,形成了混合式数据平台架构。在此基础上,完善了数据平台的管理体系和规范,利用数据仓库维护数据模型和加工数据,大数据平台负责贴源数据存储、检核和供给,以及半结构化和非结构化数据处理、实时流数据处理。

这种混合式数据平台架构避免了数据冗余问题,降低了成本,充分发挥了数据仓库和大数据平台的优势。依托数据检核系统、元数据管理系统和目标管理系统,实现了对数据质量、结构、标准、加工规则和生命周期的管理,提升了我行的数据管理水平。

技术实现特点

  1. 近线存储:通过近线存储减轻业务系统负担,存储和处理历史数据,避免对OLTP系统的压力。平台将查询和计算任务分配到多台服务器,快速响应贴源数据查询和统计分析。

  2. 高并发访问支持:传统数据仓库难以支持高并发访问,而大数据平台通过分布式架构提供了所需的访问能力,支持一线工作人员快速获取数据,扩大数据用户范围。

  3. 半结构化和非结构化数据处理:大数据平台采用文件式存储,更适合处理半结构化和非结构化数据。平台已具备成熟的文本识别、语音识别和图像识别组件,能够解析和分析这些数据。

  4. 数据管理提升:数据质量管理依赖元数据管理和数据标准管理,是确保数据质量的关键环节。大数据平台在处理源业务系统数据近线存储的同时,也为数据管理和质量控制提供了合适的载体。

项目过程管理

  • 项目启动:2017年3月,项目启动会议明确了项目风险点、人员分工和管理规范。
  • 技术培训:2017年4月,Cloudera公司为我行科技部门员工提供了Hadoop相关培训。
  • 需求确认:2017年5月,通过多轮讨论确认了最终需求。
  • 运用开发:2017年6月至2017年9月,项目组进行了应用开发、数据加载脚本开发、集成测试和压力测试。
  • 运用测试:2017年10月,业务人员进行了应用测试,验证功能和数据准确性。
  • 集群安装:2017年8月,Cloudera公司实施人员支持集群安装和功能验证。
  • 数据加工:2017年10月至2018年1月,将历史数据加载至大数据平台,完成贴源层和集市层数据加工。
  • 投产试运转:2018年2月,数据加工完成后,部分网点开放历史数据查询功能,开始试运转。
  • 推广运行:2018年9月,试运转稳定后,大数据平台全面推广至所有网点。

运营状况

目前大数据平台运行良好,历史数据查询系统和外部审计系统已接入平台。平台处理150多张源表,约10TB数据。历史数据查询系统每日处理20多张业务报表,提供查询和打印服务。外部审计系统提供100多张表的贴源数据查询。

经过半年试运行的不断调整和优化,每日ETL时间已从11小时缩短至5小时以内,完全满足业务需求。平台还形成了《大数据平台管理规范》、《大数据平台系统管理手册》和《大数据平台运维技术手册》等规范和参考文档,为后续建设提供指导。

项目成效

大数据平台的建设取得了显著成效,支撑了历史数据查询、日初日终报表和外部审计等业务,有效降低了核心系统的查询压力和批处理压力。历史数据查询系统解决了核心系统只能查询当年交易流水的问题,将查询时间提前至2012年。

从经济效益来看,大数据平台的投入远低于传统小机成本,设备成本和软件授权费用大幅降低。初步估算,PC服务器成本仅为传统小机的五分之一,硬盘成本不到十分之一,软件授权费用仅为传统数据库的二十分之一。

经验总结

在实际应用中,我们找到了适合我行架构的数据应用方案。以下是几个关键经验总结:

  1. 开源技术的应用:Hadoop生态圈中有许多开源组件,需要深入了解才能高效应用。大数据平台的开源技术复杂且迭代迅速,需要持续学习和协作。

  2. 多公司合作:大数据平台项目涉及多家实施公司,需要我行主导项目实施的每个阶段,确保自主可控。

  3. 数据接入规范:大数据平台接入的数据复杂,需要先行进行数据管理,包括数据来源评估、数据预处理和数据质量控制。

  4. 数据应用规范:数据应用的成功与否直接影响业务价值的实现。需要细分应用场景,进行功能规划和技术选型,确保方案的可行性。

本文由2018年度乡村金融科技创新优秀案例评选组委会授权发表,转载时请注明原文出处和链接。

    本文来源:图灵汇
责任编辑: : Dismap
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
金科农商天津建设项目案例银行数据平台
    下一篇