金科案例天津农商银行：大数据平台建设项目

Dismap
2019-08-12 12:17:04 1

项目背景及目标

随着新一代核心系统建设项目在我行的推进，如何高效处理海量历史数据，简化数据迁移过程，降低核心系统负载，提高处理能力等问题变得日益紧迫。

目前，我行的数据仓库已经涵盖了主要系统的大部分数据，形成了金融机构级别的数据仓库体系，主要用于支持运营管理。然而，随着数据量的增加，数据仓库的批处理时间逐渐延长，某些作业甚至影响了后续任务的执行。业务的发展需要新的解决方案来处理和规划未来数据的加工策略，同时也需要明确数据如何逐步创造价值，助力金融机构开拓新业务领域。

构建“大数据平台”成为解决这些问题的有效途径。基于分布式存储和计算的大数据平台采用PC服务器集群部署，旨在突破硬件限制，以低成本实现大量数据的存储和运算，尤其在非结构化数据处理和实时分析方面弥补传统数据仓库的不足。尽管如此，大数据平台在国内银行业的应用还处于起步阶段，缺乏成熟的管理和实践经验。

项目方案

我行采用Cloudera提供的企业级Hadoop平台，包括HDFS、YARN、HBase、Hive等多种Hadoop生态项目。平台的主要定位是历史数据存储与后台应用，通过传输平台获取其他业务系统的数据，进行批量处理并长期存储。同时，平台通过上层开发的应用向相关部门提供服务或网页访问接口，并将历史数据的分析结果接入传输平台，为下游业务提供数据支持。

核心组件

贴源层：负责集成其他系统数据，以原始格式存储，保持数据粒度不变。贴源层简化了数据接入过程，但由于数据未经复杂处理，难以直接满足上层应用的需求。
数据集市：为特定业务准备处理后的数据，直接提供计算结果和数据服务。数据集市的数据结构专门针对业务需求设计，提高了处理效率。但数据集市的数据需要额外加工，因此直接从集群获取的数据不能直接作为数据集市的数据使用。
语义层：当业务扩展时，贴源层与数据集市之间可能重复的ETL逻辑可通过语义层进行优化和整合。语义层将贴源层中的表和字段转换为业务关注的目标，减少了重复计算，简化了业务人员的操作。

数据存储规则

所有上传至Hadoop平台的数据文件直接存放在接入区，随后通过ETL作业存入贴源层。
其他平台的业务数据表按原粒度存放在贴源层，进行初步加工但不整合统计。
对外提供的服务数据存放在数据集市中，按业务需求格式存放。
业务系统生成的中间数据初期仅存放在数据集市中，不进入贴源层。
数据存储需遵循特定规则，确保数据结构清晰，便于管理和使用。

项目创新点

我行从自身数据需求出发，搭建了分布式大数据平台，并与传统数据仓库有效结合，形成了混合式数据平台架构。在此基础上，完善了数据平台的管理体系和规范，利用数据仓库维护数据模型和加工数据，大数据平台负责贴源数据存储、检核和供给，以及半结构化和非结构化数据处理、实时流数据处理。

这种混合式数据平台架构避免了数据冗余问题，降低了成本，充分发挥了数据仓库和大数据平台的优势。依托数据检核系统、元数据管理系统和目标管理系统，实现了对数据质量、结构、标准、加工规则和生命周期的管理，提升了我行的数据管理水平。

技术实现特点

近线存储：通过近线存储减轻业务系统负担，存储和处理历史数据，避免对OLTP系统的压力。平台将查询和计算任务分配到多台服务器，快速响应贴源数据查询和统计分析。
高并发访问支持：传统数据仓库难以支持高并发访问，而大数据平台通过分布式架构提供了所需的访问能力，支持一线工作人员快速获取数据，扩大数据用户范围。
半结构化和非结构化数据处理：大数据平台采用文件式存储，更适合处理半结构化和非结构化数据。平台已具备成熟的文本识别、语音识别和图像识别组件，能够解析和分析这些数据。
数据管理提升：数据质量管理依赖元数据管理和数据标准管理，是确保数据质量的关键环节。大数据平台在处理源业务系统数据近线存储的同时，也为数据管理和质量控制提供了合适的载体。

项目过程管理

项目启动：2017年3月，项目启动会议明确了项目风险点、人员分工和管理规范。
技术培训：2017年4月，Cloudera公司为我行科技部门员工提供了Hadoop相关培训。
需求确认：2017年5月，通过多轮讨论确认了最终需求。
运用开发：2017年6月至2017年9月，项目组进行了应用开发、数据加载脚本开发、集成测试和压力测试。
运用测试：2017年10月，业务人员进行了应用测试，验证功能和数据准确性。
集群安装：2017年8月，Cloudera公司实施人员支持集群安装和功能验证。
数据加工：2017年10月至2018年1月，将历史数据加载至大数据平台，完成贴源层和集市层数据加工。
投产试运转：2018年2月，数据加工完成后，部分网点开放历史数据查询功能，开始试运转。
推广运行：2018年9月，试运转稳定后，大数据平台全面推广至所有网点。

运营状况

目前大数据平台运行良好，历史数据查询系统和外部审计系统已接入平台。平台处理150多张源表，约10TB数据。历史数据查询系统每日处理20多张业务报表，提供查询和打印服务。外部审计系统提供100多张表的贴源数据查询。

经过半年试运行的不断调整和优化，每日ETL时间已从11小时缩短至5小时以内，完全满足业务需求。平台还形成了《大数据平台管理规范》、《大数据平台系统管理手册》和《大数据平台运维技术手册》等规范和参考文档，为后续建设提供指导。

项目成效

大数据平台的建设取得了显著成效，支撑了历史数据查询、日初日终报表和外部审计等业务，有效降低了核心系统的查询压力和批处理压力。历史数据查询系统解决了核心系统只能查询当年交易流水的问题，将查询时间提前至2012年。

从经济效益来看，大数据平台的投入远低于传统小机成本，设备成本和软件授权费用大幅降低。初步估算，PC服务器成本仅为传统小机的五分之一，硬盘成本不到十分之一，软件授权费用仅为传统数据库的二十分之一。

经验总结

在实际应用中，我们找到了适合我行架构的数据应用方案。以下是几个关键经验总结：

开源技术的应用：Hadoop生态圈中有许多开源组件，需要深入了解才能高效应用。大数据平台的开源技术复杂且迭代迅速，需要持续学习和协作。
多公司合作：大数据平台项目涉及多家实施公司，需要我行主导项目实施的每个阶段，确保自主可控。
数据接入规范：大数据平台接入的数据复杂，需要先行进行数据管理，包括数据来源评估、数据预处理和数据质量控制。
数据应用规范：数据应用的成功与否直接影响业务价值的实现。需要细分应用场景，进行功能规划和技术选型，确保方案的可行性。

本文由2018年度乡村金融科技创新优秀案例评选组委会授权发表，转载时请注明原文出处和链接。

图灵汇

责任编辑：： Dismap

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

金科农商天津建设项目案例银行数据平台

李云

2019-08-12