随着科技的快速发展,数据分析领域的术语层出不穷,企业亟需把握核心,提升数据生产力以实现业务的优化与增长。9月26至27日,ArchSummit全球架构师峰会在杭州举办,网易副总裁、网易杭州研究院执行院长及网易数帆总经理汪源受邀发表主题演讲,深入解析了现代化数据分析架构的三大关键方向,旨在统一基础设施、中间层和数据资产,推动技术实践与创新。
现代化数据分析的基础架构应涵盖四大核心要素——湖仓一体、流批一体、标准格式与存算分离,不仅限于文件格式,还包括表格式。汪源强调,理想的基础设施是集成流式与湖仓的一体化平台,底层采用对象存储作为基石,上层通过Parquet文件格式、缓存加速层(如Alluxio、JuiceFS、CurveFS)实现性能优化,其中CurveFS由网易数帆开源,专为文件存储设计。
关键创新点:
数据分析流程的理想状态是数据仓库负责数据转换,BI工具专注于数据展示与交互。然而,实际操作中,不同团队在BI工具中实施的计算逻辑分散,导致数据口径与结果差异。对此,汪源提出数据中台的概念,通过OneData、OneService、OneID解决指标口径不一致问题,确保数据质量与安全性。
国际视角:
面对数据管理挑战,如数据难以查找、理解与安全使用,汪源倡导采用Data Fabric理念,实现数据整合与高效利用。相比数据仓库或数据中台的集中预处理,数据湖强调原始数据格式,而Data Fabric则集中关注元数据管理。
实践落地:
现代数据分析的核心在于构建统一基础设施、中间层与数据资产,以提升实时数据处理与消费能力,实现统一模型、指标与计算逻辑,以及高效数据发现与整合。汪源呼吁行业聚焦这些关键方向,避免概念上的分裂,促进技术的协同与创新。