汪源:数据分析热词迭出,“三个统一”值得关注
作者头像
  • 科技猫头鹰
  • 2022-09-29 00:00:00 3042

现代数据分析的核心演进与实践

随着科技的快速发展,数据分析领域的术语层出不穷,企业亟需把握核心,提升数据生产力以实现业务的优化与增长。9月26至27日,ArchSummit全球架构师峰会在杭州举办,网易副总裁、网易杭州研究院执行院长及网易数帆总经理汪源受邀发表主题演讲,深入解析了现代化数据分析架构的三大关键方向,旨在统一基础设施、中间层和数据资产,推动技术实践与创新。

统一的基础设施:流式湖仓的核心

现代化数据分析的基础架构应涵盖四大核心要素——湖仓一体、流批一体、标准格式与存算分离,不仅限于文件格式,还包括表格式。汪源强调,理想的基础设施是集成流式与湖仓的一体化平台,底层采用对象存储作为基石,上层通过Parquet文件格式、缓存加速层(如Alluxio、JuiceFS、CurveFS)实现性能优化,其中CurveFS由网易数帆开源,专为文件存储设计。

关键创新点

  • Iceberg+Arctic:这两个新层次的引入,显著提升了底层大数据体系的灵活性与效率。Iceberg作为具有ACID特性的表格式解决方案,提供时间点数据读取功能,解决性能瓶颈,构建多级索引,优化查询性能,如将Hive查询时间缩短至一分钟以内。Arctic作为Iceberg的补充,提供优化、upsert功能,支持流批一体操作,兼容Hive与Iceberg,加速技术体系整合。

统一的中间层:数据仓库与HeadlessBI的协同

数据分析流程的理想状态是数据仓库负责数据转换,BI工具专注于数据展示与交互。然而,实际操作中,不同团队在BI工具中实施的计算逻辑分散,导致数据口径与结果差异。对此,汪源提出数据中台的概念,通过OneData、OneService、OneID解决指标口径不一致问题,确保数据质量与安全性。

国际视角

  • Cube产品设计:国外方案强调数据输入、模型构建、安全访问控制与性能加速,通过API形式供下游消费者(如BI工具)使用。关键在于HeadlessBI概念,强调开发与治理一体化,确保指标、模型持续高质量。

统一的数据资产:Data Fabric的实践

面对数据管理挑战,如数据难以查找、理解与安全使用,汪源倡导采用Data Fabric理念,实现数据整合与高效利用。相比数据仓库或数据中台的集中预处理,数据湖强调原始数据格式,而Data Fabric则集中关注元数据管理。

实践落地

  • 核心能力:构建Data Fabric需具备连接数据源、主动元数据管理、数据虚拟化与逻辑数据湖能力。数据虚拟化能提前利用数据,但并非所有分析均适用。网易数帆已成功落地逻辑数据湖,实现全域数据资产高效管理。

总结

现代数据分析的核心在于构建统一基础设施、中间层与数据资产,以提升实时数据处理与消费能力,实现统一模型、指标与计算逻辑,以及高效数据发现与整合。汪源呼吁行业聚焦这些关键方向,避免概念上的分裂,促进技术的协同与创新。

    本文来源:图灵汇
责任编辑: : 科技猫头鹰
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
迭出数据分析值得统一三个关注汪源:
    下一篇