五年前,许多客户的平均数据量大约为10TB,主要集中在ERP和CRM等系统中;现在,客户的数据量已达到PB级别,成为一种新常态。尤其是在批发和金融等行业,除了传统的ERP和CRM数据外,还存在大量的行为和社交数据。与此同时,基于数据驱动的应用场景正快速增长,数据操作的复杂性也远远超过了以前。在这种背景下,数据上云已成为不可避免的趋势,必须借助云计算来解决这些问题。
大数据时代的到来,伴随着《关于构建更加完善的要素市场化配置体制机制的意见》首次将数据要素纳入其中,如何快速发挥数据要素的价值已经成为共识。数据不仅是数字化转型和智能化升级的基础,更是重塑业务流程和决策方式的关键。
华为Cloud BU副总裁、全球市场营销与销售服务总裁石冀琳在华为云TechWave全球技术峰会上表示,企业实现全面云化和全栈智能的三大关键在于:全面拥抱云原生、数据驱动决策、以及AI工业开发。这需要围绕数据全生命周期进行技术创新,释放数据潜力,使其成为新的生产要素。
目前,我们正处于重新认识、理解和运用数据的新阶段。尽管数字经济蓬勃发展,真正引领数据应用理念并加速数据价值落地的不是传统的存储厂商,也不是开源厂商,而是以华为云为代表的云服务提供商。这些云服务商在各个行业的应用场景中不断锤炼,面对大规模、复杂度高的数据处理任务,展现了卓越的能力。
数据如同水流,既能滋养万物,也可能造成困境。这种比喻形象地说明了数据的双面性,而决定因素在于数据处理机制。由于数据规模和类型的剧变,数据的采集、存储、计算、管理和使用等环节面临着前所未有的挑战,急需新的数据处理机制来应对。
首先,数据来源、类型和规模都在发生巨大变化。例如,一辆L4级别的自动驾驶汽车每天可以产生60TB的数据,而OpenAI的GPT-3模型拥有1750亿个参数和45TB的预训练数据。这些例子表明,数据处理能力的要求正在不断提升。
其次,数据操作的复杂性也在增加。大量半结构化和非结构化数据并存,数据分析越来越细化,分析链路变长,数据操作集成度差,使得在海量数据规模下,数据移动、访问授权、管理和审计等活动变得愈发复杂。这种现象有时被称为数据重力效应,即随着数据量的增长,数据的移动和处理变得更加困难。
第三,基于数据驱动的应用正在激增,并且正在深刻改变业务流程和决策模式。例如,金融营销领域从过去的本地数据仓库分析转向基于数据驱动的场景,收集用户的各种数据,利用云端资源进行模型训练,实现精准营销和数据价值闭环,实时调整策略。类似的场景在各行各业中不断涌现。
因此,要真正构建基于数据的核心能力,实现数据存得下、流得动、算得快、用得好,并不容易。为此,华为云提出了“DIGITS”设计理念,旨在围绕数据的全生命周期,构建云原生数据平台,实现数据的全域整合、一致管理和智能化,让用户能够基于可信数据进行探索和决策,激发数据潜力。
“围绕数据这一核心生产要素,充分挖掘数据价值,从单点技术创新走向系统性技术创新。”石冀琳这样说道。基于“DIGITS”理念,华为云通过数据使能DAYU,提供一站式解决方案,覆盖从咨询到实施再到技术平台的端到端数据管理。
近年来,数据驱动、云原生数据湖、湖仓一体等热门话题引起了广泛关注。其根本原因在于,随着企业上云趋势的加剧,大量应用迁移到云端,对于数据全生命周期管理的需求日益迫切。
华为云FusionInsight智能数据湖迅速吸引了众多企业用户,提供的湖仓一体解决方案,帮助企业构建云原生数据湖,实现数据全生命周期管理。华为云架构与技术规划部部长朱海培认为,业界已经拥有了成熟的数据处理引擎、工具和平台,但这些工具大多独立运作,为特定场景设计。当客户上云后,面对多元化的场景,需要综合解决方案来满足需求,这也是湖仓一体备受青睐的原因之一。
“当数据规模达到一定程度后,针对单点或特定场景的引擎和工具会遇到瓶颈。”朱海培补充道。例如,大数据存储引擎、Flink存储引擎、Spark引擎都需要独立存储数据,导致数据迁移、操作复杂度高,浪费存储空间,数据一致性也是一个挑战。
华为云FusionInsight提供湖仓一体的数据底座,通过底层OBS统一数据存储,避免数据迁移;一个平台支持多种引擎,涵盖批处理、流处理、交互式查询等;元数据统一管理,全局视图一致,像管理代码一样管理数据。
为了进一步增强数据技术和解决方案的完整性,华为云在峰会上发布了四款数据新品:云原生数据湖一致数据平台MRS、云原生数据湖Serverless数据湖探求DLI、实时数仓GaussDB (DWS) 和金融级分布式云原生数据库GaussDB (for openGauss)。
具体来说: - MRS 提供湖仓一体的一致数据平台,实现离线、实时、逻辑数据湖的统一管理,释放海量数据价值,业务洞察更准确; - DLI 提供基于Serverless的融合处理分析服务,企业可以轻松进行多数据源的联合计算分析,挖掘数据价值; - GaussDB (DWS) 提供即开即用、可扩展且完全托管的分析型数据仓库服务,支持高并发高性能实时数据分析,适用于互联网、物联网等场景; - GaussDB (for openGauss) 是华为结合云原生与AI技术打造的金融级分布式数据库,具备高性能、高可用、弹性扩展、全密态和AI自治等五大关键能力,适用于金融、政企核心交易和生产系统等关键业务场景。
华为云深耕政企市场多年,对数据处理与管理有着深刻的见解,并且更贴合用户需求。例如,朱海培强调,华为云更加关注用户在混合场景下的数据统一管理和处理问题。对于广大政企用户而言,多云环境将是未来一段时间内的标配,多云环境下的数据处理与管理将更加考验云服务商的能力。
例如,MRS可以通过一个架构实现逻辑、实时、离线三种数据湖,很好地满足混合场景需求。朱海培表示:“展望未来,我们也希望更好地帮助用户实现数据融合,从本次MRS、DWS等新品中,可以看到这些产品在统一存储、统一元数据、统一管理等方面的技术特性已经显现。华为云将继续保持技术创新,更好地赋能客户。”
华为云正在围绕数据构建核心竞争力。华为云FusionInsight智能数据湖已投入超过10年,携手800多家合作伙伴,服务于全球60多个国家和地区的互联网、政府、金融、运营商等行业用户。此外,华为云还得到了IDC、Frost & Sullivan等权威咨询机构的认可。例如,在《IDC MarketScape: 中国大数据管理平台厂商评价,2020》报告中,华为云凭借FusionInsight的综合实力和技术创新,位居“领导者”象限;在Frost & Sullivan《2020年中国数据管理解决方案市场报告》中,华为云在产品创新能力、成长能力和基础能力方面均领先。
华为云的成功并非偶然。首先,华为作为一家全球化公司,业务范围广泛、规模庞大、复杂度高,其解决方案极具参考价值。例如,华为结合自身数字化转型经验,打造的数字工厂解决方案中的统一数据平台、统一数据标准和统一数据视图,在制造业中具有很高的参考价值。
其次,华为云以FusionInsight智能数据湖为基础,持续进行产品和技术的创新与完善,产品组合的成熟度和丰富度处于行业领先地位,这无疑将增强华为云在数据层面的核心竞争力。
此外,近年来,华为云在多个行业不断突破,为不同行业、不同规模的用户提供数据湖服务,积累了丰富的实践经验。
总体来看,从十年前数据湖概念提出至今,湖仓一体解决方案正在兴起。华为云在本次TechWave全球技术峰会上展示了其产品、技术和解决方案的成熟度和前瞻性。下一个十年,将是数据赋能的黄金时期,华为云必将迎来更大的舞台。