华为云BigData Pro解读：鲲鹏云容器助力大数据破茧成蝶

CSDIsummit
2019-09-11 09:13:53 0

+关注

大数据之路

随着科技的进步，大数据逐渐渗透到社会生产和日常生活的各个方面。然而，随着信息量呈指数级增长，大数据也开始面临存储资源紧缺、计算能力不足、数据处理效率无法跟上业务需求等一系列问题，导致人们对大数据前景产生了一些质疑。

容器技术的崛起

近年来，容器技术以其轻量化、易迁移、快速扩展等优点，结合计算与存储分离的分布式架构，能够更好地发挥大数据平台在海量数据处理、高并发、实时分析等方面的优势。

海量信息的应用

互联网、汽车、保险、电力、批发等行业利用大数据分析用户特征和行为模式，制定更加贴合用户需求的服务方案和商业策略，并实现精准推送。

Hadoop生态的主导地位

目前，大部分数据分析工作都是在Hadoop生态系统中进行的。凭借其完善的生态体系，Hadoop受到了用户的广泛青睐，成为了主流的开源大数据平台，也成为大数据的代名词。

困难与挑战

自2006年Hadoop第一个版本发布以来，大数据的发展已经经历了至少13年的时间。尽管Hadoop曾因“计算存储融合”架构及先进的数据分析理念而受到推崇，但如今也面临着一系列挑战：

资源耦合：计算与存储资源耦合，难以灵活调整存储与计算的比例，只能按固定比例扩容，导致资源浪费。
建设成本高：数据中心建设成本高，后期运维成本高昂，性价比和灵活性均不如公有云方案。
数据增长：互联网时代数据爆炸式增长，现有数据中心资源不足，容易导致作业拥堵，降低计算效率。
资源隔离：大数据与其他业务资源池无法共享，需要单独维护多套系统，增加运维成本。

此外，AI、机器学习、自然语言处理等新兴技术的兴起，对大数据形成了冲击，“大数据已死”的论调也逐渐盛行。

新的突破

随着5G、云计算和AI时代的到来，数据变得更加庞大、复杂和精细化，大数据不仅没有消亡，反而对企业变得前所未有的重要。如何高效地解决数据爆炸式增长的问题，成为亟待解决的关键。

各大公司纷纷展开新一轮的技术探索与升级。首先，基础网络的飞速发展使得网络传输不再成为瓶颈，许多公司开始尝试在大数据的存储和计算分离方面进行创新。根据IDC中国的研究报告，计算与存储解耦在大数据部署中已被证明是有效的，它可以提供更高的资源利用率、更高的灵活性和更低的成本。

与此同时，容器技术的成熟及其在各行各业的应用推广，促使一些企业开始进行平台容器化的改造，希望通过容器的优势为大数据平台注入新的活力。

两者结合，似乎看到了大数据变革的曙光。

新的曙光

目前，计算与存储分离的方案已经相对成熟，而容器化方案则仍处于探索和小规模应用阶段。以Spark为例，目前主要存在两种方案：

Spark Standalone：这种方案仅对大数据系统进行容器化部署改造。由于容器具有轻量化、更细粒度的算力管理、任务隔离等特点，可以将主机划分为更多的小颗粒任务单元，提高主机资源利用率，同时兼顾用户原有的使用习惯。不过，该方案需要提前分配固定的容器数量，并保持容器持续运行，无法对容器进行动态管理，资源利用率虽有所提升，但仍有浪费现象。
Spark on Kubernetes集群方案：这种方案采用Kubernetes替代Yarn进行统一的资源编排和调度，技术上更接近主流容器解决方案，避免了两层调度，进一步提高了资源管理效率。相较于Standalone方案，该方案实现了对容器资源的动态管理，优化了资源分配。然而，Kubernetes不属于Hadoop生态组件，与传统Spark on YARN相比存在一些劣势，如缺乏任务队列、外部洗牌服务等特性，性能较差。因此，在应用于生产系统时，还需进行大量功能增强、调度和性能优化，才能与传统大数据平台保持一致。

针对客户在容器化过程中遇到的问题，华为云计划推出鲲鹏大数据容器解决方案。该方案结合了BigData Pro，旨在提供一个更加完善的容器化大数据解决方案。

华为云鲲鹏大数据容器解决方案

BigData Pro是业界首个基于鲲鹏架构的大数据解决方案。该方案采用了存算分离架构，以可弹性扩展的鲲鹏算力作为计算资源，以支持多种协议的OBS对象存储服务作为统一的数据湖，提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案。这大大提升了大数据集群的资源利用率，有效应对当前大数据行业面临的瓶颈，帮助企业应对5G+云+智能时代的全新挑战，实现企业智能化转型升级。