大数据开发：OLAP开源数据分析引擎简介

孙洁
2021-01-20 17:37:26 2

面对日益增长的数据资源，企业需要及时进行数据分析处理，从而挖掘出有价值的信息，推动业务发展。在企业级的数据分析场景中，通常会采用OLAP（在线分析处理）数据分析引擎。在明天的大数据开发分享会上，我们将重点介绍几种主流的OLAP开源数据分析引擎。

对于企业而言，为了有效控制成本，选择开源框架进行开发是最理想的选择。在OLAP数据分析领域，开源的技术框架种类繁多，但每个框架都有其独特的优势和不足之处，最终需要根据实际需求进行技术选型。

OLAP开源引擎

当前市场上主流的开源OLAP引擎包括但不限于：Hive、Spark SQL、Presto、Kylin、Impala、Druid、Clickhouse、Greenplum等。接下来，我们将详细介绍一些具有代表性的框架。

Apache Hive

提到Hive，大家应该不会感到陌生。作为Hadoop的数据仓库工具，Hive在处理大规模数据方面表现出色。Hive的工作原理是将HQL语句（类似于SQL语法）转化为MapReduce任务来执行。本质上，它是基于HDFS的MapReduce计算框架，通过HQL对存储的数据进行分析。Hive的优点在于易于学习（支持SQL语法）和扩展性强（基于HDFS）。然而，由于需要将任务转换为MapReduce作业执行，Hive的延迟较高，更适合用于数据仓库的统计分析。

Spark SQL

Spark SQL的前身是Shark，它能够将SQL查询与Spark程序无缝集成，使用户可以像操作RDD一样查询结构化数据。Spark SQL作为Spark生态系统的一部分不断发展，不再局限于Hive，但仍然兼容Hive。

Impala

Impala是一款相对较老的OLAP引擎，依赖于Kudu或Hive，不支持其他数据源。尽管它在过去几年里凭借快速查询性能（如能在十几秒内完成上千亿、TB级数据的查询）赢得了部分大厂的认可，例如滴滴，但由于其基于C++编写，使得许多Java开发者对其望而却步。

Presto

Presto是由Facebook开源的分布式SQL查询引擎，它在接收到查询请求后，首先由语法解析器解析，然后分配给相应节点执行。Presto通过其内部的查询和执行引擎来完成数据分析处理，所有操作都在内存中完成，因此速度非常快。不过，Presto的一个缺点是可能会发生内存溢出。

Clickhouse

Clickhouse是一款由俄罗斯开发的列式数据库，非常适合数据分析。它可以快速选择特定列进行分析，延迟极低。在计算层面上，Clickhouse提供了多核并行处理、分布式计算、近似计算和复杂数据类型支持等功能，充分利用CPU资源，提高查询速度。Clickhouse的主要优点是速度快、分布式高可用，几乎没有数据分析方面的缺陷。