各大头部互联网公司都在用的 Apache Kylin™ 到底是什么?
作者头像
  • 匙海波
  • 2019-11-16 17:04:22 7

预览

Apache Kylin™ 是一款开源的分布式分析引擎,能够在 Hadoop 和 Spark 上提供 SQL 查询接口及多维分析(OLAP)功能,从而支持超大规模数据查询,该技术最初由 eBay Inc. 开发并贡献给开源社区。它能够实现对庞大 Hive 表的亚秒级查询响应。

Apache Kylin™ 使用户只需三个步骤就能完成对超大数据集的亚秒级查询: 1. 定义数据集上的星形或雪花模型; 2. 在定义的数据表上构建立方体; 3. 使用标准 SQL 通过 ODBC、JDBC 或 RESTful API 进行查询,查询结果将在亚秒级时间内返回。

Kylin 能够与多种数据可视化工具集成,如 Tableau 和 PowerBI,这使得用户能够利用 BI 工具来分析 Hadoop 中的数据。

Kylin 是什么?

可扩展且高效的基于大数据的 OLAP 引擎:

Kylin 设计的初衷是为了减少在 Hadoop/Spark 上处理数十亿规模数据时的查询延迟问题。

Hadoop ANSI SQL 接口:

作为一款 OLAP 引擎,Kylin 为 Hadoop 提供了标准 SQL 支持,涵盖大多数查询功能。

实时交互式查询:

借助 Kylin,用户能够实现对 Hadoop 数据的亚秒级实时交互,相比 Hive,Kylin 提供了更强大的查询能力。

多维立方体(MOLAP Cube):

Kylin 允许用户为包含数十亿条记录的数据集定义数据模型并创建立方体结构。

实时 OLAP 分析:

Kylin 支持实时处理数据,在数据生成时即可进行实时分析,确保用户能在秒级延迟内获取多维度分析结果。

与 BI 工具无缝集成:

Kylin 提供了与多种商业智能工具的无缝集成能力,包括但不限于 Tableau、PowerBI/Excel、MSTR、QlikSense、Hue 和 SuperSet。

其他功能:

  • Job 管理与监控
  • 数据压缩与编码
  • 增量更新
  • 应用 HBase Coprocessor
  • 使用 HyperLogLog 进行近似唯一值计算
  • 友好的 Web 界面用于管理、监控和使用立方体
  • 表级别和项目级别的访问控制
  • 安全支持,包括 LDAP 和 SSO 认证

谁在使用?

Kylin 生态系统

未来将提供更多关于 Kylin 的入门指南,敬请关注 大数据与机器学习 领域的相关内容。

    本文来源:图灵汇
责任编辑: : 匙海波
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
头部在用到底互联网Apache什么Kylin公司
    下一篇