各大头部互联网公司都在用的 Apache Kylin™ 到底是什么？

Apache Kylin™ 是一款开源的分布式分析引擎，能够在 Hadoop 和 Spark 上提供 SQL 查询接口及多维分析（OLAP）功能，从而支持超大规模数据查询，该技术最初由 eBay Inc. 开发并贡献给开源社区。它能够实现对庞大 Hive 表的亚秒级查询响应。

Apache Kylin™ 使用户只需三个步骤就能完成对超大数据集的亚秒级查询： 1. 定义数据集上的星形或雪花模型； 2. 在定义的数据表上构建立方体； 3. 使用标准 SQL 通过 ODBC、JDBC 或 RESTful API 进行查询，查询结果将在亚秒级时间内返回。

Kylin 能够与多种数据可视化工具集成，如 Tableau 和 PowerBI，这使得用户能够利用 BI 工具来分析 Hadoop 中的数据。

Kylin 设计的初衷是为了减少在 Hadoop/Spark 上处理数十亿规模数据时的查询延迟问题。

作为一款 OLAP 引擎，Kylin 为 Hadoop 提供了标准 SQL 支持，涵盖大多数查询功能。

借助 Kylin，用户能够实现对 Hadoop 数据的亚秒级实时交互，相比 Hive，Kylin 提供了更强大的查询能力。

Kylin 允许用户为包含数十亿条记录的数据集定义数据模型并创建立方体结构。

Kylin 支持实时处理数据，在数据生成时即可进行实时分析，确保用户能在秒级延迟内获取多维度分析结果。

Kylin 提供了与多种商业智能工具的无缝集成能力，包括但不限于 Tableau、PowerBI/Excel、MSTR、QlikSense、Hue 和 SuperSet。

未来将提供更多关于 Kylin 的入门指南，敬请关注大数据与机器学习领域的相关内容。

责任编辑：：匙海波

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2019-11-16

在图数据上做机器学习，应该从哪个切入点末尾呢？