每周一书《Spark疾速大数据分析》分享

代梦阳
2021-02-25 19:10:41 1

内容简介

本书由Spark开发者及核心成员共同编写，旨在介绍在网络大数据时代应运而生的高效数据分析工具——Spark。书中详细介绍了如何利用Spark高效地搜集、计算、简化和保存海量数据，并教授读者如何进行交互式、迭代式和增量式的数据分析。此外，书中还涵盖了分区、数据本地化和自定义序列化等内容。

作者简介

Holden Karau：Databricks的软件开发工程师，活跃于开源社区。她还撰写了《Spark疾速数据处理》一书。
Andy Konwinski：Databricks联合创始人，Apache Spark项目的技术专家，同时也是Apache Mesos项目的联合发起人。
Patrick Wendell：Databricks联合创始人，Apache Spark项目的技术专家。他还负责维护Spark核心引擎的多个子系统。
Matei Zaharia：Databricks首席技术官，Apache Spark项目的发起人，同时也是Apache基金会的副主席。

编辑推荐

本书由Spark开发者撰写，适合Spark初学者阅读。虽然书中并未深入探讨实现细节，但对Spark的基本用法和核心概念进行了全面介绍，使读者能够深入了解Spark的工作原理。本书介绍了开源集群计算系统Apache Spark，该系统可以显著加快数据分析的速度。借助Spark，用户可以通过Python、Java和Scala的简单API快速操作大规模数据集。

本书不仅适用于数据科学家和工程师，还可以帮助他们迅速掌握如何使用简短的代码实现复杂的并行任务，同时涵盖从简单的批处理作业到流处理和机器学习等多种应用场景。