本书由Spark开发者及核心成员共同编写,旨在介绍在网络大数据时代应运而生的高效数据分析工具——Spark。书中详细介绍了如何利用Spark高效地搜集、计算、简化和保存海量数据,并教授读者如何进行交互式、迭代式和增量式的数据分析。此外,书中还涵盖了分区、数据本地化和自定义序列化等内容。
本书由Spark开发者撰写,适合Spark初学者阅读。虽然书中并未深入探讨实现细节,但对Spark的基本用法和核心概念进行了全面介绍,使读者能够深入了解Spark的工作原理。本书介绍了开源集群计算系统Apache Spark,该系统可以显著加快数据分析的速度。借助Spark,用户可以通过Python、Java和Scala的简单API快速操作大规模数据集。
本书不仅适用于数据科学家和工程师,还可以帮助他们迅速掌握如何使用简短的代码实现复杂的并行任务,同时涵盖从简单的批处理作业到流处理和机器学习等多种应用场景。
请关注“中科院计算所培训中心”公众号,并通过公众号内的微信客服获取书籍资源。