《Python+Spark 2.0+Hadoop机器学习与大数据实战》这本书旨在帮助读者理解和应用大数据及机器学习的基础知识。书中不仅介绍了大数据和机器学习的基本概念,如分类、分析、训练、建模和预测,还详细讲解了推荐引擎、二元分类、多元分类、回归分析以及数据可视化等主题。
为了降低读者学习大数据技术的难度,本书提供了大量的实践操作和示例代码,指导读者如何在Windows系统上利用VirtualBox安装多台Linux虚拟机,如何构建Hadoop集群,以及如何配置Spark开发环境。书中介绍的实践平台不仅限于单台计算机,对于有条件的企业和学校,也可以按照书中的步骤在多台实体计算机上搭建类似的平台,从而更贴近实际的大数据和机器学习运行环境。
本书非常适合初学者掌握大数据的基础知识,也适合那些正在学习大数据理论和技术的人士作为实践指南。
本书内容概览:
- 第1章:介绍Python、Spark和Hadoop在大数据处理中的应用。
- 第2章:指导读者安装VirtualBox虚拟机软件。
- 第3章:详细介绍Ubuntu Linux操作系统的安装过程。
- 第4章:讲解如何在单节点上安装Hadoop集群。
- 第5章:展示如何在多节点上安装Hadoop集群。
- 第6章:介绍Hadoop HDFS命令的使用。
- 第7章:讲解Hadoop MapReduce的工作原理。
- 第8章:介绍Python Spark的基本概念及其安装步骤。
- 第9章:展示如何在IPython Notebook中运行Python Spark程序。
- 第10章:深入讲解Python Spark中的RDD。
- 第11章:介绍Python Spark的集成开发环境。
- 第12章:展示如何使用Python Spark创建推荐引擎。
- 第13章:讲解Python Spark MLlib中的决策树二元分类。
- 第14章:讲解Python Spark MLlib中的逻辑回归二元分类。
- 第15章:讲解Python Spark MLlib中的支持向量机SVM二元分类。
- 第16章:讲解Python Spark MLlib中的朴素贝叶斯二元分类。
- 第17章:讲解Python Spark MLlib中的决策树多元分类。
- 第18章:讲解Python Spark MLlib中的决策树回归分析。
- 第19章:介绍Python Spark SQL、DataFrame、RDD的数据统计与可视化。
- 第20章:讲解Spark ML Pipeline中的二元分类流程。
- 第21章:讲解Spark ML Pipeline中的多元分类流程。
- 第22章:讲解Spark ML Pipeline中的回归分析流程。
这本书提供的是PDF电子版,方便读者在手机上阅读。虽然书籍提供了很多实用信息,但要真正掌握数据分析技能,还需要系统化的学习方法和教程。
如果您需要更多关于Java、Python、大数据和Web前端编程语言的学习资料,请分享并关注我们的公众号,私信我们“书籍”,即可获取相关资源。