「Spark从入门到知晓系列」10.运用 MLlib 停止机器学习（上）

芯华集成电路人才基地
2021-06-05 18:32:33 10

+关注

本公众号关注大数据与人工智能技术。由一批技术极客参与管理，持续提供大数据、数据分析、推荐系统、机器学习、人工智能等领域的原创文章，每周至少七篇高质量原创内容。同时，我们还会关注和分享大数据与人工智能行业的最新动态。

以下是对原文内容的改写：

我们专注于大数据和人工智能领域，提供丰富的原创文章和技术分享。团队成员都是经验丰富的技术专家，定期发布关于数据科学、机器学习、人工智能等方面的文章，每周至少发布七篇原创作品。此外，我们还会关注并报道大数据和人工智能行业的最新进展。

第十章使用MLlib进行机器学习（上）

1. 机器学习简介

机器学习是一种从数据中提取模式的过程，广泛应用于各种场景，如预测能耗、识别视频中的物体、对具有相似特征的项目进行分类等。机器学习的主要类型包括监督学习、半监督学习、无监督学习和强化学习。

1.1 监督学习

监督学习的目标是在给定一组带有标签的数据集后，训练模型以便在遇到新的无标签数据时做出预测。监督学习主要分为两类：分类和回归。在分类任务中，目标是将输入数据划分为几个互斥的类别。而在回归任务中，目标则是预测连续值。

1.2 无监督学习

无监督学习主要用于在没有标签的情况下探索数据结构。例如，可以利用无监督学习来识别数据中的自然聚类。此外，无监督学习还可以用于异常检测或作为监督学习的预处理步骤。

1.3 为什么使用Spark进行机器学习？

Spark是一个统一的分析引擎，为数据摄取、工程设计、模型训练和部署提供了一个完整的生态系统。与传统的解决方案相比，Spark使得数据科学家可以在同一个环境中进行数据准备和模型构建，而不需要将数据下采样以适应单台计算机。

2. 构建机器学习管道

在这一部分中，我们将介绍如何构建和使用机器学习管道。管道是一种组织一系列操作的方法，这些操作应用于数据以完成特定的任务。在MLlib中，管道API提供了一个高级接口，用于组织机器学习工作流。

2.1 数据预处理与研究

在开始特征工程和建模之前，我们需要对数据进行预处理，包括去除异常值、将所有整数转换为浮点数，并选择最有信息量的特征子集。此外，对于缺失值，我们使用中位数填充，并添加一个标志列。

2.2 创建训练和测试数据集

为了评估模型性能，我们将数据集分为训练集和测试集。通常情况下，训练集占80%，测试集占20%。为了确保结果的可重复性，我们设定一个随机种子。

2.3 特征转换

现在我们已经将数据分为训练集和测试集，接下来需要准备好数据，以便构建线性回归模型。为此，我们需要将所有特征整合到一个向量中。

2.4 线性回归简介

线性回归是一种通过线性关系预测因变量的方法。在本例中，我们希望通过给定的卧室数量来预测Airbnb租金的价格。

2.5 构建模型

我们已经准备好数据，接下来使用线性回归算法构建模型。线性回归模型通过拟合数据来预测标签值。

2.6 构建管道

为了简化数据准备过程，我们将数据转换步骤和模型构建步骤封装到一个管道中。这样可以确保数据处理步骤的一致性和可重复性。

2.7 特征编码

为了将分类特征转换为数值，我们使用独热编码（OHE）技术。这种技术将每个分类值转换为一个二进制向量，从而避免引入虚假关系。

2.8 评估模型

现在我们已经构建了一个模型，下一步是评估其性能。我们将使用均方根误差（RMSE）和决定系数（R²）来评价模型的效果。

2.9 保存和加载模型

最后，我们将训练好的模型保存起来，以便以后使用。这样即使集群出现问题，我们也不必重新训练模型。

通过上述内容，我们介绍了如何使用MLlib进行机器学习的基本流程，包括数据预处理、模型构建、特征编码和模型评估。希望这些内容对你有所帮助。

图灵汇

责任编辑：：芯华集成电路人才基地

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

知晓入门停止运用机器系列学习 Spark MLlib 10

芯华集成电路人才基地

2021-06-07

第十章 使用MLlib进行机器学习（上）