Python机器学习实际指南：机器学习的相关工作流程

杨帅
2020-07-07 17:19:32 8

机器学习正在快速改变我们的世界。作为人工智能的重要组成部分，我们几乎每天都能看到机器学习如何影响日常生活。有些人认为它将引领我们进入高科技乌托邦，而另一些人则担忧这会导致人类失去工作机会。然而，尽管专家们热衷于讨论这些未来景象，实际上，机器学习已经悄然成为我们日常生活的一部分。随着我们在与计算机和外部世界的互动中不断进步，机器学习正逐步提升我们的生活质量。

如果你在Amazon.com这样的在线购物平台购物，或者使用Spotify和Netflix等流媒体服务，甚至是进行一次Google搜索，你已经在接触机器学习的应用。这些服务的用户会产生大量数据，这些数据会被收集、汇总并输入模型，最终形成个性化的用户体验，从而优化服务。

现在正是深入了解机器学习应用开发的好时机。你会发现，Python是开发这类应用的理想选择。Python拥有一个庞大且活跃的开发者社区，其中许多成员来自科学界。这使得Python拥有一系列强大的科学计算库。本书将探讨并使用这些来自Python科学工具箱的库。

接下来的章节中，我们将逐步学习如何构建各种不同的机器学习应用。但在开始之前，我们将在本章介绍一些关键概念，以便更好地准备应用这些库。

本章将涵盖以下内容：

数据科学和机器学习的工作流程。
工作流程中各个阶段使用的库。
如何配置你的开发环境。

1.1 数据科学和机器学习的工作流程

开发机器学习应用的过程与传统的工程方法有许多相似之处，但有一个关键的不同之处：需要将数据视为原材料。数据项目的成功很大程度上取决于数据的质量及其处理方式。由于数据的使用属于数据科学领域，了解数据科学的工作流程对于开发人员很有帮助。整个过程大致可以分为六个步骤：获取数据、检查和探索数据、清理和准备数据、建模、评估模型和部署模型。

这个过程可能需要反复回到之前的步骤，比如检查和准备数据，或是评估和建模，但图1-1提供了这个过程的高层次概述。

[图1-1]

现在让我们逐一探讨这些步骤。

1.1.1 获取数据

机器学习应用中的数据可以来源于多种渠道，可能是通过电子邮件发送的CSV文件，也可能是从服务器提取的日志，甚至可能需要自己编写网络爬虫。数据可能以不同的格式存在，通常是文本格式，但也有可能是图像或视频文件。一旦确定了数据来源，了解数据的组成和结构就显得尤为重要。

1.1.2 检查和探索数据

一旦获得了数据，下一步就是检查和探索它们。这一阶段的主要目标是合理地检查数据，最好通过发现那些看似不可能或几乎不可能的事情来实现。例如，如果数据包含唯一的标识符，需要检查是否有重复；如果是基于价格的数据，需要检查是否有异常值；无论数据类型如何，都需要检查极端情况。它们是否有意义？一种有效的方法是在数据上运行简单的统计测试并可视化数据。此外，还要注意数据中是否存在缺失或不完整的信息。这些信息在数据清理和准备阶段需要处理。只有高质量的数据才能产生高质量的模型，因此这一阶段的工作至关重要。

1.1.3 清理和准备数据

当所有数据都准备好后，下一步是将其转化为适合模型使用的格式。这个阶段包括多个步骤，如筛选、聚合、输入和转换。操作的具体类型将取决于数据的类型以及所使用的库和算法类型。例如，自然语言处理中的文本转换与时间序列数据的转换有很大不同。全书将展示一些转换的实际例子。

1.1.4 建模

一旦数据准备完成，接下来的阶段就是建模。在这个阶段，我们需要选择合适的算法，并在数据上训练模型。有一些最佳实践可以遵循，我们将详细讨论这些实践，但基本步骤包括将数据划分为训练集、测试集和验证集。尽管看起来这种划分可能不合逻辑（尤其是更多的数据通常会带来更好的模型），但这样做可以帮助我们获得更好的反馈，了解模型在现实世界中的表现，并避免过拟合的问题。

1.1.5 评估模型

一旦模型构建完成并开始进行预测，下一步是评估模型的效果。这是评估阶段要解决的问题。有许多方法可以用来衡量模型的表现，具体方法很大程度上取决于数据和模型的类型。总体来说，我们试图回答的问题是：模型的预测结果与实际情况有多接近。虽然一些术语听起来复杂，如均方根误差、欧氏距离和F1分数，但最终它们都是衡量预测值与实际值之间差距的方法。

1.1.6 部署模型

一旦模型表现满意，下一步就是部署。根据具体应用场景，部署的方式可能不同，但常见的情况包括将其集成到更大的应用程序中，或作为一个定制的Web应用，甚至只是一个简单的定时任务。

本文节选自《Python机器学习实战指南》。这本书结合了机器学习和Python这两个热门领域，通过实际项目讲解如何构建真正的机器学习应用。

图灵汇

责任编辑：：杨帅

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。