如何运用PySpark来应用机器学习模型对流数据停止预测？

2020-01-06 15:21:55 3

+关注

概述

流数据是机器学习领域内一个迅速发展的概念。我们将介绍如何利用PySpark来应用机器学习模型对流数据进行预测。本文将涵盖流数据和Spark Streaming的基础知识，并展示如何在实际数据集上应用Spark来处理流数据。

引言

当今世界，每秒钟都有海量数据生成，比如成千上万条推文、数以百计的照片上传到Instagram、数千个Skype通话、数十万次Google搜索和数百万封电子邮件发送出去（数据来源于InternetLive Stats）。我们正在以前所未有的速度生成数据。这为我们带来了巨大的机会，但同时也带来了挑战。

首先，如何高效地收集大规模数据？如何确保机器学习管道在数据生成后能持续产生结果？这些都是业界面临的重要挑战，这也是为什么流数据概念变得越来越重要。

掌握处理流数据的能力可以显著提升现有的数据科学产品组合。这对数据科学家来说是一项迫切需要的技能，掌握它可以帮助你胜任更高级别的数据科学岗位。

因此，本文将详细介绍什么是流数据，Spark Streaming的基础知识，并展示如何在实际数据集上应用Spark处理流数据。

什么是流数据？

社交媒体产生的数据量非常庞大。存储这些数据是一项复杂的任务。因此，在深入探讨Spark之前，我们先了解什么是流数据。

流数据没有固定的开始或结束，这些数据每秒从数千个数据源生成，并需要尽快进行处理和分析。实时处理大量流数据至关重要，例如搜索引擎结果。数据在事件发生的第一时间最有价值，随着时间的推移，其价值会逐渐降低。例如，在体育赛事中，即时分析和统计数据对于观众来说非常有价值。

Spark Streaming的基础知识

Spark Streaming是Spark的核心API的扩展，可以实现大规模和容错的实时数据流处理。

流数据的处理方法

流数据处理方法包括直接从数据源接收数据，或者在对原始数据进行一些处理后再接收数据。构建流应用程序的第一步是定义数据采集的批处理时间间隔。例如，如果批处理时间为2秒，则每2秒收集一次数据并将其存储在RDD中。这些RDD的连续序列构成DStream，它是不可变的，可以作为分布式数据集由Spark使用。

缓存

缓存是一种应对计算成本高昂的方法。它可以暂时存储已经计算过的结果，以便在发生故障时无需重新计算这些结果。DStreams允许将流数据保留在内存中，这对于需要多次操作同一数据的情况特别有用。

检查点

检查点是一种备份转换后的数据的技术。它定期将运行中的应用程序的状态保存在可靠的存储介质（如HDFS）上。检查点比缓存慢，灵活性也较差，但它可以避免大规模数据处理中的重新计算问题。

流数据的共享变量

在Spark应用程序中，有时需要在多个集群上执行某些操作。在这种情况下，每个集群都有自己的执行器，我们需要一种机制来协调这些变量。共享变量正是为此设计的。

累加器变量

累加器变量常用于计算错误次数、空白日志数量、从特定国家收到请求的次数等。每个集群的执行程序将数据发送回驱动程序进程，以更新累加器变量的值。累加器仅适用于关联和可交换的运算，如求和和求最大值。

广播变量

当需要使用静态数据（如城市名称和邮政编码映射）时，广播变量允许在每台计算机上保留只读变量。这可以避免每次在任意集群上执行特定转换时向驱动程序发送请求，从而节省成本。

使用PySpark进行情感分析

现在，让我们开始编写代码，以实际的方式来理解流数据处理。

了解任务

在这个项目中，我们将使用真实数据集来检测推文中的仇恨言论。如果一条推文包含种族主义或性别歧视言论，我们就认为这条推文包含仇恨言论。我们的目标是从其他推文中区分出含有仇恨言论的推文。

设置项目工作流程

模型构建：构建逻辑回归模型管道，对推文是否包含仇恨言论进行分类。
初始化Spark Streaming环境：定义获取流数据的主机名和端口号。
流数据处理：从定义的端口接收推文，Spark Streaming API将在指定的时间间隔后接收数据。
预测并返回结果：接收推文后，将其传递给机器学习管道并返回预测的情绪。

训练数据以建立逻辑回归模型

我们将推文数据及其对应的标签存储在一个CSV文件中，并使用逻辑回归模型来预测推文是否包含仇恨言论。如果推文包含仇恨言论，模型预测的标签为1（否则为0）。

定义机器学习管道的各阶段

我们定义了四个阶段：分词、停用词移除、词向量创建和逻辑回归模型构建。这些阶段将共同用于生成预测的情绪。

设置机器学习管道

我们使用Pipeline对象添加这些阶段，并用训练数据集拟合管道。这样，每当我们收到新的推文时，只需将其传递给管道对象并转换数据即可获取预测。

流数据处理和返回结果

我们将定义一个函数来处理接收的推文，删除空白句子并创建一个数据框，其中每一行包含一条推文。初始化Spark Streaming环境并定义批处理时间间隔。我们将对每批数据进行预测。

结语

流数据在未来几年将变得更加流行，因此熟悉这个领域非常重要。本文介绍了Spark Streaming的基础知识，并展示了如何在实际数据集上应用Spark处理流数据。建议读者尝试使用其他数据集或抓取实时数据来进一步练习。

期待你在下方评论区分享你的反馈和想法。

图灵汇

责任编辑：：

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

对流模型运用停止机器预测 PySpark 应用数据如何

零科新未来

2020-01-06

概述

引言

目录