手把手教你完成PySpark机器学习项目——回归算法

富胜家居
2019-11-14 15:35:18 3

+关注

【导读】PySpark 是一种广泛应用于工业界的大数据处理及分布式计算工具，尤其在算法建模过程中发挥了重要作用。本文将引导读者通过实际操作，掌握如何利用 PySpark 进行建模，从而更好地应对工业界的挑战。

项目背景

在电子商务领域，了解用户在不同产品类别中的购买行为对于创建个性化产品至关重要。本文将通过真实数据集，指导读者如何预测用户在不同产品类别的购买行为。

数据集简介

一家批发商希望了解不同产品类别的顾客购买行为。他们分享了上个月选定产品的客户购买汇总数据。数据集包括客户的年龄、性别、婚姻状态、城市类型、居住时间等人口统计信息，以及产品类别和购买金额等详细信息。现在，他们希望建立一个模型来预测客户对各类产品的购买量，以便更好地提供个性化产品。

实战项目

1. 导入数据

我们将使用 PySpark 的 read.csv 方法来读取数据，这与 Pandas 的读取方法类似。

```python from pyspark.sql import SparkSession

spark = SparkSession .builder .appName("test") .config("spark.some.config.option", "setting") .getOrCreate()

train = spark.read.csv('./BlackFriday/train.csv', header=True, inferSchema=True) test = spark.read.csv('./BlackFriday/test.csv', header=True, inferSchema=True) ```

2. 数据类型分析

我们可以使用 printSchema 方法查看数据框中各列的数据类型。

python train.printSchema()

3. 数据预览

通过 head 方法，我们可以预览数据集的前几行。

python train.head(5)

4. 缺失值处理

我们可以通过 drop 方法来检查并处理缺失值。

python train.na.drop('any').count(), test.na.drop('any').count()

为简化起见，我们用 -1 来填充缺失值。

python train = train.fillna(-1) test = test.fillna(-1)

5. 数值特征分析

我们可以通过 describe 方法查看数据框中各列的统计信息。

python train.describe().show()

6. 类别特征分析

为了分析分类特征，我们使用 distinct 和 count 方法来计算不同类别的数量。

python train.select('Product_ID').distinct().count(), test.select('Product_ID').distinct().count()

7. 将分类变量转换为标签

我们使用 StringIndexer 将分类变量转换为标签。

```python from pyspark.ml.feature import StringIndexer

indexer = StringIndexer(inputCol='ProductID', outputCol='productid_trans') labeller = indexer.fit(train)

Train1 = labeller.transform(train) Test1 = labeller.transform(test) ```

8. 特征选择与建模

我们使用 RFormula 来选择特征并构建机器学习模型。

```python from pyspark.ml.feature import RFormula

formula = RFormula( formula="Purchase ~ Age + Occupation + CityCategory + StayInCurrentCityYears + ProductCategory1 + ProductCategory_2 + Gender", featuresCol="features", labelCol="label" )

t1 = formula.fit(Train1) train1 = t1.transform(Train1) test1 = t1.transform(Test1) ```

9. 建立机器学习模型

我们使用随机森林回归器来建立模型。

```python from pyspark.ml.regression import RandomForestRegressor

rf = RandomForestRegressor()

(traincv, testcv) = train1.randomSplit([0.7, 0.3])

model1 = rf.fit(traincv) predictions = model1.transform(testcv) ```

10. 模型评估

我们通过计算 RMSE 和 MSE 来评估模型性能。

```python from pyspark.ml.evaluation import RegressionEvaluator

evaluator = RegressionEvaluator(metricName="mse") mse = evaluator.evaluate(predictions) rmse = np.sqrt(mse)

print(rmse, mse) ```

总结

本文通过真实案例介绍了 PySpark 的建模流程，旨在帮助读者掌握使用 PySpark 进行数据处理和建模的方法。后续文章将继续分享更多 PySpark 的应用技巧。如果您有任何问题或建议，欢迎留言交流。

（*本文为 AI 科技大本营转载文章，转载请联系原作者）

图灵汇

责任编辑：：富胜家居

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

手把手算法回归机器完成 PySpark 项目学习

启盈门

2019-11-14