机器学习-TensorFlow建模过程 Linear Regression线性拟合运用

李翠云
2020-02-08 20:40:24 5

TensorFlow 是一种在机器学习领域广泛应用的工具，尤其在数据处理、模型构建和验证方面表现出色。本文将介绍 TensorFlow 中的建模过程及一些简单的模型验证方法。无论是 sklearn 还是 TensorFlow，它们的模型构建流程都大同小异，主要包括数据类型声明、模型定义、数据训练、验证等步骤。在接下来的内容中，我将重点展示如何使用 TensorFlow 实现线性回归。

第一步：数据准备

数据准备阶段主要是为了准备好后续模型训练所需的各类数据。在这个过程中，我们需要处理缺失值、对分类数据进行编码、数据分割和数据重排等操作。以下是数据准备的具体步骤：

```python calihousingdataset = pd.readcsv("https://download.mlcc.google.com/mledu-datasets/californiahousingtrain.csv") calihousingdataset["medianhouse_value"] /= 1000.0

generator = np.random.Generator(np.random.PCG64()) calihousingdatasetpermutation = calihousingdataset.reindex(generator.permutation(calihousing_dataset.index))

myfeature = calihousingdatasetpermutation[["totalrooms"]] targets = calihousingdatasetpermutation[["medianhousevalue"]] ```

上述代码展示了如何读取数据、调整数值、生成随机数以及数据重排。这部分内容旨在说明如何为后续步骤做好数据准备。

第二步：定义特征类型和优化器

在数据准备好之后，我们需要定义特征类型和优化器。特征类型决定了模型如何处理输入数据，而优化器则负责调整模型参数。以下是相关代码示例：

python feature_columns = [tf.feature_column.numeric_column("total_rooms")] my_optimizer = tf.optimizers.SGD(learning_rate=0.0000001, clipnorm=5.0)

这段代码定义了单一特征（total_rooms），并选择了随机梯度下降（SGD）作为优化器。SGD 有助于逐步调整模型参数，通过设定学习率和梯度裁剪阈值，可以避免梯度爆炸的问题。

第三步：定义模型

接下来，我们需要定义模型。TensorFlow 提供了多种模型，这里我们选择简单的线性回归模型。以下是定义模型的代码：

python linear_regressor = tf.estimator.LinearRegressor( feature_columns=feature_columns, optimizer=my_optimizer )

这段代码创建了一个线性回归模型，并指定了特征列和优化器。

第四步：定义数据输入函数

为了将原始数据转换为适合 TensorFlow 处理的格式，我们需要定义一个输入函数。该函数负责将数据转换为批次，并可选地进行洗牌和重复。以下是定义输入函数的代码：

```python def myinput(features, targets, batchsize=500, shuffle=True, numepochs=None): features = {key: tf.multiply(np.array(value), 1) for key, value in dict(features).items()} ds = tf.data.Dataset.fromtensorslices((features, targets)) ds = ds.batch(batchsize).repeat(num_epochs)

if shuffle:
    ds = ds.shuffle(buffer_size=10000)

return ds

```

该函数允许我们灵活地调整批次大小、洗牌和重复次数，以适应不同的训练需求。

第五步：训练模型

在定义好所有必要的组件后，我们就可以开始训练模型了。以下是训练模型的代码：

python linear_regressor.train( input_fn=lambda: my_input(my_feature, targets), steps=1000 )

这段代码通过传递输入函数和步数参数来启动训练过程。每次迭代都会计算梯度并调整模型参数，直到达到指定的步数。

第六步：预测和评估

训练完成后，我们可以使用模型进行预测并评估其性能。以下是进行预测和评估的代码：

```python predictioninputfn = lambda: myinput(myfeature, targets, shuffle=False, numepochs=1) predictions = linearregressor.predict(inputfn=predictioninput_fn) predictions = np.array([item["predictions"][0] for item in predictions])

meansquarederror(targets, predictions) ```

这段代码展示了如何使用模型进行预测，并通过计算均方误差来评估模型性能。

第七步：数据可视化

最后，我们可以绘制图表来直观地展示模型的拟合效果。以下是绘制拟合线和散点图的代码：

```python sample = calihousingdatasetpermutation.sample(n=300) x0 = sample["totalrooms"].min() x1 = sample["total_rooms"].max()

weights = linearregressor.getvariablevalue("linear/linearmodel/totalrooms/weights")[0] bias = linearregressor.getvariablevalue("linear/linearmodel/biasweights")

y0 = weights * x0 + bias y1 = weights * x1 + bias

plt.plot([x0, x1], [y0, y1]) plt.ylabel("medianhousevalue") plt.xlabel("totalrooms") plt.scatter(sample["totalrooms"], sample["medianhousevalue"]) plt.show() ```

这段代码生成了一张图表，展示了模型的拟合效果。