第40集 python机器学习：虚拟变量（one-hot编码）

杨静
2019-10-30 11:56:54 8

在数据分析和机器学习中，我们经常遇到各种类型的数据，其中一些数据是以连续数值的形式存在，而另一些则是分类数据，也称为离散数据。连续数据通常表现为浮点数或整数，描述的是事物的连续特征，例如图像的像素值或鸢尾花的尺寸。另一方面，分类数据则描述了事物的类别特性，如产品的品牌、颜色或者所属的销售部门（图书、服装、硬件等）。这些分类特征并不呈现连续变化，而是以特定的类别形式存在。

处理这些不同类型的数据对机器学习模型的效果至关重要。数据的表示方式直接影响模型的性能，尤其是数据的标准化和归一化过程。在实际应用中，数据科学家和机器学习工程师的一项重要任务就是进行特征工程，即优化数据的表示方式，以便提高模型的预测精度。特征工程的重要性往往超过了选择最佳算法参数的重要性。

在处理分类数据时，一种常用的表示方法是虚拟变量编码，也称为独热编码（One-Hot Encoding）。这种方法将每个分类特征转化为一系列二进制特征，每个特征代表原特征的一个可能类别。例如，如果一个分类特征有三个可能的取值，那么它会被转化为三个二进制特征，每个特征取值为0或1，仅有一个特征为1，其余为0。这种编码方式使得模型能够更好地理解和处理分类数据。

接下来，我们将通过一个具体的例子来说明如何使用Python的Pandas库来进行独热编码。首先，我们加载一个名为“adult”的数据集，该数据集包含了有关个人收入水平的信息。我们使用Pandas库来读取数据，并只选取部分感兴趣的列。

```python import pandas as pd

读取数据，指定列名

data = pd.readcsv("D:ProgramDataAnaconda3Libsite-packagesmglearndataadult.data", header=None, indexcol=False, names=['年龄', '工作类别', '最终重量', '教育程度', '教育年限', '婚姻状况', '职业', '关系', '种族', '性别', '资本收益', '资本损失', '每周工时', '国籍', '收入水平'])

选取感兴趣的列

data = data[['年龄', '工作类别', '教育程度', '性别', '每周工时', '职业', '收入水平']] ```

在实际应用中，我们需要检查数据的一致性。例如，性别字段可能存在多种表述方式（如male和man），这时就需要统一这些表述。我们可以通过Pandas的value_counts()函数来查看每个类别的出现次数，以确保数据的一致性。

python print(data['性别'].value_counts())

接下来，我们使用Pandas的get_dummies()函数来实现独热编码。此函数会自动将所有对象类型的列（如字符串）转换为独热编码形式。

```python datadummies = pd.getdummies(data)

提取特征列

features = datadummies.loc[:, '年龄':'职业Transport-moving'] x = features.values

提取目标变量

y = datadummies['收入水平>50K'].values

数据准备完毕，可以进行模型训练和测试

from sklearn.linearmodel import LogisticRegression from sklearn.modelselection import traintestsplit

xtrain, xtest, ytrain, ytest = traintestsplit(x, y, randomstate=0) logreg = LogisticRegression() logreg.fit(xtrain, ytrain) print("测试集得分: {:.2f}".format(logreg.score(xtest, y_test))) ```

通过上述步骤，我们成功地将原始数据转换为适合机器学习模型处理的格式。需要注意的是，在处理训练数据和测试数据时，应同时对两者进行相同的编码操作，以保证数据的一致性。这样可以避免因数据处理方式不同而导致的模型预测偏差。

图灵汇

责任编辑：：杨静

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。