机器学习如何停止特征选择？

王杉杉
2019-12-08 09:23:05 1

简介

据《福布斯》报道，每天大约会产生250万兆字节的数据。随后，可以利用数据挖掘和机器学习技术对这些数据进行分析，从而提供有价值的见解并进行预测。然而，在大多数情况下，数据分析前需要对原始数据进行预处理。预处理的原因多种多样，包括但不限于： - 数据格式不统一（如SQL数据库、JSON、CSV等） - 缺失值和异常值 - 数据集中固有的噪声（部分存储数据可能已损坏） - 数据集中某些特征无法提供任何有用的信息

本文将介绍如何使用Python减少Kaggle蘑菇分类数据集中的特征数量。所有代码可以在Kaggle和我的GitHub账号上找到。

减少统计分析过程中使用的特征数量可以带来诸多好处，例如： - 提高精度 - 降低过拟合风险 - 加快训练速度 - 改进数据可视化 - 增加模型的可解释性

实际上，统计学证明，执行机器学习任务时，每种任务都存在一个最佳的特征数量。如果特征过多，模型性能可能会下降（因为增加了噪声）。真正的挑战在于确定哪些特征是最有效的。这就是特征选择技术发挥作用的地方。

特征选择

特征选择方法多种多样，以下是几种主要方法：

过滤方法：筛选数据集，只保留所有相关特征的子集（例如，使用皮尔逊相关性分析）。
包裹方法：与过滤方法类似，但使用机器学习模型作为评价标准（例如，向前、向后、双向或递归特征消除）。这种方法比过滤方法更精确，但计算成本更高。
嵌入方法：同样使用机器学习模型，但检查模型的不同训练迭代，根据每个特征对模型训练的贡献程度对特征的重要性进行排序。

实际应用

本文将使用蘑菇分类数据集，尝试预测蘑菇是否有毒。在此过程中，我们将尝试不同的特征消除技术，观察它们如何影响训练时间和模型的整体准确性。

首先，我们需要导入所有必需的库。

接下来，我们将对所有分类变量进行独热编码，将数据划分为特征（X）和标签（Y），最后在训练集和测试集中划分数据。

在将这些数据输入机器学习模型之前，我决定对所有分类变量进行one-hot编码，将数据分为特征（X）和标签（Y），最后在训练集和测试集中进行划分。

特征重要性

基于集合的决策树模型（如随机森林）可以用来对不同特征的重要性进行排序。了解模型最重要的特征对于理解模型如何做出预测至关重要。同时，我们可以去掉那些对模型没有任何帮助的特征。

训练一个随机森林分类器，并查看特征重要性。结果表明，使用所有特征训练随机森林分类器，在约2.2秒的训练时间内达到了100%的准确率。接下来，我们可以尝试只用前三个特征来训练模型，结果发现准确率仅下降0.03%，训练时间减少了一半。

此外，通过可视化训练好的决策树，可以进一步了解特征选择的过程。决策树顶部的特征是模型在执行分类时认为最重要的特征。因此，只选择这些特征可以创建一个准确度较高的模型。

递归特征消除（RFE）

递归特征消除（RFE）通过机器学习模型的精度作为度量，递归地减少要使用的特征数量。通过创建一个循环，可以跟踪每个特征的数量对模型准确性的影响，从而确定最佳特征数量。

SelecFromModel

SelectFromModel是另一种scikit-learn方法，用于特征选择。此方法可用于各种类型的scikit-learn模型。与RFE相比，SelectFromModel是一个不太可靠的选择，因为它只根据计算出的阈值删除不重要的特征。

单变量选择

单变量特征选择是一种统计方法，用于选择与标签关系最密切的特征。使用SelectKBest方法，可以选择评分函数和保留的最佳特征数量。

套索回归

套索回归是一种正则化方法，可以在模型参数上加上一个惩罚，以避免模型试图太接近输入数据。通过这种方式，可以简化模型，避免过拟合。

结论

通过以上方法，可以有效地减少特征数量，提高模型的准确性和效率。这些技术不仅适用于蘑菇分类数据集，还适用于其他各种数据集。

图灵汇

责任编辑：：王杉杉

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

特征停止机器选择如何学习

李文静

2019-12-08

简介