机器学习之交叉验证

训练集用于训练模型，验证集用于选择最优模型，而测试集则用于评估最终的学习效果。

在尝试不同复杂度的模型时，通常会选择在验证集上具有最小预测误差的那个模型。这是因为验证集包含足够的数据，能够有效地指导模型选择。

然而，在很多实际应用中，数据量可能并不充足。为了选出更好的模型，可以采用交叉验证的方法。交叉验证的核心思想是多次重复利用数据，具体操作是将给定的数据分割成多个部分，并交替用作训练集和测试集，以此反复进行模型训练、测试及选择。

1、简单交叉验证

简单交叉验证的过程是：先将数据随机分为训练集和测试集（如70%的数据用于训练，30%用于测试）。接着，利用训练集的不同参数配置训练出多个模型，并在测试集上评估各模型的性能，最终选取测试误差最小的模型。

2、S折交叉验证

最常用的交叉验证方法是S折交叉验证。该方法步骤如下：首先将数据随机划分为S个互不重叠的子集；然后使用S-1个子集进行模型训练，剩下的一个子集用于模型测试；这一过程需要重复S次，每次选用不同的子集作为测试集；最后，选择在所有测试中平均误差最小的模型。

3、留一交叉验证

当S等于数据集的大小N时，S折交叉验证变为留一交叉验证。这种方法特别适用于数据量较小的情况。

希望以上改写内容能符合您的需求。

责任编辑：：广电独家

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2019-11-21

程序员受欢迎的机器学习和数据迷信Python库