机器学习之交叉验证
作者头像
  • 广电独家
  • 2019-11-20 21:17:26 1

训练集用于训练模型,验证集用于选择最优模型,而测试集则用于评估最终的学习效果。

在尝试不同复杂度的模型时,通常会选择在验证集上具有最小预测误差的那个模型。这是因为验证集包含足够的数据,能够有效地指导模型选择。

然而,在很多实际应用中,数据量可能并不充足。为了选出更好的模型,可以采用交叉验证的方法。交叉验证的核心思想是多次重复利用数据,具体操作是将给定的数据分割成多个部分,并交替用作训练集和测试集,以此反复进行模型训练、测试及选择。

1、简单交叉验证

简单交叉验证的过程是:先将数据随机分为训练集和测试集(如70%的数据用于训练,30%用于测试)。接着,利用训练集的不同参数配置训练出多个模型,并在测试集上评估各模型的性能,最终选取测试误差最小的模型。

2、S折交叉验证

最常用的交叉验证方法是S折交叉验证。该方法步骤如下:首先将数据随机划分为S个互不重叠的子集;然后使用S-1个子集进行模型训练,剩下的一个子集用于模型测试;这一过程需要重复S次,每次选用不同的子集作为测试集;最后,选择在所有测试中平均误差最小的模型。

3、留一交叉验证

当S等于数据集的大小N时,S折交叉验证变为留一交叉验证。这种方法特别适用于数据量较小的情况。

希望以上改写内容能符合您的需求。

    本文来源:图灵汇
责任编辑: : 广电独家
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
习之交叉验证机器
    下一篇