机器学习:决策树学习之怎样处理过拟合成绩
作者头像
  • 杨学花
  • 2019-08-23 08:56:43 0

在决策树的学习过程中,有时会因为对叶子节点的判断标准过于严格和理想化,导致树的规模变得庞大,进而引发过拟合问题。为了解决这个问题,剪枝技术应运而生,它主要分为预剪枝和后剪枝两种策略。预剪枝是指在生成决策树的过程中提前终止树的增长,而后剪枝则是在树完全生成后再进行修剪。

尽管预剪枝看似更为直观,但在实际应用中,后剪枝往往能取得更好的效果。这是因为预剪枝需要准确判断何时停止树的增长,这实际上是一个非常具有挑战性的任务。无论采用预剪枝还是后剪枝,关键在于如何确定一个合理的树结构。

解决这一问题的方法有多种:

  1. 使用一组独立于训练样本的验证样本,来评估后剪枝的效果。

  2. 利用所有可用的数据进行训练,但通过统计测试来决定是否修剪某个节点,以期提升模型在未见过的数据上的表现。

  3. 采用一种明确的标准来衡量训练样本和决策树的复杂度,当这个复杂度达到最小值时,停止树的增长。

其中,第一种方法最为常用,也被称为训练集和验证集法。这种方法将数据集分为两部分:一部分用于构建学习模型,另一部分用于评估模型的准确性。通常的做法是,将大约三分之二的数据用于训练,剩下的三分之一用于验证。

这种方法的目的是即使学习器可能受到训练集的影响,但验证集的随机波动较小,有助于更客观地评估模型性能。

    本文来源:图灵汇
责任编辑: : 杨学花
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
习之拟合决策机器成绩怎样处理学习
    下一篇