机器学习：决策树学习之怎样处理过拟合成绩

在决策树的学习过程中，有时会因为对叶子节点的判断标准过于严格和理想化，导致树的规模变得庞大，进而引发过拟合问题。为了解决这个问题，剪枝技术应运而生，它主要分为预剪枝和后剪枝两种策略。预剪枝是指在生成决策树的过程中提前终止树的增长，而后剪枝则是在树完全生成后再进行修剪。

尽管预剪枝看似更为直观，但在实际应用中，后剪枝往往能取得更好的效果。这是因为预剪枝需要准确判断何时停止树的增长，这实际上是一个非常具有挑战性的任务。无论采用预剪枝还是后剪枝，关键在于如何确定一个合理的树结构。

解决这一问题的方法有多种：

其中，第一种方法最为常用，也被称为训练集和验证集法。这种方法将数据集分为两部分：一部分用于构建学习模型，另一部分用于评估模型的准确性。通常的做法是，将大约三分之二的数据用于训练，剩下的三分之一用于验证。

这种方法的目的是即使学习器可能受到训练集的影响，但验证集的随机波动较小，有助于更客观地评估模型性能。

责任编辑：：杨学花

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2019-08-23

机器学习算法实战：运用聚类算法统计美国国会不同议员的投票主张