深化了解机器学习——基于决策树的模型

梅花园陈述
2020-05-29 10:41:51 3

本文主要探讨了如何利用属性构建分类边界来实现样本分类的问题。当我们将每个属性视为坐标空间中的一个维度时，d个属性所描述的样本就可以在d维空间中表示为一个数据点。而对样本进行分类，实际上就是在这个坐标空间中寻找不同类别样本之间的分类边界。

决策树生成的分类边界有一个显著特点：它们通常与坐标轴平行。这意味着决策树的分类边界由一系列与坐标轴平行的分段组成。这种分类方式的优点在于其良好的可解释性，因为每一分段都直接对应于某个属性的具体取值。然而，在实际应用中，真实的分类边界往往更为复杂，需要更多的分段才能达到较好的近似效果。这会导致决策树变得非常复杂，需要频繁测试多个属性，从而增加计算成本。

为了简化决策树模型，可以采用倾斜的分类边界，如图中红线所示。这样可以大幅减少测试次数，提高效率。多变量决策树正是通过这种方式实现更复杂划分的决策树。与传统单变量决策树不同，多变量决策树的非叶节点不仅考虑单一属性，还会考虑属性的线性组合。因此，在训练过程中，多变量决策树的目标不再是为每个非叶节点找到最佳分割属性，而是构建一个有效的线性分类器。

下图展示了多变量决策树的分类边界：

这种设计使多变量决策树具有更强的灵活性和适应性，能够处理更复杂的分类问题。

图灵汇

责任编辑：：梅花园陈述

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

深化模型决策基于机器了解学习

区块链动态

2020-05-29

图解机器学习：人人都能懂的算法原理