机器学习十大经典算法之一——决策树CART算法

科技茶会
2020-06-06 11:25:13 4

+关注

明天我们将分享一篇关于机器学习的文章，主题是十大数据挖掘算法之一的CART算法。

CART算法全称是“分类回归树”，是一种决策树模型的经典实现。我们已经介绍过ID3和C4.5算法，CART算法是该系列的最后一个部分。

算法特点

CART算法既支持分类也支持回归，但通常用于分类任务。CART算法与ID3和C4.5算法的主要区别在于，CART算法使用Gini指数而非信息增益来划分子树，并且每次将数据划分为两个部分。这意味着CART算法对拆分次数没有限制，而C4.5算法对每个特征的使用次数有限制。因此，CART算法需要更严格的剪枝策略以防止过拟合。

Gini指数

在ID3和C4.5算法中，使用的是信息增益和信息增益比，这些方法基于信息熵模型。计算信息熵需要进行对数运算，相比之下，Gini指数避免了对数运算，通过泰勒展开简化了计算过程。Gini指数的计算公式为：

[ text{Gini} = 1 - sum{i=1}^{k} pi^2 ]

其中，( p_i ) 表示类别i的概率。Gini指数越小，说明数据集的纯度越高。Gini指数与信息熵的概念非常接近，但在计算速度上更快。

数据拆分与剪枝

CART算法每次拆分数据都是二分的，这与C4.5处理连续特征的方式类似。然而，CART算法允许一个特征被多次使用。例如，如果西瓜的直径是一个特征，在CART算法中，这个特征可以在不同的节点中重复使用。

剪枝策略包括预剪枝和后剪枝。预剪枝在生成树的过程中限制树的增长，而后剪枝则在生成完整树后进行修剪。CART算法常用的一种剪枝策略是CCP（代价复杂度剪枝），其目标是衡量子树的复杂度代价。具体来说，通过计算误差代价的变化来判断是否进行剪枝。

代码实现

实现CART算法相对简单，只需要将C4.5算法中的信息增益比改为Gini指数即可。以下是Python代码片段：

```python import numpy as np from collections import Counter

def gini_index(dataset): dataset = np.array(dataset) n = dataset.shape[0] if n == 0: return 0 counter = Counter(dataset[:, -1]) ret = 1.0 for k, v in counter.items(): ret -= (v / n) ** 2 return ret

def splitgini(dataset, idx, threshold): left, right = [], [] n = dataset.shape[0] for data in dataset: if data[idx] < threshold: left.append(data) else: right.append(data) left, right = np.array(left), np.array(right) return left.shape[0] / n * giniindex(left) + right.shape[0] / n * gini_index(right)

def choosefeaturetosplit(dataset): n = len(dataset[0]) - 1 m = len(dataset) bestGini = 1.0 feature = -1 thred = None for i in range(n): thresholds = getthresholds(dataset, i) for t in thresholds: ratio = split_gini(dataset, i, t) if ratio < bestGini: bestGini, feature, thred = ratio, i, t return feature, thred ```

建树和预测的部分与C4.5算法类似，只需去掉离散特征的判断即可。