数据挖掘的十大经典算法,总算是讲清楚了,想提升自己的赶快收藏
作者头像
  • 钟焰艳
  • 2021-09-25 10:44:11 10

优秀的数据分析师不仅需要掌握基本的统计学、数据分析思维和工具,还必须具备一定的数据挖掘知识,以挖掘出有价值的数据。这正是数据分析专家与普通数据分析师之间的关键差异。

国际知名学术机构IEEE International Conference on Data Mining (ICDM) 评选出了数据挖掘领域的十大经典算法:C4.5、k-Means、SVM、Apriori、EM、PageRank、AdaBoost、kNN、Naive Bayes 和 CART。实际上,这18种算法中的每一种都在数据挖掘领域产生了深远的影响。今天我们重点介绍其中的10种经典算法,内容较为抽象,建议收藏以便日后学习。

1. C4.5

C4.5 是一种分类决策树算法,源自ID3算法。C4.5改进了ID3算法,包括: 1) 使用信息增益率来选择属性,避免了信息增益选择属性时倾向于选择取值较多的属性的问题; 2) 在树的构建过程中进行剪枝; 3) 支持连续属性的离散化处理; 4) 处理不完整数据的能力。

C4.5的优势在于生成的分类规则易于理解和准确率较高。然而,它的缺点在于构建树的过程中需要多次扫描和排序数据集,从而降低了效率。

2. K-Means

K-Means 是一种聚类算法,可以将n个对象根据属性划分为k个簇(k < n)。这种算法类似于处理混合正态分布的最大期望算法,因为它们都试图找到数据中的自然聚类中心。算法的目标是最小化各簇内样本的平均平方误差。

3. 支持向量机(SVM)

支持向量机(Support Vector Machine,简称SVM)是一种监督学习方法,广泛应用于统计分类和回归分析。SVM通过将向量映射到高维空间来实现分类,其目标是在不同类别的数据之间建立一个最大间隔的超平面。这种方法能够有效降低分类器的总体误差。

4. Apriori

Apriori 算法是挖掘布尔关联规则频繁项集的最有效算法之一。其核心思想是基于两阶段频集递推算法。在分类上,Apriori 属于单维、单层、布尔关联规则。所有支持度大于最小支持度的项集被称为频繁项集。

5. 最大期望(EM)算法

最大期望(EM)算法是一种在概率模型中寻找参数最大似然估计的算法,适用于包含无法观测的隐藏变量的概率模型。EM算法在机器学习和计算机视觉的数据聚类中广泛应用。

6. PageRank

PageRank 是Google算法的重要组成部分,由Google创始人之一拉里·佩奇提出。PageRank通过外部链接和内部链接的数量和质量来评估网站的价值。PageRank的核心理念是,链接越多,意味着被更多其他网站投票,从而反映网站的权威性。

7. AdaBoost

AdaBoost 是一种迭代算法,核心思想是通过训练多个弱分类器并将其组合成一个强分类器。算法通过改变数据分布来实现,根据每次训练集中每个样本的分类是否正确以及整体准确率来调整样本权重。

8. kNN(k-最近邻分类)

kNN(k-最近邻分类)是一种简单而成熟的机器学习算法。其原理是:如果一个样本在其k个最邻近样本中大多数属于某一类别,则该样本也属于这个类别。

9. 朴素贝叶斯(Naive Bayes)

在各种分类模型中,决策树模型和朴素贝叶斯模型最为常用。朴素贝叶斯模型因其坚实的数学基础和稳定的分类效率而广受欢迎。尽管理论上朴素贝叶斯模型具有最小的误差率,但在实际应用中,由于属性间可能存在相关性,其性能可能会受到影响。

10. CART(分类与回归树)

CART(分类与回归树)是一种分类和回归算法。其核心思想是递归划分自变量空间以及使用验证数据进行剪枝。虽然构建模型树的难度增加,但分类效果通常更好。

参考书籍:《机器学习实战》

希望以上内容对你有所帮助。

    本文来源:图灵汇
责任编辑: : 钟焰艳
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
讲清数据挖掘算法赶快算是提升十大收藏经典自己
    下一篇