图解机器学习基本算法
作者头像
  • 2019-11-12 13:47:52 4

提到机器学习,很多人可能会被各种复杂的算法和方法弄得不知所措。实际上,机器学习虽然有许多不同的方法,但只要掌握了正确的路径和方法,就能找到规律。

为了帮助大家更好地理解和选择机器学习的方法,Scikit-Learn 提供了一张清晰的路线图:

在机器学习领域,最基本的概念是监督学习和无监督学习。简而言之,监督学习是指数据已经被打上了标签,而无监督学习则是指数据没有标签。在无监督学习中,主要分为降维和聚类;而在监督学习中,主要分为回归和分类。

无监督学习

无监督学习主要用于处理没有标签的数据。在这种情况下,可以选择花钱请人标注数据,或者采用无监督学习的方法。

降维

降维是一种将高维度数据转换为低维度数据的技术。常用的降维方法包括PCA(主成分分析)、LDA(线性判别分析)和SVD(奇异值分解)等。

主成分分析 PCA

PCA 是一种经典的降维方法,通过找出数据的主要成分,从而去掉不重要的成分。比如,我们可以随机生成一些数据点,然后画出主成分的直线。这条线就是数据在降维后的主成分,而蓝色的直线则是数据点在新维度上的投影。

聚类

聚类是另一种无监督学习的方法,用于将具有相似特征的数据点归为一类。

层级聚类

层级聚类是一种构建层次结构的聚类方法。算法的步骤如下: 1. 初始阶段,所有数据点各自成为一个聚类。 2. 寻找距离最近的两个聚类,合并它们。 3. 重复第二步,直到所有的数据点都被聚集成一个大聚类。

KMeans

KMeans 是一种常见的聚类算法。具体步骤如下: 1. 随机选取K个中心点(例如K=3)。 2. 计算每个数据点到这K个中心点的距离,将数据点归入最近的中心点所在的聚类。 3. 移动中心点到相应聚类的中心位置,然后重复第二步和第三步,直到中心点不再变化。

KMeans 算法存在一些问题,例如如何选择K值、初始中心点的选择等。此外,KMeans 对于某些分布特殊的数据集可能无法有效分类。

DBSCAN

DBSCAN 是一种基于密度的聚类算法。其核心思想是通过寻找核心点及其密度相连的数据点来形成聚类。DBSCAN 不需要预先设定K值,但它需要设定两个参数:半径(Eps)和密度阈值(MinPts)。

监督学习

监督学习要求数据带有标签。根据预测内容的不同,可以分为回归和分类。回归用于预测数值型数据,而分类用于预测类别或离散数据。

回归

回归算法主要用于预测连续型的数据。其中,线性回归是最经典的回归方法之一。

线性回归

线性回归通过建立一个线性方程来预测因变量与自变量之间的关系。线性回归可以是单变量或多变量的。

对于高精度的需求,可以考虑使用随机森林、神经网络或梯度提升树。如果追求计算速度,决策树和线性回归也是不错的选择。

分类

分类算法用于预测离散型的数据。逻辑回归虽然是回归算法的名字,但实际是一个分类算法。

逻辑回归

逻辑回归通过预测某个事件发生的概率来进行分类。它与线性SVM分类有一定的区别。

支持向量机 SVM

对于高精度的分类任务,可以考虑使用核SVM、随机森林、神经网络或梯度提升树。SVM通过在空间中找到最佳分割线来实现分类。

决策树

如果需要可解释性强的分类结果,可以考虑使用决策树或逻辑回归。决策树是一种树状结构,每个非叶节点表示一个特征属性上的测试。

朴素贝叶斯

当数据量较大时,朴素贝叶斯是一个不错的选择。

KNN

KNN 是一种非常简单的分类算法。通过计算最近的K个邻居来决定分类结果。

总结

本文通过交互式图表帮助大家更好地理解机器学习的基本算法。希望这些内容能让大家对机器学习有更深的了解。如有需要,欢迎随时联系我交流。感谢朋友Zidong的意见,他对本文做了部分修改和补充。

    本文来源:图灵汇
责任编辑: :
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
图解算法机器基本学习
    下一篇