图解机器学习基本算法

2019-11-12 13:47:52 4

+关注

提到机器学习，很多人可能会被各种复杂的算法和方法弄得不知所措。实际上，机器学习虽然有许多不同的方法，但只要掌握了正确的路径和方法，就能找到规律。

为了帮助大家更好地理解和选择机器学习的方法，Scikit-Learn 提供了一张清晰的路线图：

在机器学习领域，最基本的概念是监督学习和无监督学习。简而言之，监督学习是指数据已经被打上了标签，而无监督学习则是指数据没有标签。在无监督学习中，主要分为降维和聚类；而在监督学习中，主要分为回归和分类。

无监督学习

无监督学习主要用于处理没有标签的数据。在这种情况下，可以选择花钱请人标注数据，或者采用无监督学习的方法。

降维

降维是一种将高维度数据转换为低维度数据的技术。常用的降维方法包括PCA（主成分分析）、LDA（线性判别分析）和SVD（奇异值分解）等。

主成分分析 PCA

PCA 是一种经典的降维方法，通过找出数据的主要成分，从而去掉不重要的成分。比如，我们可以随机生成一些数据点，然后画出主成分的直线。这条线就是数据在降维后的主成分，而蓝色的直线则是数据点在新维度上的投影。

聚类

聚类是另一种无监督学习的方法，用于将具有相似特征的数据点归为一类。

层级聚类

层级聚类是一种构建层次结构的聚类方法。算法的步骤如下： 1. 初始阶段，所有数据点各自成为一个聚类。 2. 寻找距离最近的两个聚类，合并它们。 3. 重复第二步，直到所有的数据点都被聚集成一个大聚类。

KMeans

KMeans 是一种常见的聚类算法。具体步骤如下： 1. 随机选取K个中心点（例如K=3）。 2. 计算每个数据点到这K个中心点的距离，将数据点归入最近的中心点所在的聚类。 3. 移动中心点到相应聚类的中心位置，然后重复第二步和第三步，直到中心点不再变化。

KMeans 算法存在一些问题，例如如何选择K值、初始中心点的选择等。此外，KMeans 对于某些分布特殊的数据集可能无法有效分类。

DBSCAN

DBSCAN 是一种基于密度的聚类算法。其核心思想是通过寻找核心点及其密度相连的数据点来形成聚类。DBSCAN 不需要预先设定K值，但它需要设定两个参数：半径（Eps）和密度阈值（MinPts）。

监督学习

监督学习要求数据带有标签。根据预测内容的不同，可以分为回归和分类。回归用于预测数值型数据，而分类用于预测类别或离散数据。

回归

回归算法主要用于预测连续型的数据。其中，线性回归是最经典的回归方法之一。

线性回归

线性回归通过建立一个线性方程来预测因变量与自变量之间的关系。线性回归可以是单变量或多变量的。

对于高精度的需求，可以考虑使用随机森林、神经网络或梯度提升树。如果追求计算速度，决策树和线性回归也是不错的选择。

总结

本文通过交互式图表帮助大家更好地理解机器学习的基本算法。希望这些内容能让大家对机器学习有更深的了解。如有需要，欢迎随时联系我交流。感谢朋友Zidong的意见，他对本文做了部分修改和补充。

图灵汇

责任编辑：：

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

图解算法机器基本学习

2019-11-12

无监督学习

降维

主成分分析 PCA

聚类

层级聚类

KMeans

DBSCAN

监督学习

回归

线性回归

分类

逻辑回归

支持向量机 SVM

决策树

朴素贝叶斯

KNN

总结

机器学习算法和超参数选择的四种优化策略