盛行的机器学习算法总结，协助你开启机器学习算法学习之旅

蒋孟婷
2020-06-22 08:10:44 3

+关注

机器学习算法概览

“机器智能是人类永远需要的一项发明。”——[b]尼克·博斯特罗姆[/b]

如果我们回顾几年前的人工智能并与现在的AI进行比较，我们会惊讶地发现，随着时间的推移，AI的发展速度呈现指数级增长。

AI已经扩展到了许多领域，包括机器学习、专家系统、自然语言处理等多个领域。

尽管人工智能的目标是构建更加智能、能自主思考和行动的系统，但仍然需要对其进行训练。机器学习是AI的一个重要分支，旨在实现高度精确的目标，通过引入多种算法，使数据处理和决策更加流畅。

什么是机器学习算法？

机器学习算法是使机器具备学习能力、变得更加智能的关键所在。这些算法通过提供初始数据，随着时间的推移，随着算法准确性的提高，逐步引入更多的数据。定期应用算法于新数据和经验的过程，有助于提高机器学习的整体效率。

机器学习算法在分类、预测建模和数据分析等方面发挥着至关重要的作用。

“机器学习领域的突破将带来巨大的价值。”——[b]比尔·盖茨[/b]

机器学习算法的类型

在本节中，我们将详细介绍现有的各类机器学习算法。主要的机器学习算法可分为以下几类：

监督学习

监督学习算法通过提供输入数据和预期结果来工作。通过在训练数据上迭代并允许用户调整参数，算法可以不断优化模型。如果预测结果准确，那么算法就被认为是成功的。

无监督学习

在监督学习算法对标记数据进行训练时，无监督学习则是在没有用户干预的情况下，对未标记数据进行训练。这类算法可以对数据进行分类和分组，识别出隐藏或未发现的类别，通常作为监督学习的初步步骤。

强化学习

强化学习算法的目标是在探索和开发之间找到最佳平衡，不需要标记数据或用户干预。这些算法通过选择一个动作并观察结果来工作，通过多次重复这一过程，算法逐渐学会采取正确的策略。

流行的机器学习算法

了解了几种类型的机器学习算法后，我们接下来介绍一些常见的算法。

线性回归

线性回归是一种监督学习算法，用于寻找数据点的近似线性拟合。线性回归的核心在于识别两个变量之间的线性关系，其中一个变量是因变量，另一个是自变量。它的原理在于了解一个变量的变化如何影响另一个变量，从而导致正或负的相关关系。

线性回归通常表示为一条直线Y = aX + b，其中：

Y是因变量
a是斜率
X是自变量
b是截距

这种算法适用于处理连续输入且具有恒定斜率的情况，例如：

销售额预测
风险评估
天气数据分析
预测分析
客户调查结果分析
产品价格优化

逻辑回归

逻辑回归算法主要用于解决二分类问题，即事件通常会导致成功或失败、正确或错误的结果。它最适合需要预测因变量属于两类之一概率的情况。

逻辑回归的常见应用场景包括：

笔迹识别
判断未来几个月内油价是否会下跌
信用评分
癌症检测
地理图像处理
手写识别
图像分割与分类
营销活动效果评估
某种产品收入预测
地震预测

决策树

决策树算法是一种监督学习算法，用于处理回归和分类问题。目的是通过决策树从观察数据中得出结果。

决策树是一种自上而下的方法，从训练数据中选择最合适的属性作为根节点，然后对每个分支重复该过程。决策树常用于：

知识管理系统建设
选择旅游航班
预测酒店入住高峰期
向客户推荐购车方案
预测并确定各领域可能性

Apriori算法

Apriori算法是一种常用的算法，常用于在线平台。它通过在数据集中搜索通用数据，然后在它们之间建立关联。通常用于数据挖掘和从关系数据库中学习关联规则。

该算法的核心思想是尽可能扩展相关项目，形成更有用的关联。其应用包括：

发现市场购买趋势

此外，它易于实现，并且可以应用于大型数据集。

朴素贝叶斯

朴素贝叶斯分类器是一种高效的监督学习算法，是最简单的贝叶斯网络模型之一。它通过贝叶斯定理对数据进行分析，并假设给定变量的条件下，所有特征之间具有条件独立性。

简单来说，考虑到事件B已经发生，用它来预测事件A发生的可能性。朴素贝叶斯适用于：

垃圾邮件过滤
推荐系统（如Netflix）
新闻文章分类（技术、政治或体育）
社交媒体情感分析
面部识别软件

人工神经网络

人工神经网络模仿人脑结构，模拟神经元之间的信息传递过程。这些相互连接的节点通过边缘将数据迅速传递给其他节点，从而实现快速处理，使得学习过程更加顺畅。

人工神经网络从数据集中学习，而不是通过一组特定的规则进行编程。它们可以用于非线性过程的建模，应用于：

模式识别
网络安全
数据挖掘
癌症检测

K均值聚类

K均值聚类是一种迭代的无监督学习算法，将n个观测值划分为k个簇，每个观测值都属于最近的簇均值。

该算法基于数据点的相似性聚合数据点集合。其应用包括：

识别虚假新闻
垃圾邮件检测和过滤
将书籍或电影分类
城市规划中的热门交通路线

支持向量机

支持向量机是一种监督学习算法，主要用于分类和回归分析。该算法通过建立一个能够将新示例和新数据分配到一个类别的模型来工作，每个类别间容易区分。在高维度数据中，SVM非常有效，并且存储效率高。

SVM的应用包括：

人脸识别
图像分类
文本和超文本分类
手写识别
药物疗法发现
生物信息学（蛋白质、基因、生物学或癌症分类）

K近邻算法

K近邻算法是一种用于回归和分类任务的监督学习算法。通常用于模式识别，该算法首先存储并使用距离函数识别数据中所有输入之间的距离，选择最接近中心点的k个指定输入，并输出：

最常见的标签（用于分类）
k个最近邻居的平均值（用于回归）

K近邻算法的应用包括：

指纹检测
信用评级
股票市场预测
洗钱分析
银行破产预测
汇率预测

降维算法

降维算法通过特征选择或特征提取方法减少数据集的维度空间或随机变量数量。该算法通常用于预处理数据集，去除冗余特征，使算法更容易训练模型。其优点还包括：

降低内存需求
减少计算资源
提高精度
降低噪声

一些流行的降维算法包括：

主成分分析
线性判别分析
局部线性嵌入
多维尺度

主成分分析

主成分分析是一种无监督学习算法，主要用于通过特征消除或特征提取减少特征空间的维度。它也是探索性数据分析和建立预测模型的工具。需要标准化的数据，PCA可以应用于：

图像处理
电影推荐系统
计算数据协方差矩阵
对协方差矩阵执行特征值分解
优化多个通信信道中的功率分配

PCA旨在减少数据集中的冗余，使其更简单而不影响准确性。通常应用于图像处理和风险管理等领域。

随机森林

随机森林通过多种算法实现决策树，用于处理分类、回归及其他类似任务。它的工作方式是创建多个决策树堆，并在这些决策树上重复训练模型以获得准确结果。最后，来自这些决策树的所有结果被组合在一起，以确定最常见的合适结果。

随机森林的应用包括：

银行账户和信用卡欺诈检测
检测和预测药物的药物敏感性
通过分析患者病历识别疾病
预测购买特定股票时的预计损失或利润

梯度增强和AdaBoost

增强是一种将弱学习者转化为强学习者的集成机器学习技术。当数据丰富时，需要使用增强算法，并且我们试图减少监督学习中的偏差和方差。两种流行的增强算法包括：

梯度增强

通常以迭代方式（如决策树）构建预测模型，通过梯度增强算法用于分类和回归问题。通过对强者的错误进行训练，从而提高弱者的学习能力，从而获得一个更准确的学习者。

AdaBoost

AdaBoost是自适应增强的缩写，当弱学习者失败时，它会改进模型。它通过修改附加到样本实例的权重，将更多的注意力集中在困难实例上，然后将弱学习者的输入合并为加权总和，作为最终的增强输入。

结论

机器学习算法对于数据科学家来说至关重要，因为它们在现实世界中的应用日益广泛。通过使用上述各种算法，我们可以找到最适合解决问题的算法。虽然这些算法既有监督学习又有无监督学习，但它们可以处理各种任务，并且可以与其他算法协同工作。

作者：Claire D.

[b]deephub翻译组：孟翔杰[/b]

图灵汇

责任编辑：：蒋孟婷

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

学习算法机器盛行协助开启之旅总结

唐婷

2020-06-22